牛津科学家让人工智慧看电视学习读唇準确度比人类更高

导读 牛津大学的科学家与 Google DeepMind 人工智慧部门合作,藉助 BBC 提供的新闻报道片段,成功让人工智慧系统学会「读唇」,即在没

牛津大学的科学家与 Google DeepMind 人工智慧部门合作,藉助 BBC 提供的新闻报道片段,成功让人工智慧系统学会「读唇」,即在没有任何声音的情况下,通过嘴唇的形状及动作识别出背后的话语。虽然準确率只有 50%,但考虑到专业的人类唇读者 12% 的準确率,人工智慧显然又一次胜过了人类。

为了协助开发这套系统,BBC 提供了大量新闻片段和对应的字幕。然后,研究者在一个人工神经网路(Artificial neural network)中整合了最先进的图像和语音识别技术,利用新闻片段,让系统开始学习读唇。

语境分析

科学家称这个人工智慧系统为「观察-专注-拼读」(Watch, Attend and Spell)。步骤看起来似乎很简单,然而让人工智慧学会唇读并非易事。牛津大学工程系博士研究生 Joon Son Chung 解释,英文中有些发音,如 mat,bat,pat,唇形极其相似。这种情况下,无论是专业的唇读者,还是人工智慧,借助的都是上下文语境。

实际上,人工智慧所学习的,是分析同时出现的讯息,即唇形、词语以及后文紧接着出现的词语。由于系统学习的是新闻语言,现在已可以轻鬆地识别出「Prime」后面总是接「Minister」(首相),「European」后面接「Union」(欧盟)。但对于新闻主播不常使用的辞彙,系统识别起来仍然有一定的难度。

我们也推荐 人工智慧準确预测法庭判决结果 优势明显,但仍需较大改进

如前所述,虽然系统目前準确率高于人类,但仍然拥有其缺点,其中之一便是準确率。科学家表示,增加系统的準确率将会是他们未来最主要的研究目标。

此外,系统目前只能对录製好的完整句子进行唇读,无法实时运行。Joon Son Chung 表示,他们希望让系统学会即时唇读,不过,这个挑战的难度其实比提高系统準确率较低。

我们也推荐 马斯克警告:高级人工智慧可以瘫痪网际网路 帮助失聪人士

虽然离实际应用还需进一步的改进,但失聪人士援助团体 Action on Hearing Loss 已表现出极大的关注。技术研究经理 Jesal Vishnuram 称,人工智慧唇读技术可以提高语音到文本的转化速度和準确率,帮助听障人士观看电视,或者在嘈杂环境中听清声音。

牛津大学和慈善组织一致认为,人工智慧唇读技术不会取代人类唇读者。但在很多情况下,它将会成为辅助工具,提高人类唇读者或语音识别技术的效率和準确性。