狂飙的唇语解读是什么意思 AI翻译孟德海唇语

  • 狂飙的唇语解读是什么意思 AI翻译孟德海唇语已关闭评论
  • A+
所属分类:娱乐
摘要

这个春节,《狂飙》这部口碑好剧引发了全网“现象级追剧”。但昨天,有细心的观众发现,剧情人物突然出现台词“乱飙”的情况——大量后期配音,使孟德海这个角色“说话和口型对不上”。于是,一些铁杆粉丝努力读唇语对口型,试图找回原本的台词。 “看个剧,还得会唇语了?”虽是剧情需要,台词或许做出了适当改变,但也因此让一些好奇的观众突…

这个春节,《狂飙》这部口碑好剧引发了全网“现象级追剧”。但昨天,有细心的观众发现,剧情人物突然出现台词“乱飙”的情况——大量后期配音,使孟德海这个角色“说话和口型对不上”。于是,一些铁杆粉丝努力读唇语对口型,试图找回原本的台词。

“看个剧,还得会唇语了?”虽是剧情需要,台词或许做出了适当改变,但也因此让一些好奇的观众突发奇想学唇语。

事实上,人工唇读学习很难,那么AI唇读能不能助观众一臂之力呢?2月1日,天目新闻记者采访了浙江大学教授、视觉感知教育部-微软重点实验室副主任宋明黎。

电视剧《狂飙》剧集截图

观众无法识别的唇语 AI能读出来吗

AI怎么识别唇语呢?唇语识别是怎么实现的呢?

那首先要了解下唇语识别(lip-reading)——先从图像中识别出人脸,提取人说话时口型变化的特征,通过嘴型特征来识别音素。

“目前,AI唇读肯定还达不到语音识别接近百分之百的准确率,但它的准确率也能达到了百分之八十多。”宋明黎表示,在识别过程中,很可能会出现同音不同字的情况,但人们可以根据唇语翻译的文字,做进一步纠正后,便可以知道句子真实的意思。也就是说,在理想的情况下,通过AI唇读,观众们也是可以知道未经配音的原来的主要台词内容。

宋明黎表示,我们可以把视频输入通过人工智能已训练好的模型,这个模型可以提取嘴巴所在的位置,然后把嘴巴所在的位置框出来,形成“嘴巴动”的序列,“这个序列就是不同的字,把口型变化的序列当成音频一样输入模型,这个模型就会把它解析出来,形成文字。”

目前,宋明黎所在的课题组发布了国际上最大的普通话唇语标注数据集,“这个数据集是基于中央电视台的新闻联播来提取的,所以能够识别的必须是‘字正腔圆’的普通话。”宋明黎说,接下来,对于AI唇读的研究主要是让它更加适配于实际场景的数据。

即使是最先进的系统,也难以克服唇动中的模糊性,使其性能无法超越基于音频的语音识别。为了追求更高效的系统,阿里巴巴、浙江大学和史蒂文斯理工学院的研究人员已经设计了一种方法,利用从语音识别器中提取的特征作为补充线索。在衡量准确性的在两个唇语识别行业标杆基准测试上,以7.66% 和2.75%的字错误率优于已有技术。

不仅能读出唇语 未来还能读懂微表情

此外,唇读其实是聋校教学内容之一,人们学习唇语,需要的不仅是视觉感受能力和语言理解能力,还有培养判断推理能力;而且需要注意力高度集中才能完成,难度可想而知,“学会人工的唇读取决于个人的素质,但是AI如果做好的话,你就不用去刻意去学习,普惠性会比较强。”宋明黎说。

虽然目前AI读唇语还在研究阶段,但随着未来技术成熟,会催生出更多的应用场景,聋哑人群就是其中一个受益群体。

宋明黎团队曾经做过一个研究项目,设计一款穿戴式的智能设备,专为聋哑人群使用,它装有一个摄像头。虽然聋哑人听不见他人说话,但眼睛是好的,给他们佩戴一个AR眼镜,利用唇语识别的功能把文字显示在眼镜屏幕上,这样就起到一个增强现实的效果。

AI读唇还有一些特殊的场景,也是在《狂飙》电视剧中多次出现的场景。

“比如说公安或者是军人,他们要去执行任务,偷偷打入敌方内部,到了目标地点人们可能无法出声,但他可以用嘴型与队友交流,利用AI读唇就可以迅速识别出来。”宋明黎说,当然,这些应用场景的实现,还面临一些挑战。我们想让AI读唇更加接近于实际的场景。之前我们数据的收集,大多来自新闻联播主播播音,那样的唇语条件太过苛刻。我们还是希望采用实际普通人说话的场景,更具随意性,比如说话人的视角不是正对着听话人,可能角度有点偏,这种场景的实际意义更大。

“更重要的一点是,AI读唇语的准确率还要再提高,要达到非常接近语音识别程度的准确率,AI读唇才能真正被应用起来。如果准确率达不到要求,它推广起来就会有些障碍。目前我们还需要在现实中积累大量数据,用于训练人工智能。”宋明黎表示,在可以预见的将来,人工智能可以读取更多信息,除了读语音、读人脸、读唇语,读懂表情也是人们很感兴趣的一个方向。

现在国内外从事AI读表情的相关研究很多。宋明黎介绍,表情识别分成两种,一种是早期研究者把人的表情分成了6种情况,比如高兴、悲伤、沮丧和惊讶等。依照这6种表情类别,目前AI读表情技术基本可以做到百分之九十几的准确率,“但如今这个简单的分类已无法满足要求了,在实际使用时,人们更希望识别出人脸上的微表情。因为人和人之间交往沟通时,面部的微表情更多、更复杂,而且微表情更能展示人内心的真实想法。当然,AI读微表情的难度也更大。”