「唇语识别技术」看不透TA的心,但可以听懂TA的话

「唇语识别技术」看不透TA的心,但可以听懂TA的话导读 唇语识别有着极长的历史 古代的唇语师通过长期的训练 具备了 观察别人的嘴型 解读其表达语句 的能力 在现代社会里 一些听力障碍者们也会使用这种技巧与他人交谈 补充听力器官的不足 但这项工作对机器而言则要复杂了许多 唇语识别是一项集机器视觉与自然语言处理于一体的技术 通过视觉技术从图像中连续识别出人脸

大家好,我是讯享网,很高兴认识大家。

导读

唇语识别有着极长的历史。古代的唇语师通过长期的训练,具备了“观察别人的嘴型,解读其表达语句”的能力。在现代社会里,一些听力障碍者们也会使用这种技巧与他人交谈,补充听力器官的不足。

讯享网
但这项工作对机器而言则要复杂了许多。唇语识别是一项集机器视觉与自然语言处理于一体的技术。通过视觉技术从图像中连续识别出人脸,并提取此用户连续的口型变化特征,再其输入到唇语识别模型中,即可识别出该用户口型所对应的发音,进而计算出语句。
2003 年,Intel便已开发了唇语识别软件AVSR,开发者得以研发可以进行唇语识别的计算机。2016 年,谷歌唇语识别技术就已经支持 17500 个词,新闻测试集识别准确率达到了 50% 以上。
那唇语识别究竟是如何实现的?

本期将将以Amirsina Torfi 等人实现的使用 3D 卷积神经网络的交叉视听识别技术为引,介绍唇语识别技术。

唇语识别

唇语识别/Lip Reading

Github:github.com/astorfi/lip-reading-deeplearning​github.com

软件地址:暂无项目基于用于交叉视听匹配识别的3D卷积神经网络实现。模型结构如下图。模型具有以下四个特点:

  • 输入是音频和视频,输出是他们是否匹配
  • 标签是音频视频是否是一样的
  • 衡量音频视频3D卷积后的低维映射之间的欧氏距离
  • 两个重要的手段去掉多余数据
当音频损坏时,视听语音识别(AVR)被认为是完成语音识别任务的另一种解决方案,同时,它也是一种在多人场景中用于验证讲话人的视觉识别方法。

AVR 系统的方法是利用从某种模态中提取的信息,通过填补缺失的信息来提高另一种模态的识别能力。

这篇文章提出了利用耦合的三维卷积神经网络(CNN)架构,该架构可以将两种模态映射到表示空间,以使用学习到的多模态特征来评估音频 - 视频流的对应关系。

这种体系结构将结合空间和时间信息共同有效地发现不同模态的时间信息之间的相关性。通过使用相对较小的网络体系结构和更小的数据集,其方法超越了现有的用于视频匹配的相似方法的性能。

代码实现

输入管道必须由用户提供。其余实现将考虑包含基于话语的提取特征的数据集。 ▌唇语识别对于嘴唇跟踪,必须将所需的视频作为输入。首先,将cd转到相应的目录:
cd code/lip_tracking

讯享网
小讯
上一篇 2025-01-06 18:05
下一篇 2025-03-08 08:28

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/57305.html