谷歌新系统：能在视频电话中检测到正在做手语的“讲话者”-域名频道资讯站

访问：

阿里云推出高校特惠专场：0元体验入门云计算快速部署创业项目

谷歌研究人员一篇在ECCV上发表的新论文描述了如何高效、几乎没有延迟地完成这项工作。如果手语检测成功了但却导致视频延迟或降级那就无法达到目的，所以他们的目标是确保模型既轻便又可靠。

据了解，该系统首先会通过一个名为PoseNet的模型来运行视频，该模型会估计每一帧中身体和四肢的位置。这个简化的视觉信息会被发送给一个模型，而该模型能根据使用German Sign Language（德国手语）的视频中的姿势数据进行训练，然后它将现场图像跟其认为的手语的样子进行比较。

谷歌新系统：能在视频电话中检测到正在做手语的“讲话者”

这个简单的过程已经在预测一个人是否在做手语方面实现了80%的准确率，另外再加上一些额外优化的话，准确率则达到了91.5%。

为了不向现有电话添加新的“某人正在做手语”的信号，该系统采用了一个巧妙的小技巧。其使用一个虚拟音源来产生20kHz的音调，这虽然超出了人类的听觉范围但却能被计算机音频系统注意到。这个信号在人们做手语的时候就会产生从而使语音检测算法认为他们是在大声说话。

目前，该系统还只是一个演示。

本文素材来自互联网

谷歌新系统：能在视频电话中检测到正在做手语的“讲话者”