据Facebook称,其全新的系统可以使技术摆脱对文本到语音输入的依赖。这项耗时的任务涉及人类聆听和转录数小时的音频,这是一个单调的过程,必须对每种语言进行重复。而Facebook的 "无监督 "系统则纯粹从语音音频和未配对的文本中学习,使其更好地了解人类交流的声音。
Facebook的模型基本上依赖于由 "生成器 "和 "辨别器 "组成的生成对抗网络(GAN)之间的反馈回路。前者“吐出”上传的语音模式的代表,看起来完全是胡言乱语,直到它们被放到相应的鉴别器网络中,后者充当了某种翻译。同时,Facebook还输入由人类编写的额外文本,以帮助生成器收集计算机化和真实世界结果之间的差异。这个过程不断重复,直到生成器的输出与真实文本相匹配。
Facebook表示,它的方法使它能够在没有任何注释数据集的情况下创建语音识别系统。该公司已经在斯瓦希里语、吉尔吉斯语(在中亚的吉尔吉斯斯坦共和国使用)和克里米亚鞑靼语上测试了这个模型–被称为Wav2vec-U(U代表无监督)–由于训练数据的差异,这些国家都缺乏高质量的语音识别工具。
Facebook的测试表明,该系统提供的错误比下一个最佳的无监督方法少63%。它补充说,该工具与几年前的监督系统一样准确。为了加速其发展,Facebook在GitHub上分享了Wav2vec-U的代码。
该公司表示,这一突破可以为全世界更多的语言和方言带来语音识别系统,帮助实现技术的民主化。自然,它将从这种扩散中受益。在Facebook的28.5亿月活跃用户中,有76%以上位于北美和欧洲之外。而自动翻译对其通过首选语言连接数十亿人的目标至关重要。
本文素材来自互联网