iOS上的YouTube故事获得了人工智能语音增强

时间：2020-10-21 16:51:43来源：互联网

谷歌今天推出了look -to- listen，这是一项新的视听语音增强功能，可以在iOS设备上捕捉YouTube上的故事。该公司表示，凭借人工智能和机器学习，它可以通过自动增强声音和减少背景噪音，让创作者拍出更好的自拍视频。

虽然智能手机的视频质量每一代都在不断提高，但音频质量仍然停滞不前。例如，人们很少关注如何使视频中的多人讲话和背景噪音不那么混乱、扭曲和难以理解。

这就是为什么两年前，谷歌开发了一种机器学习技术，利用视觉和音频线索来分离视频中受试者的讲话。通过对该模型进行大规模YouTube内容的训练，该公司的研究人员能够捕捉到语音和视觉信号之间的关联，比如嘴部动作和面部表情。这些相关性可以用来区分视频中一个人的讲话和另一个人的讲话，或者从嘈杂的背景噪音中区分讲话。

谷歌软件工程师Inbar Mosseri和谷歌研究科学家Michael Rubinstein表示，将这项技术应用到YouTube上并不是一件容易的事。在过去的一年里，look -to- listen团队与YouTube视频制作者合作，了解他们希望如何使用这一功能，在什么场景中使用，以及他们希望自己的视频保留怎样的语音和背景声音的平衡。look -to- listen模型也必须精简，以有效地运行在移动设备上;所有的处理都是在设备上通过YouTube应用程序完成的，以最小化处理时间并保护隐私。这项技术必须经过测试，以确保它在不同的记录条件下都能保持良好的性能。

“从听着看”的工作方式是，首先从给定流中分离出包含说话者面部的视频缩略图。组件输出在录制视频时从面部缩略图提取的，用于语音增强目的学习的视觉功能。录制完成后，音频和计算出的特征将被流式传输到视听分离模型，该模型会产生隔离和增强的语音。

Mosseri和Rubinstein表示，各种体系结构的优化和改进成功地将“收听听”的运行时间从台式机上的10倍实时降低到仅使用iPhone处理器的0.5倍性能。此外，它使系统的大小从120MB减小到6MB。结果是在YouTube故事录制结束后的几秒钟内即可获得增强的语音。

从听觉上看并不能消除所有背景噪音-Google表示，接受调查的用户更喜欢保持声音的氛围-该公司声称，该技术可以公平地对待不同外观的扬声器。在一系列测试中，“期待听”团队发现该功能在不同年龄，肤色，口语，音高，能见度，头部姿势，面部毛发和配件(例如眼镜)的扬声器上效果良好。

符合YouTube故事创建条件的YouTube创建者可以在iOS上录制视频，然后从音量控制编辑工具中选择“增强语音”，这将立即将语音增强应用于音轨并循环播放增强的语音。然后，他们可以将原始视频与增强版进行比较。