时间:2020-10-21 16:51:43来源:互联网
谷歌今天推出了look -to- listen,这是一项新的视听语音增强功能,可以在iOS设备上捕捉YouTube上的故事。该公司表示,凭借人工智能和机器学习,它可以通过自动增强声音和减少背景噪音,让创作者拍出更好的自拍视频。
虽然智能手机的视频质量每一代都在不断提高,但音频质量仍然停滞不前。例如,人们很少关注如何使视频中的多人讲话和背景噪音不那么混乱、扭曲和难以理解。
这就是为什么两年前,谷歌开发了一种机器学习技术,利用视觉和音频线索来分离视频中受试者的讲话。通过对该模型进行大规模YouTube内容的训练,该公司的研究人员能够捕捉到语音和视觉信号之间的关联,比如嘴部动作和面部表情。这些相关性可以用来区分视频中一个人的讲话和另一个人的讲话,或者从嘈杂的背景噪音中区分讲话。
谷歌软件工程师Inbar Mosseri和谷歌研究科学家Michael Rubinstein表示,将这项技术应用到YouTube上并不是一件容易的事。在过去的一年里,look -to- listen团队与YouTube视频制作者合作,了解他们希望如何使用这一功能,在什么场景中使用,以及他们希望自己的视频保留怎样的语音和背景声音的平衡。look -to- listen模型也必须精简,以有效地运行在移动设备上;所有的处理都是在设备上通过YouTube应用程序完成的,以最小化处理时间并保护隐私。这项技术必须经过测试,以确保它在不同的记录条件下都能保持良好的性能。
“从听着看”的工作方式是,首先从给定流中分离出包含说话者面部的视频缩略图。组件输出在录制视频时从面部缩略图提取的,用于语音增强目的学习的视觉功能。录制完成后,音频和计算出的特征将被流式传输到视听分离模型,该模型会产生隔离和增强的语音。
Mosseri和Rubinstein表示,各种体系结构的优化和改进成功地将“收听听”的运行时间从台式机上的10倍实时降低到仅使用iPhone处理器的0.5倍性能。此外,它使系统的大小从120MB减小到6MB。结果是在YouTube故事录制结束后的几秒钟内即可获得增强的语音。
从听觉上看并不能消除所有背景噪音-Google表示,接受调查的用户更喜欢保持声音的氛围-该公司声称,该技术可以公平地对待不同外观的扬声器。在一系列测试中,“期待听”团队发现该功能在不同年龄,肤色,口语,音高,能见度,头部姿势,面部毛发和配件(例如眼镜)的扬声器上效果良好。
符合YouTube故事创建条件的YouTube创建者可以在iOS上录制视频,然后从音量控制编辑工具中选择“增强语音”,这将立即将语音增强应用于音轨并循环播放增强的语音。然后,他们可以将原始视频与增强版进行比较。
声明:文章仅代表原作者观点,不代表本站立场;如有侵权、违规,可直接反馈本站,我们将会作修改或删除处理。
图文推荐
2021-11-01 12:09:53
2021-11-01 11:09:53
2021-11-01 10:09:53
2021-11-01 09:09:52
2021-11-01 08:09:53
2021-10-31 19:09:53
热点排行
精彩文章
2021-11-01 12:10:04
2021-11-01 11:10:09
2021-11-01 10:10:07
2021-11-01 09:10:06
2021-11-01 08:10:09
2021-10-31 19:10:05
热门推荐