谷歌正在用AI来从喧闹中识别熟人声音

据 Ars Technica 报导,
谷歌
研究人员开宣布一种深度学习体系,旨在协助计算机更好地辨认和别离出喧闹环境中的个别声响。正如谷歌本周在 Google Research Blog 上所称,该公司内部团队正试图仿制“人类大脑专心于某个声响来历时,可过滤掉其他声响”的功用。谷歌发布了 YouTube 视频,展现了该技能的实践运用状况。
谷歌表明,这项技能可以运用于运用单一音轨的视频,并能在视频算法中阻隔声响。谷歌称,这儿的视觉组件是要害,由于当或人的嘴在动时,这项技能会观察到,以便能在特定时间更好地辨认在或人的声响,并为视频的长度创立更准确的个人语音轨道。
这篇博客文章写道,研究人员在 YouTube 上收集了 10 万段“讲座和说话”视频,从这些视频中提取了近2000 小时的视频片段,并将音频与人工背景噪声混合。然后谷歌经过阅览人们在每个视频结构中说话的脸部动作和该视频原声带的谱图,练习技能人员将混合音频进行拆分。该体系可以分辨出哪个音频源在给定的时间内归于哪张人脸,并为每个扬声器创立独自的语音轨道。
谷歌特别指出,关闭字幕体系是该体系的一个优势,该公司表明已经在考虑“这一技能的广泛运用”,而且“现在正在探究将其归入各种谷歌产品的时机”。