谷歌开拓出一种能够模仿大年夜脑“鸡尾酒会效应”的人工智能_人工智能_的人
该研究与已知的“鸡尾酒会效应(cocktail party effect)”有关。所谓“鸡尾酒会效应”,指的是人的一种听力选择能力,在这种情形下,把稳力集中在某一个人的发言之中而忽略背景中其他的对话或噪音,该效应揭示了人类听觉系统中令人惊奇的能力,即我们可以在噪声中发言。
同理,谷歌的这项研究可以让人工智能模拟大脑,在一个充满滋扰的环境中(例如到处都有其他的人在说话),将把稳力集中在一个单独的物体(例如某一个人)的能力。
人工智能模型常日很难以相同的效果调度外部输入,特殊是当涉及包含多个声音的音频流时更是如此。这已被证明是语音识别领域的紧张寻衅,这是当今神经网络的紧张运用领域之一。
谷歌表示,其研究职员通过开拓一种考虑到不同类型信息的深度学习模型的做法战胜了这一障碍:视觉输入。该技能被设计用于处理***,该人工智能可以剖析剪辑中显示的人物的嘴部动作,以使每个人都能与他们发出的声音进行匹配。一旦它建立起了必要的关联关系,模型就可以将单个的语音轨道分开。
教会人工智能有效地完成这项任务并不是一件随意马虎的事。谷歌的研究职员从YouTube上网络了100,000个***,提取了每个包含每个发言人声音的音频片段,然后将这些片段拼接成具有多个音轨的“合成鸡尾酒会”。该小组利用这个数据集来演习模型,以便在各种条件下都能够将说话者的声音与其他声音分开。
谷歌表示,结果是用户可以点击他们希望听到的人的脸部,并让***中的其他说话的人自动静音。该技能对这家搜索巨子来说有很多潜在的用场。
对付初学者来说,谷歌可以在YouTube中利用这个人工智能版本,让用户调出剪辑中的一些声音。对付在喧华的环境中录制的***来说,这可能是一个特殊大的便利,在这样的环境中有时候会难以听到发言者的声音。
该人工智能也有可能会改进Hangouts和Meet——谷歌的***会议做事——的用户体验,它能够让会议的参与者更随意马虎地专注于特定的人的语音。该搜索巨子乃至相信这项技能可以运用于医疗领域,例如可以开拓出更繁芜的助听器。
本文系作者个人观点,不代表本站立场,转载请注明出处!