降噪耳机在创造听觉空白方面做得非常好。但是,让佩戴者环境中的某些声音通过擦除仍然是研究人员面临的挑战。例如,苹果最新版的AirPods Pro可以自动为佩戴者调整声音水平——比如,当他们在交谈时,它会感应到——但用户几乎无法控制该听谁的声音,也无法控制何时听。
华盛顿大学的一个研究小组开发了一种人工智能系统,让用户戴着耳机看一个说话的人三到五秒钟,然后“注册”他们。这个系统被称为“目标语音听力”,它会取消环境中的所有其他声音,只实时播放已注册的说话者的声音,即使听者在嘈杂的地方走动,不再面对说话者。
该团队于5月14日在檀香山举行的ACM CHI计算系统人为因素会议上公布了他们的研究结果。概念验证设备的代码可供其他人使用。该系统还没有市售。
华盛顿大学保罗·g·艾伦计算机科学与工程学院教授、资深作者希亚姆·戈拉科塔(Shyam Gollakota)说:“我们现在倾向于把人工智能看作是基于网络的聊天机器人,可以回答问题。”“但在这个项目中,我们开发了人工智能,根据人们的喜好来改变戴耳机的人的听觉感知。有了我们的设备,即使你在一个嘈杂的环境中,有很多人在说话,你也可以清楚地听到一个人说话。”
使用该系统时,一个人戴着装有麦克风的现成耳机,轻按一个按钮,同时把头对准正在说话的人。然后,来自说话者声音的声波应该同时到达耳机两侧的麦克风;误差范围是16度。耳机将信号发送到车载嵌入式计算机,该团队的机器学习软件在那里学习所需扬声器的声音模式。该系统锁定说话者的声音,并继续播放给听者,即使这对夫妇四处走动。随着说话者不断说话,系统专注于已登记声音的能力也会提高,从而为系统提供更多的训练数据。
该团队在21名受试者身上测试了该系统,他们对注册演讲者声音的清晰度的平均评价几乎是未过滤音频的两倍。
这项工作建立在该团队之前的“语义听觉”研究的基础上,该研究允许用户选择他们想要听到的特定声音类别——比如鸟叫声或声音——并取消环境中的其他声音。
目前,TSH系统一次只能注册一个演讲者,并且只有当没有另一个响亮的声音来自与目标演讲者的声音相同的方向时,它才能注册演讲者。如果用户对音质不满意,他们可以对扬声器进行另一次注册以提高清晰度。
该团队正在努力将该系统扩展到未来的耳塞和助听器。
作者:华盛顿大学
链接:https://www.sciencedaily.com/releases/2024/05/240524171429.htm
著作权归作者所有。
声明:海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者与本网联系,我们将及时更正、删除,谢谢。电话:152 6451 3609,邮箱:1027830374@qq.com
2024-06-03 09:41:45
华盛顿大学