机器聆听:使语音识别系统更具包容性

与语音技术的互动,如亚马逊的Alexa,苹果的Siri和谷歌助手,可以通过提高效率和生产力使生活更轻松。然而,在互动过程中产生和理解语音的错误是很常见的。当使用这些设备时,说话者通常会将他们的语言从正常模式转变为更大声、更慢的音域,称为技术导向语音。

对技术导向语音的研究通常集中在美国英语的主流变体上,而没有考虑到更容易被技术误解的说话者群体。在AIP出版社代表美国声学学会出版的《JASA快报》中,来自谷歌研究院、加州大学戴维斯分校和斯坦福大学的研究人员希望解决这一差距。

一个经常被语音技术误解的群体是说非裔美国人英语(AAE)的人。由于AAE说话者的自动语音识别错误率可能更高,因此可能会产生技术上的语言歧视的下游效应。

“在所有的自动语音识别系统中,黑人所说的每十个单词中就有四个被错误地转录了,”合著者锡安·蒙格沙说。“这影响了每个使用语音技术的机构中说英语的非洲裔美国人的公平,包括医疗保健和就业。”

“我们看到了一个更好地理解这个问题的机会,通过与黑人用户交谈,了解他们在使用语音技术时的情绪、行为和语言反应,”合著者考特尼·赫尔德雷斯说。

该团队设计了一个实验,测试AAE使用者在想象与语音助手交谈时,与与朋友、家人或陌生人交谈时是如何调整自己的语言的。该研究通过比较语速和音高变化,测试了熟悉的人类、不熟悉的人类和语音助手指导的语音条件。研究参与者包括19名被认为是黑人或非裔美国人的成年人,他们都经历过语音技术方面的问题。每个参与者向语音助手提出一系列问题。同样的问题被重复了一遍,就像对一个熟悉的人说话一样,又像对一个陌生人说话一样。每个问题总共记录了153次录音。

对录音的分析表明,与与他人交谈相比,说话者在与语音技术交谈时表现出两种一致的调整:说话速度更慢,音调变化更少(说话更单调)。

研究报告的合著者米歇尔·科恩说:“这些发现表明,人们对如何与科技交谈有自己的心理模式。”“考虑到语音识别系统的差异,他们采用了一套‘模式’,以便更好地理解。”

还有其他被语音技术误解的群体,比如说第二语言的人。研究人员希望扩大在人机交互实验中探索的语言种类,并解决技术障碍,以便它可以支持每个想要使用它的人。

作者:美国物理学会

链接:https://www.sciencedaily.com/releases/2024/04/240430131852.htm

著作权归作者所有。

声明:海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者与本网联系,我们将及时更正、删除,谢谢。电话:152 6451 3609,邮箱:1027830374@qq.com