使用人工智能来解码狗的叫声

你是否曾经希望你能明白你的狗想对你说什么?密歇根大学(University of Michigan)的研究人员正在探索人工智能的可能性,他们正在开发一种工具,可以识别狗的叫声是传达了顽皮还是攻击性。

同样的模型还可以从动物的叫声中收集到其他信息,比如动物的年龄、品种和性别。该研究与墨西哥普埃布拉国家天体物理、光学和电子研究所(INAOE)合作,发现最初以人类语言训练的人工智能模型可以作为训练以动物交流为目标的新系统的起点。

研究结果发表在计算语言学、语言资源和评估联合国际会议上。

珍妮丝·m·詹金斯计算机科学与工程学院教授、密歇根大学人工智能实验室主任拉达·米哈尔恰(Rada Mihalcea)说:“通过使用最初接受人类语言训练的语音处理模型,我们的研究打开了一扇新窗口,让我们可以利用迄今为止在语音处理方面所取得的成果,开始理解狗叫的细微差别。”

“对于与我们共享这个世界的动物,我们还有很多不了解的地方。人工智能的进步可以用来彻底改变我们对动物交流的理解,我们的研究结果表明,我们可能不必从头开始。”

开发能够分析动物叫声的人工智能模型的主要障碍之一是缺乏公开可用的数据。虽然有大量的资源和机会来记录人类的语言,但从动物身上收集这些数据却更加困难。

该研究的第一作者、密歇根大学计算机科学与工程专业的博士生Artem Abzaliev说:“从逻辑上讲,动物的叫声很难被征集和记录。”“它们必须在野外被动地记录下来,如果是家养宠物,则需要征得主人的同意。”

由于缺乏可用的数据,分析狗叫声的技术被证明很难开发,而那些确实存在的技术受到缺乏训练材料的限制。研究人员通过重新利用现有的模型来克服这些挑战,该模型最初是用来分析人类语言的。

这种方法使研究人员能够利用强大的模型,这些模型构成了我们今天使用的各种语音支持技术的支柱,包括语音到文本和语言翻译。这些模型经过训练,可以区分人类语言中的细微差别,如音调、音高和口音,并将这些信息转换为计算机可以使用的格式,以识别正在说的单词,识别说话的人等等。

Abzaliev说:“这些模型能够学习和编码人类语言和语音的极其复杂的模式。”“我们想看看我们是否能利用这种能力来辨别和解释狗叫。”

研究人员使用了74只不同品种、年龄和性别的狗在各种环境下的发声数据集。埃斯皮诺萨是INAOE的合作者,他领导了收集数据集的团队。然后,Abzaliev利用这些录音修改了一个机器学习模型——一种识别大型数据集中模式的计算机算法。该团队选择了一种名为Wav2Vec2的语音表示模型,该模型最初是在人类语音数据上训练的。

通过这个模型,研究人员能够生成从狗身上收集的声学数据的表示并解释这些表示。他们发现,Wav2Vec2不仅成功完成了四项分类任务;它也优于其他专门训练狗叫声数据的模型,准确率高达70%。

米哈尔恰说:“这是第一次利用针对人类语言进行优化的技术来帮助解码动物的交流。”“我们的研究结果表明,来自人类语言的声音和模式可以作为分析和理解其他声音(如动物发声)的声学模式的基础。”

除了建立人类语言模型作为分析动物交流的有用工具之外——这可以使生物学家、动物行为学家等受益——这项研究对动物福利也有重要意义。研究人员说,了解狗发声的细微差别可以极大地改善人类对狗的情感和身体需求的理解和反应,从而加强对它们的照顾,防止潜在的危险情况。