人工智能是如何让瘫痪女性恢复声音

加州大学旧金山分校和加州大学伯克利分校的研究人员开发了一种脑机接口(BCI),使一名因脑干中风而严重瘫痪的女性能够通过数字化身说话。

这是第一次演讲或面部表情从大脑信号合成。该系统还可以以每分钟近80个单词的速度将这些信号解码为文本,这比商业上可用的技术有了巨大的进步。

爱德华·张(Edward Chang)医学博士,加州大学旧金山分校神经外科主任,十多年来一直致力于这项被称为脑机接口(BCI)的技术,他希望2023年8月23日发表在《自然》杂志上的这项最新研究突破,将在不久的将来促成一种获得fda批准的系统,使大脑信号能够说话。

“我们的目标是恢复一种完整的、具体化的交流方式,这确实是我们与他人交谈的最自然的方式,”Chang说,她是加州大学旧金山分校韦尔神经科学研究所的成员,也是Jeanne Robertson杰出的精神病学教授。“这些进步使我们更接近于让它成为患者的真正解决方案。”

Chang的团队之前曾证明,在一个多年前也经历过脑干中风的人身上,将大脑信号解码成文本是可能的。目前的研究表明了一些更有野心的事情:解码大脑信号,使其具有语言的丰富性,以及对话过程中使人面部有活力的动作。

Chang将一个由253个电极组成的纸薄矩形植入到这名女性的大脑表面,他的团队发现这些区域对说话至关重要。电极截获的大脑信号,如果不是中风,会传到她的肌肉,舌头,下巴和喉咙,以及她的脸。一根连接到她头上的端口的电缆,将电极连接到一组电脑上。

几周以来,这位参与者与团队合作,训练系统的人工智能算法来识别她独特的大脑语音信号。这包括从1024个单词的对话词汇中不断重复不同的短语,直到计算机识别出与声音相关的大脑活动模式。

研究人员没有训练人工智能识别整个单词,而是创建了一个从音素中解码单词的系统。这些是构成口语单词的语音亚单位,就像字母构成书面单词一样。例如,“Hello”包含四个音素:“HH”、“AH”、“L”和“OW”。

使用这种方法,计算机只需要学习39个音素就可以破译任何英语单词。这不仅提高了系统的准确性,而且使其速度提高了三倍。

“准确性、速度和词汇量至关重要,”肖恩·梅茨格(Sean Metzger)说,他与亚历克斯·席尔瓦(Alex Silva)共同开发了这款文本解码器,两人都是加州大学伯克利分校和加州大学旧金山分校联合生物工程项目的研究生。“随着时间的推移,它让用户有可能和我们一样快速地交流,并进行更自然、更正常的对话。”

为了创造这个声音,该团队设计了一种合成语音的算法,他们使用她在婚礼上讲话的录音,将其个性化,使其听起来像她受伤前的声音。

制作人工智能面部动画的Speech Graphics公司开发了一款软件,可以模拟面部肌肉运动,并将其动画化。研究人员创建了定制的机器学习过程,使该公司的软件能够与女性试图说话时大脑发出的信号相匹配,并将这些信号转换为虚拟形象面部的动作,包括下巴张开和闭合、嘴唇突出和收缩、舌头上下,以及快乐、悲伤和惊讶的面部动作。

“我们正在弥补因中风而切断的大脑和声道之间的联系,”与Chang和加州大学伯克利分校电子工程和计算机科学教授Gopala Anumanchipalli一起工作的研究生Kaylo Littlejohn说。“当受试者第一次使用这个系统说话并同时移动化身的脸时,我就知道这将会产生真正的影响。”

对于团队来说,下一步重要的是创建一个无线版本,不需要用户物理连接到BCI。

“让人们能够用这项技术自由地控制自己的电脑和手机,将对他们的独立性和社交互动产生深远的影响,”共同第一作者、神经外科兼职教授大卫·摩西博士说。


作者:加州大学旧金山分校

链接:https://www.sciencedaily.com/releases/2023/08/230825122044.htm

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

声明:海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者与本网联系,我们将及时更正、删除,谢谢。电话:15264513609,邮箱:1027830374@qq.com