脑机接口(BCI)助力失语者重获交流能力:纽约大学最新研究突破

近年来,脑机接口(BCI)技术取得了显著的进展,引发了科研界和公众的广泛关注。特别是在失语症的治疗领域,BCI技术为那些因神经系统缺陷而失去交流能力的患者带来了新的希望。失语症不仅严重影响了患者的日常生活,还对他们的职业发展和社会交往造成了巨大障碍。随着深度学习和BCI技术的不断发展,科学家们正努力通过神经语音假肢等创新技术,帮助失语者重新获得交流能力。

在这一领域,纽约大学VideoLab和Flinker Lab的联合研究团队近期在《Nature Machine Intelligence》杂志上发表了一项突破性研究,为失语症的治疗带来了新的曙光。这项名为“A neural speech decoding framework leveraging deep learning and speech synthesis”的研究,介绍了一个创新的可微分语音合成器,该合成器结合了轻量级卷积神经网络,能够将语音编码为一系列可解释的语音参数,并通过可微分技术重新合成语音。

研究团队首先构建了一个低维度的潜在表示空间,该空间通过一个轻量级的语音编解码模型,仅使用语音信号来生成。这个框架包含两个核心部分:ECoG解码器和语音合成器。ECoG解码器负责将ECoG信号转换为一系列可理解的声学语音参数,如音高、是否发声、响度及共振峰频率等;而语音合成器则负责将这些参数转换为频谱图,从而重构出自然且高保真的语音。

在实验中,研究团队共收集了48位受试者的数据,并在这一基础上进行了语音解码的尝试。通过神经信号到语音参数的映射,他们成功构建了一个高度可解释并适用于小数据集的神经语音解码系统。这一系统不仅能够处理不同空间采样密度的数据,还能同时处理左、右脑半球的脑电信号,展示了其在语音解码方面的强大潜力。

在失语症的治疗中,神经-语音解码的复杂性相对较高,其研发工作主要依赖于特殊的数据源——皮层电图(ECoG)。ECoG数据通常从进行癫痫治疗的患者中收集,这些患者的大脑中植入了电极以监测大脑活动。研究人员利用这些电极在发音时收集大脑皮层的数据,这些数据具有高度的时空分辨率,为语音解码研究提供了宝贵的信息。

值得一提的是,在这项研究中,研究者们使用了一种名为HuBERT的量化特征作为中间表征。他们结合预训练的语音合成器将这些特征转化为语音,这种方法不仅提高了语音的自然度,还保持了高准确性。然而,HuBERT特征并不能完全捕捉到发音者的独特声学特征,生成的声音往往是统一的发音者声音。因此,研究团队仍在探索如何更好地将这种通用声音转换为特定患者的声音。

尽管取得了显著的进展,但这项研究仍面临一些挑战和局限性。首先,数据量的限制是一个重要的问题。为了训练个性化的神经到语音解码模型,每个病人的可用数据时间通常仅约十分钟,这对于依赖大量训练数据的深度学习模型而言是一个显著的制约因素。其次,人类语音的高度多样性也增加了建模的复杂度。即使同一人反复发音拼读同一个单词,其语速、语调和音调等因素也可能发生变化,这为模型的构建增添了额外的难度。

未来,研究团队计划建立能够处理非网格数据的模型架构,并更有效地利用多病人、多模态的脑电数据。随着硬件技术的不断进步和深度学习技术的快速发展,我们有理由相信,脑机接口领域的研究将继续取得突破性的进展。在不远的将来,科幻电影中的脑机接口设想将逐渐变为现实,为失语症患者以及更多受神经障碍困扰的人士带来福音。