这是人类历史上第一次,直接从大脑中输出完整的口语句子。


近日, Nature杂志发表了一项新成果, 神经科学家设计了一种可以将大脑信号转换为语音的设备。通过最先进的脑机界面,根据大脑活动控制的虚拟声道来产生自然合成的合成语音。


简单来说,就是通过解码人类嘴唇、下巴、舌头和喉头等脑信号,将其转换成患者想表达的语音。


“这是第一次,我们可以根据个人的大脑活动生成完整的口语句子。” 加州大学旧金山分校神经外科教授,也是该成果的主要研究员Edward Chang说。


华裔科学家成功解码脑电波,不用开口就能说话!读心术将成为可能-Most01


华裔教授Edward Chang,加州大学旧金山分校神经外科教授,重点研究方向为言语、运动和人类情感的大脑机制。


语音障碍者广泛存在。由于各类事故、中风或神经退行性疾病(如肌萎缩侧索硬化症或肌萎缩侧索硬化症)中受伤而导致言语能力丧失,成千上万的人无法进行正常的交流。


用外部设备生成辅助语音输出早已有之。我们之前所熟知的,例如霍金使用的语音合成器,是通过人类眼睛和面部动作来拼写单词,在理想情况下,可以帮助瘫痪者每分钟输出多达 8 个单词。


华裔科学家成功解码脑电波,不用开口就能说话!读心术将成为可能-Most01

使用特制语音合成器的史蒂芬·霍金


但揭示大脑信号如何控制声道发音部位的运动仍具有挑战性。因为说话这一过程需要对声道咬合部位进行非常精确和快速的多维控制。而且,语音合成还存在一个与以往完全不同的挑战,就是解码声道运动和声音之间复杂的对应关系。自然语音产生涉及 100 多块小肌肉,从肌肉运动到声音的映射也不是一对一的。


合成能听懂的语音


在 Nature 的这项最新研究中,为了实现将脑信号转换为可理解的合成语音,并且是以流利说话者的速度输出,研究人员设计了一种神经解码器,明确地利用人类皮层活动中编码的运动学和声音表征来合成可听语音。


研究人员招募 5 名正在接受癫痫治疗的参与者,作为癫痫治疗的一部分,他们会通过电极监测大脑活动。研究人员在 5 名受试者大声说出几百个句子时,记录下他们的高密度脑电图(ECoG)信号,并跟踪控制语音和发生部位运动的大脑区域活动。


为了重建语音,研究人员设计了一种循环神经网络(RNN),首先将记录的皮质神经信号转化为声道咬合关节运动,然后将这些解码的运动转化为口语句子。


华裔科学家成功解码脑电波,不用开口就能说话!读心术将成为可能-Most01

图 | 用于语音合成的脑机接口(来源:Nature)


以前的语音合成研究采用了上图 a 的方法,即使用脑电图设备监测大脑语音相关区域的神经信号,并尝试使用循环神经网络将这些信号直接解码为合成语音。


而 Edward Chang 以及同事开发了一种不同的方法(上图 b),将解码分为两个步骤。


第一步,将神经信号转换成声道咬合部位的运动(红色),这其中涉及语音产生的解剖结构(嘴唇、舌头、喉和下颌)。而为了实现神经信号到声道咬合部位运动的转化,就需要大量声道运动与其神经活动相关联的数据。但研究人员又难以直接测量每个人的声道运动,因此他们建立了一个循环神经网络,根据以前收集的大量声道运动和语音记录数据库来建立关联。


第二步,将声道咬合部位的运动转换成合成语音


华裔科学家成功解码脑电波,不用开口就能说话!读心术将成为可能-Most01

图 | 神经解码语音合成过程(来源:Nature)


研究人员的这种两步解码方法,产生的语音失真率明显小于使用直接解码方法所获得的语音。在包含 101 个句子的试验中,听者可以轻松地识别并记录下合成的语音。


在另外的测试中,一名受试者首先按要求说出句子,然后再不出声地做出相同的发音动作。结果表明,无声言语的合成效果不如有声言语,但是研究人员认为仍有可能解码无声言语的特征。


所有当前用于语音解码的方法都需要使用发声语音训练解码器,基于这些方法的脑机接口技术也就不能让不会说话的人上手就用。对于已经丧失说话能力的患者来说,无法发声训练解码器是一个大问题。


但 Edward Chang 表示,虽然语音解码的准确性大大降低,但受试者在没有声音的情况下模仿发音仍然可以进行语音合成。至于那些不再产生语音相关运动的个体是否适用这套最新的语音合成脑机接口系统,还需要未来的进一步研究。


Chethan Pandarinath 和 Yahia Ali 认为,无论是在语音重建的准确性方面,还是在听众对所产生语句的辨识力方面,Edward Chang 及其同事的研究结果都为语音合成脑机接口的概念验证提供了令人信服的证据。


华裔科学家成功解码脑电波,不用开口就能说话!读心术将成为可能-Most01

(来源:麻省理工科技评论)


不过,要使该系统真正成为一个临床可行的语音合成脑机接口,还存在许多挑战,毕竟重构语音的可懂度(intelligibility)仍远低于自然语音。好在,通过收集更大的数据集并继续开发基础计算方法,或许可以进一步改善语音合成脑机接口技术。


由于不能直接在动物身上进行相关研究,这在一定程度上限制了人类语言产生的研究进展,但近十年来,随着深度学习和人工神经网络的出现,以及多学科协作的能力,从探索语言相关大脑区域的开创性临床研究,到语音合成脑机接口的概念证明,都取得了引人注目的快速发展。


随着语音合成脑机接口的概念证明,我们期待有关临床试验的早日开展,也期待那些语言障碍患者能够早日重获自由说话并与世界重新联系的能力。


 透过今天的新闻,窥探未来的世界 

华裔科学家成功解码脑电波,不用开口就能说话!读心术将成为可能-Most01

长按两秒识别关注