8月25日上午,语音及语言信息处理国家工程研究中心与人文与社会科学学院心理学系在南区三楼317会议室召开科研合作交流研讨会。语音及语言信息处理国家工程研究中心副主任凌震华、科大讯飞研究院杰出科学家潘嘉、心理学系执行主任孔燕、心理学系全体教职工参加会议。会议由心理学系主任助理何晓松主持。
凌震华介绍今年在人工智能领域内发表的关于语音以及语言的预训练模型与功能磁共振、近红外等脑科学设备所观测的数据之间的关系的预印本。其中,语言和语音中的深度神经网络的预训练模型中的低层与大脑中的低级脑区如听觉皮层的激活相关,而预训练模型中的高层与大脑中的高级脑区如额下回的激活相关。凌震华进一步介绍语音合成质量的主观评价。尽管主观评价有着重要优势,但是也存在一些不足,例如需要大量的被试、大量的句子,被试不认真答题,不同指标间的耦合程度高、系统间差异的分辨能力有限以及测试结果依赖对比系统等问题。心理学系硕士生陈钰璨调研大量文献,分享语言加工的神经基础。陈钰璨介绍与大自然的声音,比如汽车声、风声相比,人类的声音能够激活颞叶皮层。语音中的音调能够激活前侧颞叶皮层。语法和语义能够激活后下侧颞叶以及额下回。语音中所传达的情绪,例如快乐、愤怒,能够激活右侧杏仁核、左侧中央后回以及内侧额叶。这说明大脑对语言和语音的各个方面进行丰富表征。
双方围绕自然与合成语音在AI模型和大脑神经活动上的表征、以及合成语音的评估指标优化等方面进行深入的交流和讨论。科大讯飞研究院杰出科学家潘嘉提到研究过程中的视觉和听觉多模态信息的解析处理问题。心理学系主任助理何晓松认为,由于人脑工作记忆空间的局限性,在接受多媒体声学和视觉信息过程中,无法同时无损解析所有通道的信息。例如,人将注意力集中于听觉信息时,可能会降低对视觉信息的处理;而机器却能够无损的解析和捕捉所有的信息。心理学系执行主任孔燕补充道,人脑可能会通过注意调控,对信息进行选择性处理,可以不局限于单独注意听觉或者单独注意视觉,因此这种全通道和选择性处理的平衡可能是优化多模态信息整合模型的抓手。心理学系副主任张效初总结到,人工智能和神经的结合,应该是一个闭环的过程:人工智能要能在神经上产生激活以及神经上的激活要能够为人工智能的参数优化提供依据。
通过今天的研讨会,参会人员对语音人工智能的发展和认知神经心理学的研究方法有了深入的了解,形成了数个创新并且应用潜力强的合作点。今后,双方将保持紧密的合作关系,推动项目的进程。
(文:查汝晶 / 图:刘云杰)