4月10日,由中国人工智能学会颁发的我国智能科学技术最高奖“吴文俊人工智能科学技术奖”十周年颁奖盛典在北京揭晓。
在人工智能自然科学奖的5个一等奖中,唯一的语音相关奖项花落上海交通大学。获得该奖项的成果名为“鲁棒语音信号模式分析与识别的深度结构化建模理论与方法”,由上海交通大学计算机科学与工程系副教授、思必驰上海交通大学智能人机交互联合实验室副主任钱彦旻领衔的研究团队完成。
在4月11日召开的2020中国人工智能产业年会主论坛上,思必驰联合创始人、首席科学家,上海交通大学教授俞凯带来了题为《闭环学习与语言智能》的主题报告,分享了关于未来人工智能方法论的思考与实践。
思必驰联合创始人、首席科学家、上海交通大学教授俞凯
4月12日,由中国人工智能学会主办,苏州工业园区协办,中国人工智能学会吴文俊人工智能科学技术奖评选基地、智博天宫、上海交大、思必驰承办的“智能语音对话及听觉感知专题论坛”在苏拉开帷幕。
本次论坛由俞凯教授担任论坛主席。北京工业大学教授鲍长春、哈尔滨工业大学教授韩纪庆、中国科学院教授王岚、中科院声学所教授颜永红、清华大学教授郑方、苏州大学教授周国栋以及思必驰-上交大联合实验室副主任、上海交通大学副教授钱彦旻等智能语音信号处理及听觉感知计算方面的知名专家共同出席,就目前语音、对话及听觉技术研究的机遇、现状、进展、工业落地及未来挑战等多个方面做深入剖析和探讨。
北京工业大学教授鲍长春
鲍长春教授分享了《基于语音相位估计和声源空间特征的语音增强方法》报告,介绍了三种基于语音相位估计和声源空间特征的语音增强方法,即基于深度神经网络和相位修正函数的单通道语音增强方法、基于深度神经网络和相位解缠绕的单通道语音增强方法和基于声源空间特征和语音相位信息的多通道语音增强方法。探究了声源空间特征在多通道语音编码和增强上的应用。
哈尔滨工业大学教授韩纪庆
韩纪庆教授分享了《复杂环境下声学事件检测与场景识别》报告,重点介绍了非语音感知与理解方面的研究,主要涉及声学事件检测与场景识别,将分析其发展历程、面对的困难与挑战、相关工作的研究进展,以及团队所开展的工作等。
中国科学院教授王岚
王岚教授分享了《人工智能应用于言语重塑与康复》报告,表示针对言语障碍问题,可利用虚拟三维说话人技术模拟发音运动,应用于听障儿童和孤独症儿童的言语训练和康复;利用机器学习和人工智能技术开展构音障碍的语音自动评估和检测;利用多任务言语特征开展早期认知障碍检测和分类等。通过整合视觉和听觉模态信息,建立多模态交互的学习环境以提高言语障碍者的言语沟通和交流能力。
中科院声学所教授颜永红
颜永红教授分享了《语音技术在家电行业应用的机遇与挑战》,分享了对当前人工智能热的思考以及对语音行业在家庭应用的看法,探讨语音技术面临的挑战,并对可能的进一步发展进行探讨,对如何开展语音应用给出建议并简单介绍中科院语言声学与内容理解重点实验室在语音研发和应用方面的探索。
清华大学教授郑方
郑方教授分享了《声纹识别的录音重放攻击检测方法》报告,表示常见欺骗声纹识别的方法分别为人声模仿,声音转换,语音合成,录音重放和对抗攻击。其中,录音重放容易实施、效果逼真,对声纹识别系统产生巨大威胁。为检测录音重放攻击,研究者提出基于语音随机性、挑战响应、多模态和重放失真的检测方式。在重放失真检测方面,研究者从信号、特征、模型等多个方面入手,提出了多种失真检测方案。其中从信号层入手,研究重放导致的信道本质差异,可更好对未知攻击进行检测。
苏州大学教授周国栋
周国栋教授分享了《多模态情感分析研究》报告,有效地融合多模态的特征从而准确地进行情感分析,一直以来是多模态情感分析研究的重点和难点。该报告主要针对三种多模态情感分析任务:独白中单标签情感分类,独白中多标签情绪分类,对话中单标签情绪分类。并就此分别提出有效的解决方法:基于情感相关词选择策略的多模态情感分析方法、基于模态和标签依赖的多模态多标签情绪识别方法、基于上下文和说话者信息的多模态情绪识别方法。
思必驰-上海交大联合实验室副主任,上海交通大学副教授钱彦旻
钱彦旻教授分享了《鲁棒的语音信号模式分析与识别》报告,钱教授表示语音技术在实际应用过程中,面对“实战化”的真实复杂语音信号,语音数据的随机性和数据来源的多样性,会极大幅度影响语音处理系统性能。本报告介绍结构化的语音深度学习建模方法,通过模型的结构化设计和优化,有效改善语音技术在真实复杂场景下的鲁棒性。因在学术创新性上的成果,所提出的相关理论和方法也获得了2020年吴文俊人工智能自然科学奖一等奖。
论坛最后展开了尖峰对话,针对“用语音对话变革人机交互的现状,机遇和挑战”这个主题深度探讨。
未来,随着信息技术和机器学习方法的不断进步,以及互联网和物联网的推广和普及,以语音为入口的人机交互技术变得越来越重要。语音对话及听觉感知技术也逐渐成为学术界和工业届的一个新研究热点和应用趋势。