|
IMLIP@华为 | 语音语义技术讲座成功举行华为诺亚方舟实验室及中国人工智能学会多语种智能信息处理专委会(CAAI-IMLIP)于2021年9月3日周五共同举办了“语音语义技术交流讲座”,主要探讨语音交互的课题。 活动开始前,很荣幸邀请到北京理工大学张华平副教授和华为诺亚方舟实验室语音语义首席科学家刘群教授带来开场致辞。张华平教授介绍了IMLIP的背景与展望,鼓励听众加入专委会,期待发挥专委会强大的网络及资源,携手为我国多语种智能信息处理技术发展做出贡献。刘群教授介绍了华为诺亚方舟实验室的架构,分享了语音语义团队的研究方向、研究成果、学术影响、技术落地等方面的情况,并欢迎同学们来诺亚实习或者申请诺亚的研究员或博士后职位。
第一个专题报告主题是「多模态语音交互」,由华为诺亚语音语义研究员邢超主讲。邢超毕业于北京交通大学,曾在清华大学语音与语言研究中心担任研究工程师,2017年加入华为诺亚方舟实验室语音语义团队。他的研究兴趣主要在多模态语音交互方向,主要探索在如车载、视频会议和家居等封闭场景中的人机智能交互技术,在NAACL、IJCAI、ICASSP和INTERSPEECH等国际会议中发表多篇论文。 此次报告他从人机交互的角度出发,分析了现有语音交互方案的难点并提出了相应的改进方案。首先针对交互系统的系统性时延,流式语音理解的范式能保证高频高价值的用户意图得到系统最快速度响应。其次,邢超分享了引入人脸的辅助视觉信号如何能够大幅提升交互系统对环境噪声和人声干扰的鲁棒性,以及基于神经常微分方程的语音合成方案如何更好的平衡速度和质量,解决语音合成系统商用的瓶颈。 第二个专题报告主题是「基于Conv-Transformer的高效流式语音识别」,由华为诺亚语音语义研究员黄文勇主讲。黄文勇从事过语音识别、语音合成、预训练模型、句法分析等方向的工作与研究,目前主要的研究方向是语音预训练和多模态预训练。他分享了Conv-Transformer Transducer结构如何在公开数据集上超越传统的hybrid模型和之前的端到端模型,并展示其在延迟、帧率及模型参数量上的显着优势,有效解决基于Transformer模型的语音识别在多个数据集上取得了SOTA效果后,无法直接用于需要流式、实时运行的商用场景问题。
IMLIP专委会将持续举办多种类型多个方向的技术讲座、动态分享等活动,分享不同研究领域的课题与成果,为广大带来更多启发与交流! |