学术动态

学术动态

副标题

IMLIP资源

IMLIP资源

副标题

IMLIP@华为系列活动| 语音语义技术交流

    自然语言处理是人工智能中最为困难的问题之一。随着人类进入智能化时代,智能设备和数据量都空前增长,通过语音和语言进行人机交互需求也在急速增长,充满了机会和挑战。

    9月3日(周五)上午10点,华为诺亚方舟实验室跟中国人工智能学会多语种智能信息处理专委会共同主办语音语义线上技术交流,诚邀您一起探讨语音交互那些事儿!







主题一:多模态语音交互

微信图片_20210830153424.png


讲者:邢超,华为诺亚方舟实验室语音语义研究员。2015年毕业于北京交通大学,硕士学位。2015年至2017年在清华大学语音与语言研究中心担任研究工程师,2017年加入华为诺亚方舟实验室语音语义实验室。邢超的研究兴趣主要在多模态语音交互方向,主要探索在如车载、视频会议和家居等封闭场景中的人机智能交互技术,他在NAACL,IJCAI,ICASSP和INTERSPEECH等国际会议中发表多篇论文。


报告摘要:语音交互是如语音助手,问答机器人等人机交互产品的主要交互技术,这个分享从人机交互的角度出发分析了现有语音交互方案的三个难点:交互系统的系统性时延、交互系统对环境噪音和人声干扰的敏感性以及交互系统的声音合成质量,并提出了相应的改进方案。现有语音交互系统一般使用语音识别+自然语言理解的级联式系统,该系统需要检测到语音终止点来判断是否开始传输转写后的文本至语言理解系统,因而带来了至少300毫秒以上的延迟。为了解决这个难点,我们提出了流式语音理解的范式,这个范式可以保证高频高价值的用户意图得到系统最快速度响应。随着智能车舱,智能家居和智能会议等算法应用场景逐渐成熟,区别于传统智能手机的单一模态交互方式,引入人脸的辅助视觉信号能够大幅提升交互系统对环境噪声和人声干扰的鲁棒性。我们提出了动态合并和多头注意力合并等多模态视觉语音方案。







主题二:基于Conv-Transformer的高效流式语音识别

微信图片_20210830153434.png


讲者:黄文勇,华为诺亚方舟实验室语音语义研究员。从事过语音识别,语音合成,预训练模型,句法分析等方向的工作与研究,目前主要的研究方向是语音预训练和多模态预训练。


报告摘要:基于Transformer模型的语音识别在多个数据集上取得了SOTA效果,但无法直接用于需要流式、实时运行的商用场景。为解决这个问题,我们提出Conv-Transformer Transducer结构,在公开数据集上,超越了传统的hybrid模型和之前的端到端模型,并在延迟,帧率,模型参数量上有显著优势。



分享到:
ABUIABACGAAg6tCwgwYo1JH-0AUwggI4ggI

扫一扫关注微信公众号