8月20-24日,全球最大的综合性语音领域的科技盛会——INTERSPEECH 2023在爱尔兰都柏林举办。网易易盾两篇学术论文被INTERSPEECH官方录用,与世界顶级学术圈层共享学术研究成果。
这是网易易盾AI团队继ICASSP后,论文再次被国际性顶级学术会议录用。至此,网易易盾已解锁全球两大语音学术顶会论文全部录用的成就。
INTERSPEECH在国际上享有极高盛誉并具有广泛的学术影响力,是由国际语音通讯协会(ISCA)创办的旗舰级国际会议,也是全球最大的综合性语音信号处理领域的科技盛会。它涵盖了语音识别、语音合成、语音增强、自然语言处理等多个领域,每年都吸引了来自世界各地的数千名学者、工程师和企业家参与交流和展示。
据INTERSPEECH 2023的统计数据,有上千人参与了会议,这些参会者来自全球数十个国家/地区,其中包括中国、美国、日本、英国、法国、德国、印度等。会议共收到来自全球顶级实验室、顶级大学、顶级研究团队共3000篇以上论文投稿,网易易盾在INTERSPEECH2023上有2篇论文入选,主题分别为《Enhancing the Unified Streaming and Non-streaming Model with Contrastive Learning》、《Language-Routing Mixture of Experts for Multilingual and Code-Switching Speech Recognition》。
同时,易盾AI算法研究团队也前往现场,与各研究人员会面,围绕我们最新的语音技术进行问答和演示。这有助于全球语音学术界的研究水平,为研究人员圈层的学术交流提供参考。
01.
“Hello,贾维斯”?语音AI可以实现!
"你好,贾维斯。”
“随时为您效劳,先生。”
电影《复仇者联盟》中钢铁侠与其AI智能管家贾维斯,为我们展示出一个充满科技设想的未来智能家庭场景,彼时,我们或许惊叹于电影的超现实概念描绘,但放眼到今天,随着人工智能(AI,Artificial Intelligence)技术的不断进步,科幻电影的设想照进现实并非遥不可及。
在电影中, 钢铁侠与其AI智能助手贾维斯的沟通协作全部都是通过语音对话实现。因此,如果想要尽早将这样的未来场景搬入现实,语音识别与人工智能技术的结合与研究,是关键中的关键。语音识别是指将人类的语音信号转换为文本或命令的技术,它涉及到语音信号处理、自然语言处理等领域。语音识别技术可以让我们通过语音来与电脑或手机等设备进行交互,提高了输入和操作的效率和便捷性。例如,我们可以通过语音来搜索信息、发送短信、打电话、控制智能家居等。像“贾维斯”这样的AI语音助手就是一种基于语音识别技术的智能服务,它可以理解用户的语音指令,并根据用户的需求提供相应的服务或信息。
当然,一种技术的突破与创新,应用在个人生活场景中只是该技术价值中的一部分,将技术结合到企业服务方向的应用可以让价值最大化。
02.
对比学习、语种转码与数字内容风控
以网易易盾的两篇论文为例,我们将解释,语音AI技术是如何应用到数字内容风控服务场景并且为客户服务提升价值。
在易盾智能语音检测业务场景中,存在实时(流式)检测需求和离线(非流式)检测需求。流式\非流式一体化模型是指一个模型可以同时满足流式场景和非流式场景的识别需求,它降低了模型开发,训练和部署的成本。在实际的使用过程中模型性能仍然是易盾AI团队关注的重点,大多数场景下一体化模型往往存在两个性能差距,如下图所示。
(1)一体化模型的非流式识别性能优于流式识别。
(2)完全非流式模式训练出来的纯离线模型性能优于一体化模型中的离线解码模式。
易盾AI团队希望这两个性能差距越小越好,一方面希望流式识别的效果能向非流式识别靠近,另一方面希望一体化模型的非流式识别和纯离线模型相比没有性能损失。如何进一步提升一体化模型性能是一个具有挑战的问题。从模型表征的角度出发,如果流式表征能够向非流式靠拢,那么流式识别内容也会与非流式识别更相似,也就意味着流式识别的效果能向非流式识别靠近。
基于这个动机,易盾AI算法团队提出利用对比学习方法来缩小流式和非流式模式之间的内在表征差距,从而提升一体化模型的性能,如下图所示。
易盾AI算法团队把每一帧的流式表示和非流式表示作为正样本对,同时从非流式模式的其他帧随机采样多个负样本,利用对比学习拉近正样本之间的距离,同时加大负样本之间的差异化。通过让流式和非流式相互对比学习,同时完成两种模式的训练。
研究在开源数据集和易盾业务场景验证了算法的有效性,结果表明基于对比学习的一体化模型取得了显著的性能提升。在业务数据上,该方法短期内帮助网易易盾取得了原本需要花一个季度数据积累才能获得的效果提升。
此外,在多语言语音场景中,广泛存在多种语言中的单语语音和包含两种或以上语言的语码转换语音。因此,多语种语音识别系统需要同时支持以上两种场景语音的识别。为此易盾AI团队设计了一种引入语种“路由”机制和混合专家系统(MOE)的混合语种识别方法,我们简称为LR-MoE。LR-MoE在混合专家模块将不同语种交给相对应的“专家”模块进行处理,在降低计算开销的同时又提升了多语种和混合语种的识别效果。
实际业务中,用户在使用多语种语音识别系统时往往存在以下需求:
1. 人工配置语种实现对特定语种的语音识别能力,如特定国家或地区的内容平台;
2. 未知语种信息时支持对任意语种语音的自动识别,如多语种内容平台。
结合实际业务需求和上述提出的方法,易盾AI团队设计了基于LR-MoE的多语种语音识别架构,通过模型内置、灵活可配的帧级语种分类器,支持多语言多需求的智能语音内容检测。
上述架构能同时支持多语言单语和语码转换语音的识别,减少语种间的混淆,在实际多语种业务中识别效果相对提升10%以上;并支持用户主动配置语言和自适应识别两种使用模式,赋能出海企业的智能语音内容风控。
03.
学术顶会常客:易盾AI实验室
网易易盾作为网易集团旗下一站式数字内容风控品牌,为面向数字化业务的客户提供专业可靠的安全服务,涵盖内容安全、业务安全、移动安全三大领域,全方位保障客户业务合规、稳健和安全运营。
网易易盾很早就认识到技术的创新可以为产品和服务带来呈几何增长的价值提升,设立了网易易盾AI实验室,此次入选的两篇论文均出自于该团队。作为网易易盾下设的始终走在人工智能研究前沿的技术团队,易盾AI实验室致力于围绕精细化、轻量化、敏捷化打造全面严谨、安全可信的AI技术能力,不断提升数字内容风控服务水平。在这之前,团队曾获得多项 AI 算法竞赛冠军及重要奖励荣誉:
•2019年第一届中国人工智能大赛 旗帜识别赛道最高级A级证书;
•2020年第二届中国人工智能大赛 视频深度伪造检测赛道最高级A级证书;
• 2021年第三届中国人工智能大赛 视频深度伪造检测和音频深度伪造检测赛道两项最高级A级证书;
•2021年中国人工智能产业发展联盟“创新之星”、“创新人物”;
•2021年第十六届全国人机语音通讯学术会议(NCMMSC2021)“长短视频多语种多模态识别竞赛”—汉语长短视频直播语音关键词(VKW)双赛道冠军;
•2021年获得浙江省政府颁发的科学技术进步奖一等奖;
•2022年ICPR多模态字幕识别比赛(Multimodal Subtitle Recognition, 简称 MSR 竞赛,国内首个多模态字幕识别大赛)赛道三“融合视觉和音频的多模态字幕识别系统”冠军;
•2023年,《Improving CTC-based ASR Models with Gated Interplayer Collaboration(基于 CTC 的模型改进,实现更强的模型结构)》论文入选ICASSP。
已成为顶级学术会议常客的网易易盾AI实验室,还将在包括语音AI在内的等各AI方向上深入研究,持续用技术为服务创造更大的空间。
“贾维斯”在彼时2008年《钢铁侠》上映之时,看似触不可及。此时回头再看,也许“贾维斯”都显得稍欠想象力。可以确定的是,我们正处在科技大爆炸的前夕,5G、人工智能、物联网、大数据、云计算等等这一切底层技术的研究都将在未来的数年内不断诞生各种可以应用在生活中的产品和服务。
在数字内容风控领域的语音AI研究和应用,网易易盾并不只追求快,我们更加希望我们的步伐是稳健和坚定的,以及切实为客户创造价值。