突破语音技术难题,网易云商论文入选国际语音会议ASRU

2023-10-19 16:05:09     来源:

“小爱同学,明天早上7点叫我起床”

“小度小度,来点轻松的音乐吧”

“天猫精灵,播放适合5岁孩子的故事”

大家熟悉的这些智能家居产品,背后都有语音技术的身影。

作为人工智能技术中的一个重要分支,语音技术让计算机能够理解和生成人类的语音,实现与人类自然、流畅、高效的交互,旗下有语音识别(ASR)、语义理解(NLP)、语音合成(TTS)等多个子类别,在智能客服、智能教育、智能家居、车联网等多个场景中展现出巨大的价值和潜力。

近期,专注于探讨语音技术热点难点问题的国际顶级语音会议 ASRU2023 公布论文入选结果,网易云商关于“加速CTC语音识别模型推理”的论文被大会录用,展现了网易云商突破技术难题的决心和实力。

据悉,ASRU研讨会是IEEE语音和语言处理技术委员会(SLTC)的旗舰技术活动,每两年举办一次,汇集了来自学术界和工业界的顶级专家和研究人员,共同探讨广泛的语音识别与理解问题,是语音与语言处理学术圈的顶会。

在这样一个极具影响力的技术顶会中脱颖而出,网易云商的这篇论文有何独特之处?解决了什么关键问题?让我们来一探究竟。

“目前主流的 ASR 模型都需要很大的 Encoder(编码器)来对语音序列信号进行建模,这在提升识别准确率的同时,也带来了极大的计算量。我们在论文中提出了一种新的语音识别模型推理方案,把 CTC(Connectionist Temporal Classification,一种序列建模算法,用于在语音识别,手写识别和其他序列问题中训练深度神经网络的算法) 引入到编码模块,根据 CTC 的输出概率动态调整编码过程”,论文作者侯同学介绍了论文的研究背景和方向。

看到这里,你可能觉得有点深奥。让小编用大白话来“翻译”一下。

语音识别的整个过程,简单粗暴可以分为四步:语音输入——编码——解码——输出。拿我们熟悉的微信语音转文字场景为例,输入一段语音,先要经过编码(将原始语音信号转换为数字表示,以便计算机可以对其进行处理和分析),然后进行解码(将数字表示的语音信号转换为模拟语音信号),最后输出文字结果。

在编码环节,为了将原始的语音信号转换为代码,需要借助 Encoder 进行建模和识别。以一句“你好”为例,短短的两个汉字,对应的序列长度就有近200帧(语音中一帧一般为20-50毫秒),这个过程带来了庞大的计算量和部署成本。

针对困扰行业的此问题,网易云商AI技术组开展深入研究。先通过使用 CTC 来标识每一帧是否是空白帧,随后,逐帧动态决定 Encoder 的层数,对于空白帧仅使用 Encoder 的一部分层建模,其他关键帧则使用整个 Encoder 建模。

用一种更灵活的方式,更简化的模型,加速了模型推理速度,降低了计算量和部署成本。实验结果表明,网易云商提出的这种方式,可以在保证识别效果基本不变的情况下,将模型的推理速度提升29%。这大大提升了 ASR 服务的性价比。

多年来,网易云商一直在AI语音技术领域不断探索,深入研究,并应用在网易云商旗下智能外呼、智能质检、呼叫中心、呼入机器人、坐席辅助等产品中,为企业用户带去高性价比、高效率、有温度的智能语音解决方案,在服务和营销场景大放异彩。

某主打国战玩法的魔幻题材 MMORPG 手游,公测至今已经 5 年,游戏运营团队主要采用常规的短信方式进行流失召回,单用户平均回流成本通常在 11-13 元左右。现在,他们希望找到成本更低、效率更高的方式。

运营团队选取了流失 4 年内的付费用户,以新服回归活动(送代币、坐骑、时装、抽取法宝)为利益点,采用网易云商提供的智能外呼方案进行大批量的召回,最终回流率达到 7.8%,单用户平均回流成本仅 2.8 元,流召活动整体 ROI 达到 15 倍。

语音技术在日常生活和生产应用中扮演着越来越重要的角色,网易云商将持续探索,攻坚克难,加速AI创新。

标签:

猜你喜欢

基调听云与日志易达成战略合作,共创可观测性行业新篇章!
在华为云空间沙龙,我找到了Mate60系列影像指南
法大大生态战略2.0全新升级,一份应需而变的答卷
京东双十一即将开启,赛乐瑞以细胞焕活科技,带来焕龄奇迹
信通院最新数据:63.57%企业用户认为在设计协作工具中MasterGo体验最佳
PME2023国际精密加工博览会在上海圆满闭幕,引领精密加工技术行业新发展,赋能中国质量
构筑融合发展新药研发新未来北京召开2023 E TOWN BIO新药研发数智高峰论
晶讯光电:国家专精特新“小巨人”,产品赢得众多全球领先制造企业青睐
微步在线再次亮相新加坡GovWare 2023
“青创太仓”德国专场暨“郑和杯”中德青年创新创业大赛决赛举行
杰发科技受邀出席第九届中国(大湾区)车联网大会智能网联汽车“创芯”论坛
科幻盛宴!三体宇宙、AI之梦等未来IP齐聚世界科幻大会,引爆科幻新热潮
UCloud优刻得响应“一带一路”,助力中国企业乘云出海
激荡数字经济新动能|网易(平顶山)联合创新中心正式开园
四维图新依托“数据要素”助推“一带一路”高质量发展
国民经济持续恢复向好,中诚国达激荡昂扬发展气象
网易(镇江)联合创新中心即将正式开园 助推镇江数字产业聚集发展
锐捷极简光3.0助力广东省国家级示范性学校数字校园建设
《2023年飞腾硬件生态产品手册》重磅来袭!自主生态助力信创产业走向纵深
提升用户粘性,广汽传祺App与火山引擎共建高质量社区内容生态
海嘉,你的名字叫做善 | 海嘉日,一场关于爱的薪火相传
intel 14代评测出炉,14700K最值得入手?海盗船电源为你保驾护航!
Hello语音QQ飞车手游深度合作:无与伦比的互动体验!
京东方全球首发定制LCD璨光高亮光机 小明V1智能投影仪上市
美学治愈之旅!东芝城市生活展即将亮相重庆,引爆期待!
产品持续升级,小度全屋智能百度世界大会2023再添大动作
生态融合 共赴征程 | 启明星辰精彩亮相中国移动全球合作伙伴大会
更快更全能更护眼 戴尔U2724DE评测
为更多用户带来旗舰级体验 三星推出Galaxy S23 FE、Galaxy Tab S9 FE与Galaxy Buds FE
思特奇担任中国移动AaaS+技术联盟联合发起单位