RTE2024 | 标贝科技:《语音合成大模型与高质量数据》

2024-10-30 17:49:07     来源:

近日,由声网和RTE开发者社区联合主办的RTE2024第十届实时互联网大会在北京成功举办。标贝科技联合创始人&CTO李秀林受邀出席会议,并在“重塑语音交互:音频技术和 Voice AI”技术专场发表《语音合成大模型与高质量数据》主题演讲。

image.png

RTE大会创立于2015年,是亚太规模最大的实时互联网技术盛会,覆盖200+行业场景、累计影响200w+开发者。RTE2024以「AI 爱」为主题,邀请了众多技术专家和开发者,围绕AI Codec、语音合成、多模态大模型、空间计算、AI Infra等热门技术话题,共同探索RTE+AI的新融合与无限可能。

在“重塑语音交互:音频技术和 Voice AI”技术专场,标贝科技联合创始人&CTO李秀林博士围绕 “语音合成大模型与高质量数据” 主题,分享了在大模型时代中语音合成技术的最新发展趋势和机遇,以及标贝科技在语音合成大模型领域的技术研发、高质量数据集建设与大模型训练的关系等实践经验。

大模型时代对语音合成的新期待

2014年,一部讲述人类与AI爱情的电影《Her》爆火。影片里,男主角西奥多的工作生活均靠一套语音操控的随身设备来操控。例如,用语音输入信件内容,代替不善表达情感的人写情书,通过语音指令收听歌曲、接收邮件等。后来,西奥多遇到了AI机器人“萨曼莎”。“萨曼莎”拥有一副温柔的嗓音,不仅非常体贴还很懂西奥多。在和“萨曼莎”的长期语音交流中,西奥多坠入爱河,开始了一段“人机恋”。

十年过去,在技术的推动下,这部电影里的科幻场景不断照进现实,各种语音产品极大的丰富了用户的AI交互体验。

随着应用场景的不断拓展,千篇一律的“标准音色”早已无法满足多样化声音需求,用户对合成声音的要求日益提升。他们渴望更加个性化、富有特色、能够产生情感共鸣的声音体验。这些新的需求为语音合成技术的发展指明了新的方向。

事实上,作为人工智能领域的一个重要分支,语音合成紧跟大模型技术的发展,已经展现出巨大的应用潜力,让合成声音的效果达到了一个新的高度。在声音克隆、跨语种合成、语音控制等任务中展现出卓越效果,实现音质、断句气口、韵律节奏、风格、感知等方面都达到更生动、更具情感表现力的听觉体验。

目前,国内外AI企业都在围绕语音交互展开深度布局,相继推出自己的语音合成大模型。例如微软的VALL-E、阿里的Cosy Voice等。

标贝科技语音合成大模型

标贝科技深耕人工智能语音领域多年,致力于智能语音技术的创新研发和商业化应用。基于深厚的技术积累,推出自研的语音合成大模型。

image.png

依托新一代大模型能力,标贝科技语音大模型在捕捉音频特征和上下文关系方面表现出色,仅使用三秒左右的样音,就可以生成极为自然、保真且个性化的合成音色,同时保留样音中所体现的情感特点,精准贴合每位用户的独特需求。

相较于传统语音合成技术,标贝科技的语音大模型以更精准、快速的方式,在音质、断句气口、韵律节奏等方面达到以“AI”乱真的合成新高度。

除了超自然的合成效果外,标贝科技语音合成大模型支持微调功能。即在预训练模型的基础上,针对具体的应用场景、目标用户或特定需求,对模型进行优化和调整,提高模型在特定场景下的表现。

例如,在短视频配音中,生成具有个性化风格和情感的语音提高视频的观赏性和吸引力;在教育领域,生成符合不同年龄段学生需求的语音,提高学习效果。通过微调,让语音合成大模型灵活应用于不同的领域和场景,生成更加符合用户需求的语音。

标贝科技高质量语音合成数据,拓宽语音大模型边界

“高质量数据是大模型的核心竞争力之一。”标贝科技联合创始人&CTO李秀林博士在演讲中强调。

李秀林博士解释,在语音合成领域,数据的多样性和质量直接决定了模型能否学习到丰富的语音特征和模式。特别是在 SFT(微调) 过程中,精标语音合成数据是提升模型性能和质量的关键因素之一。高质量的数据集包含了清晰、自然、多样化的语音样本,这些样本能够帮助模型更好地捕捉到语言的细微差别,如语调、音色、语速、情感、风格等,从而提升语音合成系统的整体表现。

成立多年来,标贝科技基于高质量的精标数据能力以及丰富的多模态数据资源,为客户提供数据采标、数据管理、模型训练与优化、部署与应用一站式服务体验。目前已经拥有近40+语种及方言高标准合成数据库,包括英语、巴葡、马来语、越南语、菲律宾语、泰语、印尼语、印地语、阿拉伯语、日语、韩语、俄语、德语、西班牙语、法语、意大利语等语种,覆盖儿童、少年、青年、中年、老年不同年龄段,以及多风格、多情感音色,让模型能够覆盖多样化的内容表达和使用场景,更加贴近真人的自然表达。

image.png

通过大规模、高质量的数据训练,目前语音合成大模型已经展现出了令人瞩目的性能表现,不仅为语音交互、语音助手等应用场景提供了强有力的支持,也为未来的语音合成技术发展奠定了坚实的基础。我们期待,在不久的将来,语音合成大模型将在更多领域发挥重要作用。标贝科技也将依托大模型支撑,持续精进与优化声音定制服务,打造更加细腻、自然且高度个性化的人机交互体验。

 

标签:

猜你喜欢

微博COO王巍:依托微博平台特色 构建知微大模型应用生态
2024双11来临,移动固态硬盘到底该怎么选?看这一篇就够了!
布局先进产能,山东海辰长时储能一体化零碳产业园区落地菏泽
神舟十九圆梦太空 恒友汇《下半年指引》中国商业航天万亿新蓝海
双展齐放大湾区,会参谋(Leaderhub)智能会议平板强势吸睛
香港高地集团获澳大利亚证券和投资委员会(ASIC)权威监管
德赛西威杨勇:企业国际化的标志是本土化的持续成功
鸿蒙智行再迎OTA升级,车载小艺化身私人用车顾问、百科导师
乐其集团获评国家​“AAA物流企业”
施耐德电气:数智驱动质子重离子医疗革新 共筑安全智慧医疗新纪元
科普|市场上NMN品类众多 身为消费者的我们该如何甄别选择?
男士吃的NMN如何挑选?2024全球公认热门品牌盘点,这几款效果更好
乐龄维NMN:双11即将开卖,成交额指数预计将破千万!
瑞健未来携前沿科技亮相上海国际消费电子展,高压氧舱成焦点
瑞健未来闪耀上海国际消费电子展:民用高压氧舱惊艳亮相
巴西圣保罗商学院到访瑞健未来设备中心,国产高压氧舱走向世界前列!
瑞健未来民用高压氧舱“时光珠”闪耀RAAD美国抗衰峰会
走进西藏秘境!瑞健未来高压氧舱入驻拉萨,揭秘高原氧护
瑞健未来闪耀美国长寿峰会,1.9ATA高压氧舱成全场焦点
震撼首发!瑞健未来推出全球首台碳纤维氧舱“大方舰”,引领科技抗衰新趋势
同心致远 顶峰相见 | 佰利诺金&CanAm美国EB-5私享会·总裁见面会完美落幕
网御星云荣获信息安全服务数据安全类一级资质!
为AI提速,墨云藏境系列DDR5实测体验
钟睒睒与农夫山泉:深耕茉莉花之都,共绘乡村振兴新蓝图
钟睒睒与农夫山泉:深耕茉莉花之都,共绘乡村振兴新蓝图
中成药OTC短期承压 葵花药业中长期发展预期不变
三星Onyx为世界最美影院之一的巴黎Pathé Palace带来完美的观影体验
三十年突破与创新,戴尔PowerEdge持续引领行业发展
华为云开源项目Sermant正式成为CNCF官方项目
深度解析抗衰老市场的格局变化,NMN如何成为抗衰老产品后起之秀