豆包语音模型优化小说演播,大咖音色媲美真人

2025-02-25 11:09:04     来源:

近日,字节跳动的豆包语音大模型在小说演播场景取得突破,无需对话旁白、情感、角色等额外标签,也能实现高表现力、高自然度、高语义理解的小说演播效果,声音合成质量媲美真人。

据了解,市面上的语音模型想要媲美一流主播细腻的演播效果,要做好旁白和角色的区分演绎、角色情感的精确表达、不同角色的区分度等。传统的小说TTS合成链路,需要提前给内容打标签。豆包语音模型基于Seed-TTS架构优化,则可以端到端直接合成出具有韵律、情感等细节的声音。

图片1.png

图:传统语音模型和豆包语音模型合成链路的区别

Seed-TTS是字节跳动于2024年6月发布的语音生成基座模型。为提升语音表现力和长文本的理解能力,豆包语音模型团队在Seed-TTS的数据、特征、上下文等结构上做了改进。比如数据上,音频做章节级别处理,保证了长文下的语音一致性和连贯性;语音韵律和准确性上,融合原始文本和前端信息,保证语气词、副语言、强调、弱读等内容自然流畅;额外加入的上下文理解能力,使得模型能够感知更大范围的语义信息,旁白和角色音表现更精准到位。

优化后的豆包语音模型,能端到端演绎更多元的情感,在人物不同情绪上表现自然,而且可实现连续多轮对话,保证角色区分鲜明。

豆包语音模型团队以王明军、李满超两位配音圈大咖的声音为基础,采用新技术合成的有声书,已上线番茄小说,受到用户的广泛欢迎。(作者:邓庆)

标签:

猜你喜欢

移动云电脑云平板:工作娱乐,掌上精彩
北电数智助推国产算力与国产大模型融合 迸发信创之光
《唐探1900》天空视觉盛宴!无人机光影秀闪耀多城,引领电影宣发新潮流
正雅颌位重建临床技术解析
梧桐科技通过腾讯云接入DeepSeek,全面融入TTI AI座舱生态
Columbia沪上新店开业,户外爱好者迎来新起点
2月27日小米15 Ultra发布 京东先人一步下单享现货优先发
更产业、更开放、更年轻,第三届世界科学智能大赛在2025GDC启动
DeepSeek本地部署全攻略来了!京东提供工作站选型与1V1免费服务
清华瑞莱联合团队推出“安全增强版DeepSeek”——RealSafe-R1大模型
华云科技打造“华云天图AI平台”亮相“科学教育·社会协同”资源对接交流活动—多区域AI实践聚力,共筑教育协同新生态
天冕科技获《语句压缩法、装置、电子设备及可读存储介质》
高力国际赋能云际尚浦云端派对 解码新江湾城办公楼租赁新密码
中国资产大爆发 科技创新催生“蛇”吞全球
腾讯与余承东公开互动,一起打磨极致体验,鸿蒙生态有望加速完善
律页 | 资源检索永久免费,重塑高效协同的法律实践
开学季手机推荐:这些三星手机叠加15%国补价格很美丽
深入践行ESG理念 探索企业发展长青之路
提升门店曝光度并促进转化,奥维获客宝助力品牌实现营销闭环
世界首发三重融合感知系统、池边实时遥控技术 浪涌未来泳池机器人获权威认证
点击解锁2025慕尼黑上海电子展同期论坛,各大精彩论坛等您赴约!
以优质内容驱动增长,查博士荣膺“抖音年度优质店铺”殊荣
三星Galaxy S25系列:新品热卖礼遇多 国补至高优惠500元
清华G20创业研究中心研讨闲鱼副业生态:数字平台为青年创业就业提供新机会
同款图书京东价相当于天猫4折 下单前多比价不花冤枉钱
启明星辰发布“大模型应用安全服务组合”——后DeepSeek智能时代,安全即基建
宏碁GDC大会发布优跃Pro,正式宣布A星人专业版接入DeepSeek
宏碁GDC大会发布优跃Pro,正式宣布A星人专业版接入DeepSeek
第二届vivo蓝河操作系统创新赛收官,打造最具影响力Rust赛事
六大功能上新,体验全面进化,腾势Z9GT迎重磅OTA