标贝科技GPT语音助手测评:看语音大模型如何重塑语音交互体验

2024-01-10 15:51:55     来源:

随着AI技术的不断进步,语音助手已经融入了我们生活的方方面面。同时在大模型落地千行百业的大潮之下,语音助手也快速卷入AI革命的浪潮中。

GPT大模型作为一种强大的语言生成模型,通过语言理解、生成能力和上下文记忆能力,不断地自我完善和进化,让语音助手变得更加聪明和人性化,提供更加精准的服务。音色作为语音助手与用户交互的重要元素,其质量的好坏直接影响着用户体验。

近期,标贝科技借助自研的语音合成测评系统,从音频音色的真实度、发音准确率、副语言表达三个维度,对几款主流GPT语音助手进行了全面的测评,深入了解当前GPT语音助手的合成音色质量,给用户提供更多的选择依据。

标贝科技GPT语音助手测评方案

1、测评音频&内容

(1)所有音频均以与GPT对话的形式录制采集,每个音色选择了20条音频,每条音频时长30-40s左右;

(2)音频的内容涉及故事、美食、演讲、诗歌、说明、新闻、客服等方面,采集时会给GPT明确话题和时长要求,内容由其自由发挥,因此本次测评每条音频的内容并不一致,可能会对结果的一致性产生一些影响。

2、测评标准

本次测评需要分三个维度给音频打分、标注,包括真实度、副语言、准确率。

3、测评人员

此次测评由12位人员执行,其中男性5人,女性7人,年龄均在20-35之间,所有人员都经过培训和测评训练,对标准有统一清晰的认知。

4、评测结果

(1)得分汇总

image.png

(1)所有音色的真实度得分都在4分以上,说明GPT语音助手非常接近真人发音水平;其中,cove这个音色的真实度最高,达到4.56分;

(2)每句话副语言(如换气、重音、停顿等)平均出现的频率在3次以上;

(3)每句话出现的副语言频率与音色的真实度呈正相关。即副语言频率越多,声音给人的感受越真实,越像真人发音。

●副语言分析

本次测评统计了每个句子中出现的副语言元素以及其总共出现的频率,频率排前五的副语言为换气、重音、停顿、拖音、插入语气词。正是这些副语言为合成音频增加了音色的真实度。

image.png

(1)换气

换气是一种语音声学特性,指的是在发音过程中声带之间存在一定的空隙,允许一些空气通过声带传递,产生柔和的、带有轻微气息的声音。在语音合成中加入换气效果,就是模仿了人类说话时的呼吸模式。

本次测评中的GPT语音助手都使用了换气效果,在声音中增加了一种自然、拟人化的感觉,听起来也更加真实自然。

(2)重音和拖音

重音和拖音是为了强调语义内容的手段,通常是通过音调和时长的改变来增强语音表达的自然度和情感丰富性。

本次测评结果真实度较高的音频中,均精确地使用了重音和拖音来突出关键信息(通常会根据上下文内容精确到字),如演讲中强调主题或故事中加强紧张情节。

(3)停顿

在合成语音中引入适当的停顿,可以提高语音的自然度和表现力。测评音色中,我们发现,停顿的长度和位置的调整可以根据文本内容、语气和情感进行差异化处理,使语音听起来更自然而不生硬。如表示犹豫时,会适当增加停顿时长,表达激动内容时,会减少停顿时长。

(4)语气词

语气词指的是在语音中用来表达语气、情感或语言交际功能的词语或短语,常见于口语交流中,如啊、嗯、哦、唉、呃、嘛、吧、啊、笑声等。这些词语通常不是用于传递严格的字面意义,而是用来调整语音的情感色彩、语调、韵律或表达说话者的态度。

本次测评中,语音助手的语气词主要有两个方面的表现:一是对输入的文字进行了口语化改写,适当增加了语气词的部分;二是在声音表现方面,语气词能够做到真实不生硬。

(5)其他

测评结果还发现,GPT语音助手还使用了其他副语言元素,如重复、自我修正、自动加入儿化效果等,都是为了模仿真人的发音特点来实现自然自发的语音效果。

●准确度分析

本次测评的GPT语音助手发音整体的准确率很高,错误出现频率较低。但在处理一些特殊文本时,还会出现一些错误,错误主要分为两类:

第一类与中文的语言特点相关,如TN类文本、多音字、变调等,这类问题如果读音不准确,在一定程度上会影响句子的可懂度,还需要进一步完善;

第二类问题是语音合成中常见的一些声学模型问题,如多字、漏字等,这类问题在本次测评中出现的频率较少,对可懂度的影响也不大。

image.png

5、结论

●语音真实度

GPT语音助手在语音真实度方面表现出色,音色普遍接近真人发音,平均得分超过4分。这显示了其在模拟自然语音方面的先进技术。

●副语言表达

测评发现了GPT语音助手在使用副语言元素(如换气、重音、停顿等)方面的效果,这些元素为合成音频增添了更多的真实感和生动性。

●发音准确性

在发音准确度方面,GPT语音助手展现了较高的标准。虽然在处理特殊文本时偶有发音错误,但整体准确率保持在一个较高水平,这对于理解和交流至关重要。

●改进空间

尽管当前成绩显著,但在某些方面仍有改进空间。特别是在处理多音字和语音合成模型中常见的问题方面,需要进一步优化以提高整体用户体验。

基于本次对GPT语音助手的多维度测评结果,标贝科技依托核心的语音大模型迁移学习和深度神经网络技术,推出自然对话语音合成数据库以及自然对话合成音色解决方案,最大程度还原真人说话时的语气词、吸气声、停顿、拖音等副语言细节,让语音助手变得更加拟人化,提供自然、真实的人机对话服务。

标贝科技自然对话语音合成数据库

标贝科技自然对话语音合成数据集完成对数据库的音字标注、韵律标注、情感/口语化行为标签标注,供算法优化直接使用。

image.png

标贝科技自然对话语音合成方案

标贝科技自然对话语音合成解决方案的核心在于通过分析大量真实语音数据,提取真人说话时的音色、语调、情感等特征,以提高其对副语言现象的建模能力。在合成语音时,将这些特征复制到机器生成的语音中,从而使得合成的语音能够更加自然、真实地表达说话者的意图和情感。

欢迎对以上数据集和方案感兴趣的行业伙伴联系我们~

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

关节炎是寒冷导致的吗?博奥真健步维“修护新生”多维呵护关节健康
50℃轻松驾驭骁龙8Gen3?ROG原来如此“高冷”
正在直播|直击阿里数纳斯·2024企业内外数据流通交流会,线上共襄数据智慧盛宴!
钉钉与小冰公司达成合作,推出一键定制数字人视频服务
人人滴与未来链上:RBF与区块链的碰撞
制程架构并驾齐驱,软件硬件双核驱动 英特尔携手合作伙伴兑现AI PC承诺
识渊科技荣获2023全国人工智能应用场景创新挑战赛一等奖
CES 2024微星笔记本发布14代酷睿+酷睿Ultra新品,神秘掌机Claw亮相
思看科技三维扫描仪:带你还原“真实”的虚拟赛车体验!
五度荣膺毕马威中国奖项,萨摩耶云科技集团书写普惠金融新文章
移动用户可通过和包app将小京通-京津冀互联互通卡加至Apple钱包
几何之美 全按心境——施耐德电气境尚系列开关插座评测
千挂科技发布智能驾驶干线运输工具 AutraOne
探索发展,融合共生|惠州OpenHarmony城市大会圆满举行
网易智企和影刀RPA达成战略合作,AI最大化赋能组织提效
和气聚力获评 “2023北京软件核心竞争力企业”
英敏特推出全新人工智能市场研究咨询工具英敏特迁跃: 即问即答,化繁为简
御力维解决“男题”,助你找回职场自信!
联想集团官宣2024 FORMULA 1® 联想中国大奖赛冠名赞助商
一年节约1200万度电!腾讯数据中心新能源微电网项目正式并网发电
金山办公:2024年AI和协作依然是创新重点
三星电子推出 2024新品 Neo QLED、MICRO LED、OLED 和 Lifestyle产品,开启人工智能屏幕新时代,引领全新生活方式
抖音揭露伪公益年度短片《别拍了!》上线,体现治理不实信息决心
WUHUAN五环健步鞋助力全民健步锻炼
虚拟数智人联通古今,数字文化建设让传统文化焕发时代活力
CTR权威发布《2024年数字媒体营销趋势》报告,360媒体营销价值再受瞩目
探索创新,绿能启航 | 华宝新能即将亮相CES2024
赛乐瑞MAX全维高效抗衰,助力健康长寿
毫末智行斩获微博ESG新锐影响力企业大奖 引领可持续发展新篇章
彻夜辗转反侧,瑞健未来高压氧舱时光珠:驱散疲劳找回优质睡眠