随着AI技术的不断进步,语音助手已经融入了我们生活的方方面面。同时在大模型落地千行百业的大潮之下,语音助手也快速卷入AI革命的浪潮中。
GPT大模型作为一种强大的语言生成模型,通过语言理解、生成能力和上下文记忆能力,不断地自我完善和进化,让语音助手变得更加聪明和人性化,提供更加精准的服务。音色作为语音助手与用户交互的重要元素,其质量的好坏直接影响着用户体验。
近期,标贝科技借助自研的语音合成测评系统,从音频音色的真实度、发音准确率、副语言表达三个维度,对几款主流GPT语音助手进行了全面的测评,深入了解当前GPT语音助手的合成音色质量,给用户提供更多的选择依据。
标贝科技GPT语音助手测评方案
1、测评音频&内容
(1)所有音频均以与GPT对话的形式录制采集,每个音色选择了20条音频,每条音频时长30-40s左右;
(2)音频的内容涉及故事、美食、演讲、诗歌、说明、新闻、客服等方面,采集时会给GPT明确话题和时长要求,内容由其自由发挥,因此本次测评每条音频的内容并不一致,可能会对结果的一致性产生一些影响。
2、测评标准
本次测评需要分三个维度给音频打分、标注,包括真实度、副语言、准确率。
3、测评人员
此次测评由12位人员执行,其中男性5人,女性7人,年龄均在20-35之间,所有人员都经过培训和测评训练,对标准有统一清晰的认知。
4、评测结果
(1)得分汇总
(1)所有音色的真实度得分都在4分以上,说明GPT语音助手非常接近真人发音水平;其中,cove这个音色的真实度最高,达到4.56分;
(2)每句话副语言(如换气、重音、停顿等)平均出现的频率在3次以上;
(3)每句话出现的副语言频率与音色的真实度呈正相关。即副语言频率越多,声音给人的感受越真实,越像真人发音。
●副语言分析
本次测评统计了每个句子中出现的副语言元素以及其总共出现的频率,频率排前五的副语言为换气、重音、停顿、拖音、插入语气词。正是这些副语言为合成音频增加了音色的真实度。
(1)换气
换气是一种语音声学特性,指的是在发音过程中声带之间存在一定的空隙,允许一些空气通过声带传递,产生柔和的、带有轻微气息的声音。在语音合成中加入换气效果,就是模仿了人类说话时的呼吸模式。
本次测评中的GPT语音助手都使用了换气效果,在声音中增加了一种自然、拟人化的感觉,听起来也更加真实自然。
(2)重音和拖音
重音和拖音是为了强调语义内容的手段,通常是通过音调和时长的改变来增强语音表达的自然度和情感丰富性。
本次测评结果真实度较高的音频中,均精确地使用了重音和拖音来突出关键信息(通常会根据上下文内容精确到字),如演讲中强调主题或故事中加强紧张情节。
(3)停顿
在合成语音中引入适当的停顿,可以提高语音的自然度和表现力。测评音色中,我们发现,停顿的长度和位置的调整可以根据文本内容、语气和情感进行差异化处理,使语音听起来更自然而不生硬。如表示犹豫时,会适当增加停顿时长,表达激动内容时,会减少停顿时长。
(4)语气词
语气词指的是在语音中用来表达语气、情感或语言交际功能的词语或短语,常见于口语交流中,如啊、嗯、哦、唉、呃、嘛、吧、啊、笑声等。这些词语通常不是用于传递严格的字面意义,而是用来调整语音的情感色彩、语调、韵律或表达说话者的态度。
本次测评中,语音助手的语气词主要有两个方面的表现:一是对输入的文字进行了口语化改写,适当增加了语气词的部分;二是在声音表现方面,语气词能够做到真实不生硬。
(5)其他
测评结果还发现,GPT语音助手还使用了其他副语言元素,如重复、自我修正、自动加入儿化效果等,都是为了模仿真人的发音特点来实现自然自发的语音效果。
●准确度分析
本次测评的GPT语音助手发音整体的准确率很高,错误出现频率较低。但在处理一些特殊文本时,还会出现一些错误,错误主要分为两类:
第一类与中文的语言特点相关,如TN类文本、多音字、变调等,这类问题如果读音不准确,在一定程度上会影响句子的可懂度,还需要进一步完善;
第二类问题是语音合成中常见的一些声学模型问题,如多字、漏字等,这类问题在本次测评中出现的频率较少,对可懂度的影响也不大。
5、结论
●语音真实度
GPT语音助手在语音真实度方面表现出色,音色普遍接近真人发音,平均得分超过4分。这显示了其在模拟自然语音方面的先进技术。
●副语言表达
测评发现了GPT语音助手在使用副语言元素(如换气、重音、停顿等)方面的效果,这些元素为合成音频增添了更多的真实感和生动性。
●发音准确性
在发音准确度方面,GPT语音助手展现了较高的标准。虽然在处理特殊文本时偶有发音错误,但整体准确率保持在一个较高水平,这对于理解和交流至关重要。
●改进空间
尽管当前成绩显著,但在某些方面仍有改进空间。特别是在处理多音字和语音合成模型中常见的问题方面,需要进一步优化以提高整体用户体验。
基于本次对GPT语音助手的多维度测评结果,标贝科技依托核心的语音大模型迁移学习和深度神经网络技术,推出自然对话语音合成数据库以及自然对话合成音色解决方案,最大程度还原真人说话时的语气词、吸气声、停顿、拖音等副语言细节,让语音助手变得更加拟人化,提供自然、真实的人机对话服务。
标贝科技自然对话语音合成数据库
标贝科技自然对话语音合成数据集完成对数据库的音字标注、韵律标注、情感/口语化行为标签标注,供算法优化直接使用。
标贝科技自然对话语音合成方案
标贝科技自然对话语音合成解决方案的核心在于通过分析大量真实语音数据,提取真人说话时的音色、语调、情感等特征,以提高其对副语言现象的建模能力。在合成语音时,将这些特征复制到机器生成的语音中,从而使得合成的语音能够更加自然、真实地表达说话者的意图和情感。
欢迎对以上数据集和方案感兴趣的行业伙伴联系我们~
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。