近日,OpenAI在官网首次展示了全新自定义音频模型“Voice Engine”。用户只需要提供15秒左右的参考声音,通过Voice Engine就能生成几乎和原音一模一样的全新音频,在清晰度、语音连贯、音色、自然度等方面比市面上多数产品都强很多。
除了语音合成之外,Voice Engine还能提供视频翻译功能,可以将一种视频语音无差别的翻译成多国语言。此外,OpenAI首席技术官Mira Murati在前不久接受的采访时表示,未来Sora生成的视频会带声音的,很可能为其提供声音的就是Voice Engine。
我们可以期待voice engine在未来将有广阔的应用场景,包括:配合Sora视频生成的功能,为视频配音,赋能内容创作、教育和娱乐等领域;支持语音交互的个人智能助理。这类个人助理它不同于简单的语音合成或者语音识别,而是根据用户的输入进行语音的响应:用户可以通过文本、语音来输入,然后服务直接用语音回复结果。
从技术角度来说,传统的语音助理应该是先通过ASR识别用户的语音,然后转成文本,GPT再根据文本生成答案,再由TTS技术合成语音输出。这个分步系统最大的缺点就是时延以及准确性!三个步骤,每个步骤准确率90%,最终的回复准确率可能只有72.9%了!同时,在自然对话中,标准反应间隔时间约为300毫秒。如果这是一个语音端到端的模型(符合OpenAI当前的技术趋势),那么时延和准确性都值得期待!
所以,语音端到端技术,将从根本上优化人工智能和人类对话的效果和响应速度,成为未来AIoT的标配。在这项技术中,高质量的语音数据将是决胜关键。
晴数智慧在去年全球首发了中文高质量复刻数据集,得到了广大企业的认可。今年我们再接再厉,为中国大模型落地各行业、并适配各地交流的刚需,再次首发“多方言超拟人语音合成大模型数据集”,助力中国Voice Engine语音大模型乘风破浪!
多方言超拟人语音合成大模型数据集具备48k高采样率,安静环境采集,方言语种多样,声音来源丰富,筛选来自不同地区、年龄、性别、社会背景人员录制以确保声音多样化。自由对话风格具有高表现力和情感色彩,能够使语音合成模型生成出方言语音更加生动、自然。主题丰富多样,涵盖了日常生活中的各种场景和话题,为精准、自然的语音生成提供了强有力的数据支持。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。