在快速发展的人工智能领域,技术突破与用户体验提升正引领着语音对话模型迈向新的高度。从最初的简单问答到如今复杂多变的对话场景,人机交互正经历着前所未有的深刻变革。传统的训练数据已难以适应当前的需求,现代交互要求系统不仅能理解语言的上下文,还需快速识别用户的需求并作出恰当反馈。
在此背景下,晴数智慧联合中国科学院声学研究所,共同开源了“双工自然对话语音数据集_中文”,为语音对话模型提供更加真实、细腻的训练数据。通过对每位说话者语音的独立分析,该数据集让语音对话模型能够洞察对话中的上下文变化、语调起伏以及情感波动,从而生成更加自然、准确的回应。同时,双工分离数据让端到端模型的构建更为精准,反馈速度更快。
数据集描述
晴数智慧开发的多通道自然对话语音数据集,旨在解决当前语音对话模型面临的两大问题:一是如何在复杂对话环境中准确捕捉并区分每位说话者的语音信息;二是如何使AI模型更好地理解并适应自然对话中的打断、交互等动态过程。
上图为双工语音交互模型架构图。双工语音交互模型(如 dGSLM [1]、Moshi [2]和SLIDE [3])突破了传统单工语音交互模型一问一答的僵化响应模式,实现了同步听说以及在交互过程中自然的打断与插话。然而,这些模型的训练高度依赖双工自然对话语音数据。而此类数据的稀缺,尤其是在中文领域,严重限制了上述模型的性能提升。
为解决这些问题,我们采取了创新的数据采集与处理策略。首先,通过独立采集每位说话者的音轨,并单独对每个说话人做分类标注,完整的保留了对话过程中自然的打断,交互等过程。其次,通过将每位说话者的音频分离,我们能够提供更清晰、更精准的训练数据,使模型更专注于理解和响应自然说话的交互过程。
为了让大家更直观地了解我们的多通道数据,我们特别选取了5小时的对话内容作为本次开源数据集。本数据可以用于模型的微调或者测试使用(非商用)。
数据集优势与亮点
自然度:捕捉真实场景下的自然对话,确保数据的高度自然流畅;
领域多样性:覆盖多个行业与话题,满足跨领域应用需求;
地域多样性:融入不同地域的语音特征,增强模型的泛化能力;
副语言标签:特别标注副语言信息,如语气、停顿等,为深度情感分析与交互体验升级提供有力支持。
除了中文双工对话数据开源之外,我们同样开源了英语双工对话数据,对英语双工数据感兴趣的朋友,欢迎通过以下链接下载并使用,探索更多可能~
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。