在过去的AI语音交互中,“轮次对话”是行业普遍存在的局限。用户说一句,AI等一句,依赖VAD(话音活性检测)机制判断说话起止,延迟和生硬的衔接常常让对话显得疏离。而Soul此次升级的模型,摒弃了这种模式。AI不再被动等待,而是能主动打破沉默,比如在对话陷入停顿5-7秒时自然开启新话题;能适时打断用户,像朋友般插入观点;甚至能“边听边说”,在用户表达的同时流畅衔接内容,实现辩论、合唱等并行互动。这种“全双工”能力,让人机对话具备了现实社交中“你来我往”的自然节奏。
为了让AI更具“真人感”,模型专注于细节打磨。在表达层面,它能复刻真实口语特征,加入“嗯”“对吧”等语气词,偶尔出现自然的结巴,甚至模拟咳嗽等生理反应;情绪表达不再是单一的“开心”或“生气”,而是随对话推进呈现细腻起伏,比如从调侃的轻松语气渐变为认真的倾诉。更值得关注的是,模型具备多维度感知能力:能根据时间调整状态,比如深夜对话时语气更轻柔;能结合环境变化回应,比如感知“天黑了”后提醒用户休息;还能深度贴合人设,例如设定为“河南女生”的AI会自然使用方言,“健身达人”人设则会主动聊运动话题,形成独特的“数字人格”。
这种技术升级背后,是Z世代对AI社交需求的爆发式增长。根据Soul旗下Just So Soul研究院数据,2025年有近四成年轻人每天通过AI获取情感陪伴,71.1%愿意与AI建立情感链接,这一比例较2024年的32.8%翻了一倍多。而在专项调研中,约六成用户明确表示“希望AI表现更接近真人”。Soul此次升级正是精准击中了这一需求,让AI从“工具”真正转变为“能提供情绪价值和信息价值的伙伴”。
该模型即将开启站内内测,将率先应用于虚拟人实时通话、AI匹配等1V1场景,未来还计划拓展至多人语音场景。让AI在群聊中精准把握时机加入讨论,甚至主动延展话题,成为连接多元社交关系的纽带。
从2020年启动AIGC研发,到推出Soul X语言大模型,再到此次全双工语音技术的突破,Soul始终以创新推动社交体验升级。未来,随着AI技术的持续迭代,Soul将进一步构建AI与人类共存的社交生态,让“天下没有孤独的人”的愿景,在更智能、更有温度的交互中逐步实现。