从技术层面来看,此次升级后的模型采用了端到端的全双工架构,实现了包括即时响应、主动聆听和智能打断在内的实时交互功能。AI系统能够自主决策对话时机,支持与用户同步交流,并能灵活地调节对话节奏。举例来说,在需要即时互动的场景如辩论或合唱中,AI可以及时回复/配合;在日常对话中,系统会依据语境动态调整应答方式,有效避免了传统AI对话的生硬感。这种智能化的交互特性显著提升了沟通的自然流畅度,使得虚拟陪伴体验更接近真实人际交往。
为了让AI的语音交互更贴近真实人际沟通,Soul APP张璐团队也在新模型中强化了口语化与情感化表达。传统AI语音往往过于机械,缺乏情绪起伏,也不符合日常语言习惯。升级后的模型不仅能够模拟笑、哭、生气等情绪,还能根据对话内容动态调整语气,使表达更具感染力。此外,AI的发音特点也更加自然,融入了语气词、口头禅,甚至咳嗽等真实语音元素。对话内容不再局限于书面化的表达,而是更贴近日常社交语言,进一步缩小了人机交互与真实社交的差距。
此外,基于纯自回归模型架构,Soul的新模型还能够整合人设、对话上下文及环境信息,使AI的回应更具个性化和场景适配性。例如,AI可以根据对话进展调整话题,或结合特定时间节点生成更具情境感的回应。这种能力不仅提升了单次对话的质量,还为AI构建了更丰富的“数字人格”,使其在长期互动中形成独特的故事线,增强了用户在虚拟社交中的代入感和参与感。
目前,Soul团队正在探索将这一技术扩展至多人语音场景,AI可基于自身判断力,识别多方语音交互的节奏和空档,选择适当时机加入讨论或组织话题,不仅支持复杂社交结构的构建,也增强了AI在多人生态中的适应性,进一步推动社交关系的多元化发展。
Soul APP CTO陶明表示:“社交是情绪价值和信息价值交换的双向关系。”而技术的作用是让这一过程更自然、更温暖。作为较早探索AI社交应用的平台,Soul APP自2016年上线以来便持续投入AI技术的研发。2020年,Soul启动系统的AIGC技术布局,并在智能对话、语音合成及3D虚拟人等领域取得显著进展。2023年,Soul推出自研语言大模型Soul X,随后逐步上线语音生成、音乐生成等大模型能力。
随着新模型的升级,Soul APP张璐团队也在继续优化虚拟人实时通话、AI匹配等场景,为用户提供更智能、更沉浸的社交体验。