Soul APP张璐团队推动AI交互，升级全双工语音通话大模型

近年来，人工智能技术的快速发展改变了社交产品的交互方式，AI对话与陪伴类应用逐渐成为用户接触人工智能的重要入口。然而，传统的人机交互模式往往受限于“轮次对话”模式，难以实现自然流畅的对话体验。在此背景下，Soul APP创始人张璐团队近期完成了自研的端到端全双工语音通话大模型全面升级，进一步提升了AI语音交互的自然度与沉浸感，为用户带来更接近真实社交的体验。

从技术层面来看，此次升级后的模型采用了端到端的全双工架构，实现了包括即时响应、主动聆听和智能打断在内的实时交互功能。AI系统能够自主决策对话时机，支持与用户同步交流，并能灵活地调节对话节奏。举例来说，在需要即时互动的场景如辩论或合唱中，AI可以及时回复/配合；在日常对话中，系统会依据语境动态调整应答方式，有效避免了传统AI对话的生硬感。这种智能化的交互特性显著提升了沟通的自然流畅度，使得虚拟陪伴体验更接近真实人际交往。

为了让AI的语音交互更贴近真实人际沟通，Soul APP张璐团队也在新模型中强化了口语化与情感化表达。传统AI语音往往过于机械，缺乏情绪起伏，也不符合日常语言习惯。升级后的模型不仅能够模拟笑、哭、生气等情绪，还能根据对话内容动态调整语气，使表达更具感染力。此外，AI的发音特点也更加自然，融入了语气词、口头禅，甚至咳嗽等真实语音元素。对话内容不再局限于书面化的表达，而是更贴近日常社交语言，进一步缩小了人机交互与真实社交的差距。

此外，基于纯自回归模型架构，Soul的新模型还能够整合人设、对话上下文及环境信息，使AI的回应更具个性化和场景适配性。例如，AI可以根据对话进展调整话题，或结合特定时间节点生成更具情境感的回应。这种能力不仅提升了单次对话的质量，还为AI构建了更丰富的“数字人格”，使其在长期互动中形成独特的故事线，增强了用户在虚拟社交中的代入感和参与感。

目前，Soul团队正在探索将这一技术扩展至多人语音场景，AI可基于自身判断力，识别多方语音交互的节奏和空档，选择适当时机加入讨论或组织话题，不仅支持复杂社交结构的构建，也增强了AI在多人生态中的适应性，进一步推动社交关系的多元化发展。

Soul APP CTO陶明表示：“社交是情绪价值和信息价值交换的双向关系。”而技术的作用是让这一过程更自然、更温暖。作为较早探索AI社交应用的平台，Soul APP自2016年上线以来便持续投入AI技术的研发。2020年，Soul启动系统的AIGC技术布局，并在智能对话、语音合成及3D虚拟人等领域取得显著进展。2023年，Soul推出自研语言大模型Soul X，随后逐步上线语音生成、音乐生成等大模型能力。

随着新模型的升级，Soul APP张璐团队也在继续优化虚拟人实时通话、AI匹配等场景，为用户提供更智能、更沉浸的社交体验。

标签：