此次展会上,Soul APP重点展示了其自研的全双工语音通话大模型在多人语音互动场景中的应用。与常规依赖语音活性检测(VAD,Voice Activity Detection)和延迟控制逻辑的语音系统不同,该模型打破“轮次对话”限制,赋予AI在语音互动中自主掌握交流节奏的能力,带来更自然的双向沟通体验。
例如,在多人群聊派对中,AI主持人可以感知整体语境,动态调节节奏与话题,引导讨论深入发展。Soul APP CTO陶明指出,全双工语音能力的应用,是AI融入社交关系网络的关键一步。在群聊派对场景中,AI主持人不仅能管理秩序,还能通过自然语音互动活跃气氛,帮助用户更轻松地融入对话。这一技术的落地,相信也将提升用户在多人语音互动的参与度和体验感。
此次展会上,Soul不仅展示了全双工语音通话大模型,还同步展出了全双工实时视频通话能力的最新探索成果。依托Soul自研的实时视频生成技术,用户能够在通话过程中“看到”AI的数字形象和世界,从而建立更立体的感知链接。
自2020年系统启动AIGC技术研发以来,Soul不断推进包括语音、图像、虚拟人等多模态能力融合建设。自2023年推出自研框架Soul X后,Soul更陆续上线多个大模型能力并不断更新升级。2024年,其AI模型能力已升级为支持文字、语音、多语种、多模态理解和真实拟人交互的多模态端到端大模型,逐步完成AI社交场景的技术闭环。而最新的全双工语音通话大模型,则是这一系列技术积累的集中体现。
作为社交平台,Soul APP的优势在于对用户需求的精准洞察。AI基于用户发布的真实数据,可捕捉人与人之间的共鸣信号,智能推荐主题,并辅助用户生成内容,降低表达门槛。此外,Soul还通过建立AI Agent生态,为用户提供即时、个性化的情感陪伴,帮助其更顺畅地融入社交网络。
这一切背后,是Soul对“AI辅助社交”与“AI参与社交”双路径的深度探索。区别于传统工具式人机对话,Soul提出“情感共生”的社交构想,将AI视作能够共创、共情、共鸣的参与者,推动虚拟人与真人的深度融合。通过在互动中体现AI对用户情绪、语境的实时理解和响应,Soul正试图打破“社交效率工具”的范畴,构建一种全新的数字社交体验模型。
从技术研发到场景落地,Soul APP始终以用户需求为导向,探索人机互动的更多可能性。此次Soul APP张璐团队携其自研全双工语音通话大模型亮相WAIC 2025,不仅是对平台AI能力的集中呈现,也为行业提供了一个AI深度嵌入社交关系网络的可参考范式。