科大讯飞主导制定2项数字人ITU国际标准!

2025-11-25 14:31:47     来源:

 

 

在2025年科大讯飞全球1024开发者节的现场,数字人“小飞”正与三人畅聊。TA会听能看,记得住对话人的身份、历史信息并给出贴心提醒,观察细节之后能给出详细的信息介绍与位置导览,甚至一键帮忙订票;TA能说会道,高情商回复既自然又灵动,还能用外语和外国朋友谈天说地。TA还化身为数字人林黛玉,形象清丽、语气惟妙惟肖。

特别是在多人聊天时,“小飞”还能理解和分辨到底是在和自己对话,还是多人之间相互聊天,从而判断是否接话和插话。

这一系列流畅、自然且充满“人情味”的互动,标志着多模态超拟人交互技术已从概念探索迈入可用、好用的新阶段。

这一前沿技术展示的背后,离不开坚实的技术积淀与产业共识的支撑。就在不久前,国际电信联盟(ITU-T SG21)在瑞士日内瓦召开全体会议,由科大讯飞与中国信通院共同参与编辑的两项数字人国际标准——ITU-T F.748.63(基础模型增强的数字人系统框架及通用技术要求)与ITU-T F.748.64(数字人服务平台要求)——顺利通过结项,计划于2026年正式发布。这意味着,推动产业发展的技术实践,正在凝聚成全球公认的规范。

一、技术内核:多模态超拟人交互,让“更懂你”

“小飞”所展现的惊艳体验,源于其在感知、认知与表达三大层面的技术协同突破。

信息感知层面,系统具备了“耳聪目明”的能力。此次展示的多模态交互系统具备5米0dB远场高噪语音识别能力,在嘈杂环境中也能精准识别,更加贴合真实的使用和交互场景。基于多模态语音增强技术,系统能融合语音、人脸、姿态等信息,结合说话人站位锁定多人对话中的目标,实现音频与说话人的绑定,攻克了多人高噪场景下的识别难题。同时,讯飞创新性地提出说话人引导的注意力增强方案,实现对交互区域的细粒度视觉信息感知,让视觉信息更加准确;进一步提出局部检索增强技术,通过视觉思维链提取局部关键区域,实现远场条件下的局部物体检索增强识别。

认知与理解层面,数字人开始“读懂心意”。多人交互理解技术融合对话历史、语音活动状态等信息,加强了模型对多人复杂场景的理解能力,更好地把握和用户的交互时机,以及交互意图的精准判断,实现了响应速度和响应质量的平衡,既不“抢答”也不“乱答”。另外,多模态交互系统能够实现分钟级情感解析、深度共情,读懂对话人的真实心绪,回应“心领神会”的默契瞬间。

表达与输出层面,交互变得更有温度。超拟人数字人能通过多模态前端定位说话人方位,像真人一样能视线跟随看向当前交互的对象,增强交互的真实感;数字人的回复也更加自然、共情,得益于多情感语音合成技术创新性研发了多轮上下文信息建模方案,能够对语音交互中的历史多轮QA音频和文本进行编码、感知对话人的情感变化,再通过语音合成大模型的自适应情感合成能力,让数字人的回复合成声音情绪语气随之变化,给出恰当的情感回应,在声音的自然度、情感表达、节奏停顿等细节上表现更好,尤其是在多轮交互中的效果提升显著。

值得一提的是,此次发布会上首发的个性化记忆能力也加入了超拟人交互系统,通过分层式动态记忆体架构,实现了长短期协同的精准用户记忆。结构化推理方案的设计,确保了模型在个性化任务中进行严谨的逻辑推理;借助强化学习在对齐用户个人偏好上持续优化,实现了从“内容个性化”到“沟通风格个性化”的进化,增强了多模态交互的个性化回复能力。

二、标准筑基:从技术实践到国际规范制定

技术上的领跑为规则制定提供了关键依据。此次科大讯飞能够主导国际标准的制定,离不开它在人工智能领域长期的技术积累和广泛的产品应用。

科大讯飞自主研发的星火大模型为数字人提供了深层的认知理解基础,而在语音、自然语言处理等领域的全栈式AI技术积累,则为实现自然流畅的人机交互奠定了基石。此前,科大讯飞的AI虚拟人交互平台通过了中国信通院人工智能研究所组织的大模型数字人基础能力分级测试,并获得最高等级L5认证,也进一步证明了讯飞AI虚拟人交互平台技术方案的先进性与成熟度。这些扎实且经过市场检验的技术能力,为其参与国际标准讨论与制定提供了重要依据,也将中国的技术实践融入了全球数字人产业发展的蓝图。

三、场景落地:双平台驱动产业智能应用

技术的终极价值在于应用。科大讯飞通过讯飞智作讯飞AI虚拟人交互平台,将前沿技术转化为可规模落地的产品与服务。

讯飞智作作为一站式虚拟人音视频内容生产平台,不仅提供丰富多元的形象与声音,还支持仅凭一张照片、一句话快速生成专属数字人,目前已构建超10万数字分身,500万的声音复刻,广泛赋能教培、金融、文旅、政企等多个业务领域。

讯飞AI虚拟人交互平台则聚焦全栈式虚拟人多场景应用服务,让数字IP不仅“动起来”,更能“交互起来”。平台支持零代码快速嵌入小程序、导游机等终端,更提供智能交互机、移动数字人、AI 虚拟人直播机等软硬一体化方案,同时通过终端 SDK、服务端 API、公有云 API 及私有化部署等灵活接入方式,可适配 APP、Web、小程序等多种产品形态。

从多模态超拟人交互的技术突破,到参与国际标准制定的能力认证,再到双平台推动的产业赋能,科大讯飞在数字人领域形成了从技术到市场、从实践到标准的闭环。未来,随着“AI+行业”的持续深入,更智能、更自然的数字人有望在更多领域成为人类的智能伙伴。我们也将继续在多模态超拟人交互技术上踏实前行、持续进阶,不断带来新的惊喜。

#讯飞智作 #讯飞AI虚拟人交互平台 #数字人 #多模态超拟人交互 #科大讯飞

 

标签:

猜你喜欢

直击行业痛点 明基沉浸式空间方案
墨迹天气时景社区三大场景“干货”:天气切换时,这里全是现成答案
AI组织再进化 森马AI工作台大森3.0正式上线
国信中数战略入股华视锐达共拓人工智能+企业营销新生态
Revita Network:重塑 RWA 的未来,让智能设备释放真实价值
就算明天王国爆炸了,今天也先躺平吧!超解压《嘟嘟脸恶作剧》正式定档12月18!
预告|2025中数大会来了!魔乐社区将为大会带来多重惊喜
用先进算力,为AGI加速:华为千行百业AI赋能转型论坛在太原成功举办
Soul张璐团队Q3安全报告发布:AI风控升级,打造健康社交空间
MEDICA 2025 | 飞依诺「声光气」合力出击,内窥镜系列全球首秀!
《智能卫浴的沉默革命:当花洒与浴霸开始思考》
支撑新型电力系统高质量发展,构网型储能应用与发展论坛成功举办
百奥蒂(BIOTICLIFE)发布外泌体领域新成果 推动医学修复新应用
前行者上海WePlay & ZFX展会圆满落幕,“国风科技”外设引爆线下体验热潮
超越通用系统,释放在鸿OS潜能!拓维信息旗下开鸿智谷正式发布在鸿AI OS
田磊:医药经济领域的探索者与见证者
从教语言到育素养,51Talk全球优秀学员在联合国气候大会发表演讲
蔚建抹灰机器人、喷涂机器人参与承接上海建工米哈游新总部建设项目
千行百业加速AI落地!每日互动圆满举行“个知·智能工作站”渠道代理商招募大会
ACCA联合报告:中企出海从“走出去”到“走下去”财务战略升级
应用破万,体验升级!鸿蒙电脑生态丰富度跨越式提升,体验快速迭代
技术研讨 | 小渔夫受邀出席“GEO大会暨Semrush大会”!
中国银行连续9年亮相新加坡金融科技节
产学联动,无限极携手科研机构与学界专家共探草本延衰
大朋AI眼镜登陆青岛虚拟现实大会,以千元级AI潮流装备吸引行业目光
电商销量查询揭示2025年身体清洁护理新赛道:170亿市场谁主沉浮?
中芯直指存储涨价对逻辑代工产生致命影响,代工龙头是否会跨界“造存储”?
Nint任拓:以品牌数据分析驱动科学决策,把握增长先机
三星与网石联手登陆G-Star 2025,以3D体验将玩家带入沉浸新境界
华为云CodeArts:智能化与CICD深度融合,助力企业研发效能全面升级