声网、RTE开发者社区共同支持两款新模型开源,让Voice Agent 对话更拟人

2025-05-19 12:02:37     来源:

近日,声网和RTE开发者社区宣布,共同支持TEN VAD 和 TEN Turn Detection两款新模型开源。这两个模型是基于声网十余年实时语音深度研究成果与超低延迟技术积累所打造的高性能模型,能够让 AI Agent 的交互体验更加自然。作为开源项目,任何人都可以自由使用、Fork 或为其贡献代码。这两款模型也将作为开源对话式 AI 生态体系 TEN 的核心模块持续迭代优化。

TEN VAD:超低延迟、低功耗、高准确率的语音活动检测模型

TEN VAD 是一个基于深度学习的轻量级流式语音活动检测模型,具备低延迟、低功耗、高准确率等优势。它通常用于语音输入大语言模型(LLM)前的预处理步骤,准确识别是否音频中包含人声并过滤掉无效音频(例如背景噪音或静音段)。

虽然它的功能简单,但作用十分强大:

准确识别音频帧中是否有人声;

判断一句话的开始和结束位置;

过滤掉无关音频(背景噪音、静音等);

这不仅提升了 STT 的准确性,还能显著降低处理成本--避免将无意义的声音送入到 STT 流程中从而产生费用。同时,如果你会用到“轮次检测(Turn Detection)”,那么 VAD 是你的必选项,它是轮次检测准确性的可靠保障。

性能对比:与目前常用的 WebRTC Pitch VAD 和 Silero VAD 相比,在公开的 TEN VAD 测试集上(来自多场景、逐帧人工标注),TEN VAD 展示出了更优的效果。

在延迟方面 TEN VAD 同样领先。它能快速检测语音与非语音之间的切换,而 Silero VAD 则存在数百毫秒的延迟,导致人机交互系统的端到端延迟和打断延迟增加。

开发者友好:TEN VAD 已在 Hugging Face 和 GitHub 上开源,并附带人工精标的数据集(TEN VAD Test Sample),开发者可以一键使用进行模型推理或模型评估。

实际应用效果:一个真实用户案例显示,使用 TEN VAD 后,音频传输数据量减少了 62%,显著降低了语音服务成本。

TEN Turn Detection:让 Voice Agent 学会“何时说、何时听”

TEN Turn Detection 重在解决人机对话中最难的部分之一——判断用户何时停止说话。在真实交流中,AI 需要区分出“中途停顿”与“说完了”的差别。插话太早会打断人类思路,太迟回应则会显得迟钝、不自然。

TEN Turn Detection 支持全双工语音交互,即允许用户和 AI 同时说话,就像两个人交流时那样自然。

工作原理:它不仅识别语音内容,还通过分析语言模式,判断说话者是在思考、犹豫,还是已经表达完毕;最终让 AI 更智能地决定“该说”还是“该听”,从而让对话更加流畅自然。该模型支持中英文,可供所有 Voice Agent 开发者自由使用。

效果表现:我们在多场景测试数据集上对比了 TEN Turn Detection 和其他同类开源模型,各模型的表现如下:

为什么选择 TEN VAD 和 TEN Turn Detection?

当结合使用这两个模型时可以打造出更自然、反应更迅速、成本更低的 Voice Agent:

开源 + 高质量

基于声网十多年实时语音深度研究经验;

超低延迟、低功耗、高准确率;

完全开源,Apache 2.0 许可证,欢迎使用、修改和贡献。

更自然的对话

正确处理“打断”、“停顿”、“回应”等人类式交互;

极大提升用户体验。

成本更低

VAD 准确识别语音帧,有效减少语音识别调用量;

实测结果显示:两者合用能大幅降低总系统成本。

即插即用

可作为 TEN Framework 的插件模块使用;

对于已经使用 TEN Framework 的开发者,支持无缝集成;

对于正在选型 AI Agent 框架的团队,TEN 是具备最佳 VAD 和轮次检测能力的选择之一。

使用 TEN VAD 和 TEN Turn Detection 的最佳实践

两款模型都可以搭配 TEN Agent(基于 TEN Framework 的 Voice Agent)使用:

Hugging Face 上快速运行(推荐)

1.登录 Hugging Face;

2.打开 TEN Agent Demo;

3.点击右上角设置 > Duplicate this Space;

4.即可用 Hugging Face 提供的 GPU 部署完整体验。

本地运行(自带 GPU)

1.登录 Hugging Face;

2.打开 Demo 页右上角设置 > Run Locally;

3.按照本地部署指南(https://github.com/TEN-AI/TEN)操作即可运行完整。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

Soul直击Z世代领证新趋势,反映年轻人对婚姻多元诉求
2025数据安全发展大会召开:亮点频现,精彩纷呈
Timeshop2025新品“倍清肝”全球首发 引领肝脏健康管理新范式
联想ThinkVision系列显示器闪耀China P&E,引领商务影像显示新潮流
2025数安大会:每日互动方毅首谈公司多端AI产品架构 助力大模型场景化落地
肝脏健康重磅突破!TimeShop落地新一代护肝黑科技——倍清肝
首批价值用户交机 从智能拖拉机制造基地投产看雷沃如何引领智能农机“智质双升”
中国智造 链接世界丨全球价值客户见证雷沃智慧农业智能拖拉机制造基地投产
石头洗衣机“烘干一座城”烘动西双版纳,揭晓“傣味潮人”雨季洗衣攻略
西南丝绸之路文化对外交流会客厅落户成都高新区 芙蓉岛文化升级工程正式启动
邀请函 | 快递100诚挚邀请您携手打造企业行政数智化先锋
品牌全球传播力研究报告:叠纸《恋与深空》代表中国手游突破全球市场
京东购华硕天选6 Pro锐龙版享20%国家补贴,享Pro级用机体验
京东小魔方新品日 购华硕天选6 Pro享20%国家补贴到手6999元起
考试星圆满交付上海市住建委评价考试
中国移动护航2025弥勒半程马拉松:用科技与行动诠释“信任”与“温暖”!
APP办公用纸小钢炮复印纸零塑包装:以纸代塑,环保新选择
中国电信山东公司“云改数转智惠”生态合作发展大会启幕 共绘AI+时代数智新蓝图
指尖利刃,决胜每帧:八位堂天刃星街机控制器正式发布
银川移动:以数字创新筑就智慧生活,以央企担当护航美好未来
打通数字生活全场景 江苏移动服务厅“智绘”未来新图景
江苏移动万兆领航、5G-A全域智联、算力底座全国领先
像航科技与中国电信达成战略合作,共探数字生活新生态
来京东心动购物季领华为至高1000元大额券 华为 Mate 70仅需5399元
“星光智能五号”芯片在警博会现场交互 展现“图灵时刻”
中国信通院张海懿:推进城域毫秒用算行动,加速AI赋能新型工业化
梦想钥匙开启公益新路径:赋能乡村教师 激活全民公益
梦想钥匙开启公益新路径:赋能乡村教师 激活全民公益
“技术创新连接两岸:覃俊龙的智能制造实践”
RTX 5060系显卡和笔记本新品来了!5月20日凌晨京东开售!