Interspeech 2026 第二届音频编码器能力挑战赛正式启动

2025-12-15 13:56:34     来源:

国际语音顶级会议 Interspeech 2026 将于2026年9月在澳大利亚悉尼举行。由小米、萨里大学、清华大学、海天瑞声联合发起的第二届 Audio Encoder Capability Challenge(AECC)音频编码器能力挑战赛将同步亮相 Interspeech 2026,目前已正式开放报名。

当前,音频大语言模型(LALMs)发展迅速,但大多数主流模型在音频前端编码器上选择非常单一,几乎均基于 OpenAI Whisper Encoder。这种对单一技术的依赖不利于模型架构的多样化探索,也限制了 LALMs 整体能力的进一步提升。为应对音频理解能力不断增长的需求,本次挑战赛将聚焦于音频编码器这一核心模块,重点评估其在复杂真实场景下的理解与特征表示能力。

评测方法

本次挑战赛采用统一的端到端训练和评估框架。参赛者只需提交预训练的编码器模型,下游任务的训练和评估由主办方完成。主办方提供了开源的评估系统 XARES-LLM。该系统基于用户提供的音频编码器自动训练一个典型的 LALM。该系统会自动下载训练数据,训练模型,然后测试各种下游任务,并为每个任务提供分数,如下图所示。

参赛者并不需要自己运行 XARES-LLM,而只需把音频编码器按照一个简单的接口说明和示例封装,通过邮件发送给主办方即可,大模型的训练和评估由主办方完成。当然,由于 XARES-LLM 是开源的,且只需 GTX4090 即可完成训练和评估,参赛者也可以自行使用该系统训练大模型、评估待提交的编码器的性能,并和主办方提供的基线系统比较。

训练数据

和大多数比赛不同,本挑战赛不仅重视模型设计和训练,也同样重视数据的收集和利用。主办方不规定具体的训练数据集。参赛者使用的训练数据必须是公开可访问的,不得使用私有保密数据。参赛的模型既可以基于任何开源的预训练模型参数,也可以从头训练。

同时,海天瑞声公司为比赛提供了一个补充数据集,供参赛者免费使用。该数据集从八个商用数据集(King-ASR-457、King-ASR-958 等)提取构建而成。其内容涵盖了丰富的日常环境噪声,具体包括书店、健身房、地铁、餐厅等多种室内外场景的背景噪声,以及家庭环境下的不同距离背景噪声。此外,数据集还收录了水流、脚步声、户外窗边等特定非语音干扰声,以及地铁车厢在不同时段的运行噪声。啸叫类数据则包含了通话、游戏和直播场景下的纯净啸叫声。车辆相关环境噪声也是其重要组成部分,如机械噪声、空调运行声和开窗风噪,还有咖啡馆、医院、市场、步行街等生活场景的实录环境声。

报名参赛者可以免费访问该数据集,细节详见 :

https://dataoceanai.github.io/Interspeech2026-Audio-Encoder-Challenge/King_NonSpeech-Dataset_en_20h.html

报名和提交方法

报名阶段请于 2026 年 1 月 25 日11:59 PM AoE前 完成赛事报名信息填写。了解详情可移步至海天瑞声公众号。

模型准备与自检参赛者需封装自己的音频编码器,并使用主办方提供的检测工具完成编码器合规性检查,确保模型接口与功能符合赛事要求。

模型提交请于 2026 年 2 月 12 日11:59 PM AoE 前,将编码器代码及模型文件统一打包为 ZIP 文件,并通过邮件方式提交至主办方指定邮箱。

技术报告提交请于 2026 年 2 月 25 日 11:59 PM AoE前,把技术报告 PDF 文件邮件发送给主办方。技术报告可以同时在 Interspeech 官方提交系统作为会议论文投稿。

联系方式

主办方邮箱:2026interspeech-aecc@dataoceanai.com

挑战赛官网:https://dataoceanai.github.io/Interspeech2026-Audio-Encoder-Challenge/

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

圆满落幕!2025·人工智能+未来产业发展大会构建“AI+未来产业”融合新生态
未来智造·赢在昌平!2025iCAN未来机器人创业挑战赛总决赛圆满举行
​2025软件工程智能化趋势洞察:AI Agent重塑质量保障,创新应用领航行业新范式
与时代同频!思创激光积极践行“十五五”规划建议 助力高质量发展新征程
佩信集团旗下佩企科技首度入选2025中国软件前百强企业
温润的守望,永续的亮光 ——谨以此文追忆我的邻居杨锡让伯伯
欧唯特携手海柔创新,全方位赋能梅特勒托利多仓储智能升级
30万客流、900万订单额见证科技破圈 ROBOT MALL合生汇快闪店圆满收官
2025中国企业家冬季合作盛典将在南京启幕
人类的“灵光一闪”,从未如此重要
第九届全国医交会隆重开幕!瑞健未来Rlab长寿设备掀体验热潮
两小时登顶类目第一 Snapmaker U1多色3D打印机京东预售创佳绩
天立国际集团受邀出席第十六届新华网教育论坛,共话基础教育高质量发展
追觅专利破局:双机械臂洗地机,让顽固污渍“一擦而净”
技术为生命重启而来:脑虎科技发布“三全”脑机接口临床成功,以更优安全性与AI融合定义新未来
AI智能硬件出海产业联盟在深启动!立足东盟面向全球
量子点光谱技术引领排水管网智慧排查革新 芯视界科技入选住建部先进适用技术与产品目录
懂车帝测试引发汽车音响罩安全性关注,小概率安全事件反映材质工艺问题
风口已至 低空融媒产业蓄势起飞
PG电子Xbox追光《麻将胡了》体验现代技术的完美融合
双核驱动,智创未来:访交大创业校友——上海友帙科技CEO兼技术总监郭子源
12月11日,鲲鹏开发者创享日·北京站震撼开启,开发者欢聚一堂,共享技术盛会!
共铸AI人才高地 | 昇腾“淬火金种子”伙伴能力提升专项活动·浙江专场圆满收官
九章云极,如何成为AI科研开发者的“算力宠儿”
四通集团携手云酷智能全球首发RTX5090浸没式智算解决方案,开启绿色算力浸时代
卡位影视数字化转型风口 智象未来与长江影视战略合作 构建AI视觉生成产业闭环
从交易到共情:ZCAR竹子买车以信任为核,引领汽车“一口价”新通路​
海辰储能生态日首发三大创新产品,推动长时储能迈向智慧未来
华为联合申菱打造低碳园区,树立广东绿色能源新标杆
寻亲需求“有求必应”,抖音寻人以科技链接全国救助系统