混元这6篇论文,入选国际顶级学术会议ICML2025

2025-06-25 20:52:51     来源:

作为全球机器学三大顶会之一,ICML2025聚焦机器学前沿领域,将于今年7月中旬在温哥华召开,目前大会接收的论文结果已经出炉。

本文将介绍腾讯混元团队获得ICML录用的六篇论文,覆盖模型训练、MoE模型架构、模型推理深度思考以及3D生等领域。

这些成果代表了混元团队当前关注的核心方向,也是研究员们不断探索技术前沿的努力。

1、Scaling Laws for Floating Point Quantization Training

(浮点量化训练的 Scaling Law)

年来人工智能技术迅猛发展的背景下,大模型的量化训练成为业界关注的热点。量化训练,尤其是低比特浮点数训练,寻求在降低模型计算和存储成本的同时,尽可能保持其能。腾讯混元团队的最新研究《Scaling Laws for Floating-Point Quantization Training》对这一领域进行了深入探讨,为大模型的优化和实际应用提供了理论依据。

大模型(Large Language Model, LLM)的参数规模日益庞大,这导致了训练和推理的成本显著增加。因此,降低模型精度以减少资源消耗成为了研究的重要方向。以往的研究表明,相比于整数量化,浮点数数量化在保持模型效果上表现更佳。腾讯混元团队通过366组不同参数规模和精度的浮点数量化训练实验,提出了一套浮点数量化的Scaling Laws,这为模型训练提供了重要的理论指导。

浮点数的量化结构复杂,由符号位、指数位和尾数位决定。研究团队发现,特定的指数位(E)与尾数位(M)配置关系直接影响模型的训练效果。他们推导出,在任意配置下,都存在一个模型的极限能与数据量的关系,“超过这个临界点(Dcrit)后,继续增加数据反而会对模型效果产生负面影响”。这一发现对理解大模型在实际训练中的行为模式具有重要意义。

此外,研究还揭示,当计算资源有限时,理论上最佳的浮点数量化训练精度落在4-8比特之间。这一发现与业界在超低精度量化训练中采取的措施相符,为进一步的研究和实践提供了可行的指导方案。重要的是,这项研究表明,小模型在面对较低精度时,需要较大的数据量才能达到有效训练的效果,这一规律也为研究团队在实际开发中提供了预见,有效促进了模型能的提升。

2、 Autonomy-of-Experts Models

(自主专家模型)

年来,Mixture-of-Experts(MoE)模型因其提升大语言模型参数利用率与计算效率的能力,受到学术界与工业界广泛关注。然而,现有MoE普遍依赖外部路由器选择专家,这种“决策与执行分离”的架构存在关键问题:路由器无法感知专家真实能力,导致专家选择缺乏有效监督,易引发训练损失上升或专家能力漂移,训练效率低下。

为解决这一问题,我们提出 Autonomy-of-Experts(AoE) 框架,使专家具备“自我认知、自我选择”能力,从而去除显式路由器。AoE的核心思想是:专家对输入的激活强度可视为其处理信心。

研究者发现在预训练好的MoE模型(如 Mixtral 8×7B 和 Phi-3.5-MoE-instruct)中移除路由器,让所有专家对每个token并行执行前半计算,并在“暂停节点”处提取激活L2范数,用于Top-K专家筛选。尽管不更新参数,这一基于激活强度的选择策略可以极大地保持原始模型能。这说明专家对自身能力有认知且认知可以体现在激活程度上。基于这一启发,我们在AoE中显式设计激活节点作为专家筛选信号,并在预训练阶段引导专家学以激活强度表达处理信心。

实验表明,使用 xW_g 节点的激活 L2 范数作为筛选依据,在能与效率间实现良好权衡。此外,为减少所有专家执行完整前向计算所带来的计算和内存压力,AoE引入低秩因式分解策略,将专家投影矩阵分解为两个小矩阵(W_down · W_up),大幅降低成本。

最终,AoE在保持约97%传统MoE推理吞吐率的同时,取得更优的下游任务表现,并展现出以下优势:专家负载更均衡;选择信心更强;激活信号自适应调整,无需人工干预。

3、RBench: Graduate-level Multi-disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation

(RBench:面向大语言模型与多模态大语言模型复杂推理评估的硕博级交叉学科基准测试)

大语言模型(LLMs)在推理能力展现上不断进阶,从基础思维链提示应用迈向更智能阶段。然而,在综合考量大模型复杂推理能力时,现有评测基准存在覆盖学科有限、对多步深度推理考查不足等问题,难以全面精准衡量模型在真实复杂场景下的推理表现 。

为突破上述困境,来自清华大学、腾讯混元 、斯坦福大学等机构的研究者们,打造了多学科大模型复杂推理评测基准 RBench 。RBench 实现了:1)广泛挖掘多学科(数学、物理、化学等 19 个院系超百学科)复杂推理题目,构建高质量、多语言(含中英文)评测数据集 ;2)打造兼容语言与多模态模型评估,聚焦推理链条构建与问题解决能力考查的评测体系 。

RBench 的核心创新点涵盖:1)一套从多学科课程体系挖掘、经专业筛选优化的推理题构建流程,保障数据丰富与质量 ;2)一个覆盖多学科、多语言,兼顾语言与多模态模型评估的综合评测基准 ;3)一组能有效区分模型复杂推理能力,助力揭示模型推理瓶颈的测试方案 。这些设计让 RBench 成为评估大模型复杂推理能力的有力工具 。

4、Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs

(何必为2+3等于几绞尽脑汁?——论类O1大语言模型的过度思考问题)

自 OpenAI 发布 o1 模型以来,它超强的逻辑推理以及难题解决能力就引发了广泛关注。在o1之后,类似的通过长思维链来提升推理能的开源模型也纷纷面世,如 Deepseek 推出的 R1模型。这类长推理模型通过模拟人类的深度思考过程,在思维链中运用如自我反思、纠错以及探索多种解法等推理策略,展现了强大的推理时扩展(Inference-Time Scaling)能。然而,在长推理模型成功的光环下,推理效率的问题越来越受到大家关注。

来自腾讯和上海交通大学的研究者针对长推理模型的生成效率进行了详细的研究。他们发现,长推理模型存在严重的“过度思考现象”:长推理模型在生成答案过程中,会对单一问题生成冗余的同质化解答 (solution),且后续解答对正确率贡献较低。进一步的分析发现,过度思考现象有如下三个特点:1. 冗余解答对正确率贡献较低。2. 冗余解答的策略多样较低。3. 过度思考现象在简单问题上更严重。

为了更好地量化过度思考问题,研究者们从解答对正确率的贡献以及对推理策略多样的贡献出发,提出了两种效率指标,分别为结果效率和过程效率,并对现有模型的表现进行了细致的分析。研究们还基于偏好优化算法提出了一个缓解过度思考的方法,通过不同方案构造精简的模型回复,并鼓励模型学以更简单的方式回答问题。实验结果表明,提出的优化方法可以在维持数学推理能不变的情况下,大幅度提高生成效率。

5、Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability

(关键词元何以重要:词元级对比估计增强大语言模型推理能力)

数学推理任务一直被视为衡量大语言模型(LLMs)能力的重要指标。为了提升模型在此类任务中的表现,研究者们从多方面进行了优化探索,例如通过链式思考(Chain of Thought, CoT)提示,或对错误类型进行系统分析,旨在帮助模型实现更严谨的逻辑推理和逐步推导。然而,目前对于大语言模型生成过程中最基础的单元——词元(token)层面的研究仍较为缺乏,尤其是在数学推理场景下,词元级别的影响尚未被充分揭示。

为填补这一空白,来自清华大学与腾讯的研究者在词元层面对模型推理过程进行了深入分析。他们发现并定义了一类对模型推理结果有关键影响的词元:关键词元(critical tokens)。这些关键词元并非人类通常认为的错误词元,但它们一旦出现在推理轨迹中,会显著扰乱模型的逻辑推演、破坏计算正确,从而导致推理失败。

为进一步量化关键词元的作用,研究者提出了一套词元级别的识别与采样框架,用于定位并衡量关键词元对模型准确率的影响。在 GSM8K 和 MATH 数据集上的实验表明,仅通过简单替换错误轨迹中的关键词元,模型的推理能即可获得显著提升,Pass@1 提高了 30%,Pass@64 提升更是高达 90%。

为了将关键词元的发现应用于大规模模型训练,研究者提出了对比估计(contrastive estimation)方法,用以高效自动化地识别关键词元。他们进一步设计了基于关键词元的 cDPO训练算法,将关键词元信息引入 DPO 训练中。实验结果显示,通过在训练阶段抑制模型对关键词元的生成倾向,cDPO 不仅能有效帮助模型区分正负示例,还显著缓解了 DPO 中存在的似然偏移问题。

6、FreeMesh: Boosting Mesh Generation with Coordinates Merging

(FreeMesh:基于坐标融合的网格生成加速框架)

在当前自回归网格生成方法体系中,下一坐标预测范式已成为实际落地的主流方案 。这类方法虽能在网格序列化建模流程中实现一定效果,但在网格标记器质量评估环节,既缺少无需训练即可从理论层面高效评估的手段,现有标记器对网格序列的压缩能力,也存在明显优化空间 。

为破解上述难题,香港科技大学、腾讯混元、华南理工大学、上海科技大学的研究者开展专项研究,提出创新方法,对网格标记器评估与序列压缩进行系统优化。

具体研究贡献可概括为三点:

其一,构建 Per-Token-Mesh-Entropy(PTME)数学框架 ,突破传统评估对训练依赖,无需训练即可完成现有网格标记器质量评估,填补网格生成领域理论评估的空白;

其二,设计 简便有效的坐标合并技术 ,通过识别并合并高频坐标、构建新词汇表,精准压缩网格序列冗余信息,提升序列编码效率;

其三,经实验验证,将 EdgeRunner 与标记合并策略结合,实现 21.2% 的当前最优压缩比 ,充分验证方法有效,为原生网格生成技术发展筑牢基础、注入动力 。


标签:

猜你喜欢

意式智造闪耀ProPak China 2025:意大利国家展团盛况直击
燕教授后生元闪释粉焕新上市:科技赋能汉方,直击肝郁根源
青岛大学纺织服装学院:打造纺织卓越人才培养新高地,创新实践驱动本科教学高质量发展
以设计重构认知边界:丝路视觉为深圳科技馆量子展区注入科学传播新范式
国内首批!EN+科技正式通过欧盟RED网络安全最高认证,提前满足EN 18031强制标准
华为云Stack大模型混合云,解锁政企智能应用无限可能
腾讯应用宝上线5.0版本,实现x86、ARM全面兼容
首期100名学子!追觅科技“俞浩梦想奖学金”申请开启
色彩宪章,视界进化——影视公司创始人昊阳与AOC U3 Graphic Pro共话色彩进化论
BitEngine二度震撼币圈:BITENG公链代币预热启动,全球Web3用户热切追捧
锐西亮相HDC2025:携手华为云与鸿湖万联赋能特种运输全场景智能安全管控
音视频AI多模态融合引爆产业变革,华为云领航媒体与智能交互新时代
安森美AI数据中心系统方案指南上线 全面支持助力能耗优化与绿色转型
复古美学+双麦保障!枫笛Air超大咪芯迷你麦克风震撼上市
权威认可!百度智能云GaiaDB-X满分通过数据库政府采购需求标准评测
亿信华辰医院综合运营管理分析解决方案:驱动医疗服务新变革
2025全球AI眼镜销量预破550万台,苹果/三星/微美全息新品引领科技新潮流
DeepWay深向交付云南新源绿能,打造全国首条跨省跨境新能源重卡物流干线
云鲸京东MALL深圳首店开业快闪活动启幕,吸引众多消费者打卡
《韶华若锦》火热上线!这个暑假用WiFi万能钥匙,轻松追剧不怕流量告急!
行业首发!网易易盾推出国内首个AIGC内容安全插件,已接入Coze、Dify等主流平台
满帮集团工会聚焦解决货车司机“急盼难愁”问题
肇庆逆行彰显担当,龙环汇丰“企业温度”聚力量
行业领先|DuDuTalk实时流工牌重磅首发,实现从事后到实时的颠覆性跨越
C-Life携全场景AI解决方案重磅亮相2025上海美博会,智领美业未来
华为云AI-Native安全高峰论坛:构筑AI时代的双向安全堡垒
引领包装产线自动化新浪潮,华沿机器人亮相上海国际食品包装展
三星Galaxy S25 Edge:当轻薄成为潮流
票付通2025景区数字化发展与实践菁英智享会兰州站圆满落幕!
OBSBOT寻影发布新一代AI三轴云台直播相机寻影Tail 2与Tail 2S,全面赋能电竞等专业内容创作场景