人工智能拥抱稀疏化:DeepSeek v3.2-Exp & UCM先后开源助力大模型“轻装上阵”

2025-09-30 17:29:15     来源:

DeepSeek于9月29日发布V3.2-Exp最新版本,介绍了其稀疏化技术的应用效果,而同样应用稀疏化技术的华为Unified Cache Manager(简称UCM),也在9月30日正式开源上线。稀疏化趋势正从技术探索演变为产业刚需,助力大模型“轻装上阵”。

DeepSeek V3.2-Exp最重要的更新是提出了DeepSeek Sparse Attention(简称DSA),一种稀疏化注意力机制,旨在有效降低token成本。此前,DeepSeek 曾发布 Native Sparse Attention(简称 NSA)相关论文,业内普遍预期其下一版模型将采用NSA,没想到此次DSA抢先登场,打破了这一预期。不过,这也是稀疏化注意力机制首次在开源大模型中的实际应用,NSA或许会被DeepSeek留到了V4版本。

华为UCM在9月30日开源上线,其方案介绍中也提到了稀疏化相关内容。令人惊喜的是,UCM提供的并非仅仅一种稀疏化算法,而是四种:ESA、GSA、KVComp和KVStar,这几种算法分别对应不同的稀疏化策略。同时,UCM提供了统一的稀疏化框架,所有模型可以按需适配不同的稀疏化策略,也支持用户自定义使用自己的稀疏化算法。UCM的理念是——针对不同模型、不同场景,稀疏化算法将朝多元化方向演进。其中,DSA attention模块使用了“Lightning indexer & top-k selector”进行重点token的筛选,这与UCM中“Retrieval_engine”的设计有相似之处。

两者的共同点在于利用Query tensor在历史的KV Cache中进行检索,检索出来的topk个token参与模型的attention计算。

不同点在于:1. DSA中筛选的粒度是token,UCM筛选的粒度则可以是token或者block;2. DSA的Indexer是含参的,UCM的Retrieval_engine模块则可以是带参的,也可以是无参数的;3. DSA目前实现了attention计算复杂度上的降低,但是没有减小显存中KV Cache的占用,UCM则利用Store换入换出节省了显存资源,进一步提高并发收益。可以期待下,UCM的框架后续是否能配套使用DeepSeek的DSA。

华为开源UCM架构图

经过对比分析可以看到,DeepSeek与UCM的稀疏化路径有所不同:前者作为模型厂商,DSA是与训练过程深度结合的稀疏化模型;而后者提供推理加速方案,是基于已有模型无需额外训练就可实现的稀疏化,并希望在推理引擎层面更好地支持多种稀疏化算法。从已公布的吞吐提升与精度表现来看,DeepSeek DSA与UCM都实现了显著的推理加速,同时保持了较高的模型精度。可以预见,稀疏化将成为继PD分离之后,AI推理领域的又一大热门方向,甚至是未来推理系统的“标配”。

回顾此前的Mixture of Block Attention (简称MOBA)和NSA等稀疏注意力机制的提出,标志着研究者开始尝试在保持模型性能的前提下,通过结构性剪枝或局部聚焦的方式,减少无效计算。如今,DSA与UCM的出现,有望推动稀疏化从理论研究走向实际部署。在稀疏化的加持下,训练与推理成本的降低将进一步提升模型的上下文处理能力——1M token的上下文长度不再是理论值,而是可在实际应用中实现的目标。长上下文、推理加速与成本优化,也将共同推动AI在长任务、Agentic AI等方向的发展。

AI自诞生之初就被视为继互联网之后的下一代基础设施。随着稀疏化等新技术的涌现,AI应用的门槛正被持续降低,这一宏大的设想也加速走向现实。而在这场以“轻量化”为核心的演进中,DeepSeek和华为UCM分别以创新的算法、统一的框架和灵活的适配能力,为行业提供了一条低成本、高效率的实践路径。它不仅将多种稀疏策略集于一身,更以开源开放的姿态,为整个推理生态的“轻装上阵”铺平了道路。

DeepSeek V3.2-Exp:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

UCM开源Github仓:https://github.com/ModelEngine-Group/unified-cache-management

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

微算法科技(NASDAQ: MLGO)融合二次矩阵变换模型,研发基于区块链的可溯源IP版权保护算法
双十一爆款预定!雷鸟鹤6以XDR 1300nits亮度和量子点广色域开启视听盛宴
天府软件园2025年秋招走进重庆,AI、芯片企业扎堆引才
哈客·南宁服务中心正式启用,打通人才数据价值闭环
以匠人之心,琢时光之影:心系天下W26系列将于10月发布
2025 AI赋能数字贸易生态论坛在杭举行
金蝶参编工信部机器人行业场景图谱(2025 版)
专属舞台已备好!2025北京联通青春影像校园歌手征集开启,就等你开嗓!
2025 洗衣机选海尔云溪 4.0 还是小天鹅小乌梅?看完对比后,再选更踏实
国庆出境游必备!鸿蒙版欧路词典已上线,支持多语种AI翻译、同传
鸿蒙5终端突破2000万!超百家伙伴齐贺,近20家伙伴携手带来“鸿蒙有礼特别版”
2025微博篮球之夜收官:IP之力激活篮球生态,让热爱持续沸腾
“国网杯”网球公开赛官方指定品牌,轻松保运动险为赛事护航
“江畔论道 共绘出海新蓝图——对话新出海未来独角兽活动”在五象新区举行
从318国道到青甘大环线,恒洁“此间” IP升级美好生活体验
2025演唱会 / 夜景 / 人像拍摄手机推荐:专业实测与选购推荐
“中国脑机谷”落户新智感知产业园,政企研协同构建脑机接口产业新生态
恒河圣水本是毒汤?中国神器隔空踢馆 一台机器搞定世纪难题
再添奖项!腾讯云天御反电诈治理方案荣获北京互联网大会优秀解决方案
技术入围行业目录,案例验证落地成果——九爪智能郑州塑料回收大会载誉而行
2025跨境产业集群发展大会在广州举办,赋能跨境物流全链发展
直达机场!福州滨海快线开通运营
雄韬氢能携手亚马逊 打造印度零碳数据中心新标杆
富士胶片双筒望远镜荣获IDEA设计奖金奖 7款产品入围最终名单
无人机编队表演技术演进:从单一灯光到多元挂载的全场景时代
登上央视《大国品牌故事》,刘岩用AI为父母写传记,让科技充满温度
绿盟科技提出大模型安全“一三五”防御新理念 构建评估-防护-响应全周期防御体系
从操作逻辑到性能表现:一文秒懂鸿蒙版微信与安卓版的差异
民有所呼 我必有应|一条高速上的“生命热线”
“苏超”八强诞生,比赛以来江苏酒店住宿抖音团购订单同比增长55%