智象未来两项研究入选ICCV 2025,发布两项视觉生成突破性成果

2025-07-18 10:22:32     来源:

近日,智象未来团队两项创新成果入选ICCV 2025,分别聚焦于图像生成与视频增强两个方向,全面展示了其在生成式AI技术上的突破与领先。

在图像生成方面,智象未来团队提出了全新去噪掩码自回归生成范式De-MAR,解决了自回归模型在视觉生成中的关键瓶颈。自回归模型虽在语言领域大获成功,但在图像生成中存在细节表现力不足、推理速度慢等痛点。De-MAR框架通过双重令牌优化机制,创新性引入扩散头与去噪头模块:扩散头利用交叉注意力捕捉全局上下文,提升掩码区域预测精度;去噪头动态优化已知区域令牌,减少误差累积。实验显示,De-MAR在ImageNet和MS-COCO数据集上,FID指标达1.47和5.27的顶尖水平,生成速度较DiT-XL/2快45%,打破高质量与高效率不可兼得的困境,生成图像细节更丰富、伪影更少。

在视频增强方面,团队则推出了创新的生成式视频画质增强框架GenVE,攻克传统方法细节缺失难题。其核心在于双重对齐机制:通过图像扩散模型生成语义参考,确保全局布局一致;借助局部感知交叉注意力模块,精准迁移参考图像的纹理细节至视频。同时,多重增强策略提升模型鲁棒性:噪声增强平衡质量与保真度,时间增强强化帧间连贯性,掩码策略提升特征利用率。在YouHQ40、VideoLQ等数据集上,GenVE的MUSIQ、DOVER等指标全面领先,能生动还原毛发、衣物褶皱等细节,使视频画面更自然流畅。

这两项成果分别发表于ICCV 2025 论文《Denoising Token Prediction in Masked Autoregressive Models》和《Aligning Global Semantics and Local Textures in Generative Video Enhancement》,为视觉生成技术开辟新路径,推动高质量、高效率的多模态内容生成迈向实用化,未来有望在创意设计、影视制作等领域广泛应用。

 

标签:

猜你喜欢

效率安全双管齐下,青云智算重塑新闻媒体 AI 生产力
TCL华星闪耀亮相第三届链博会,前沿显示成果及产业布局链接全新“视”界
咪走宝!羊城这场科技感满满的AI盛会
链博会丨施耐德电气崔志达:技术创新赋能“中国制造”迈向“中国创造”
告别“暧昧经济”,团播进入2.0时代
奔腾小马的这块AI大屏,正在重塑微型车的智能体验
破局·共生:佛山机器人行业精英共探转型升级新路径
百度智能云发布首个生物分子结构预测推理大模型HelixFold-S1!赋能生物医药创新
上斗鱼,看LPL!2025 LPL第三赛段本周末热血来袭
看《长安的荔枝》品新鲜荔枝 京东高品质冰箱国补8折优惠
国产品牌更懂中国家庭,美的双出风中央空调精准洞察引领舒适革命!
APUS医疗大模型入选中国信通院《数字医疗产品及服务高质量发展案例集》
​雪慧科技新一代智能储备仓将为四川药品网络零售智能化试点提供有力实践支撑
世界人工智能大会SAIL奖TOP30出炉!天鹜科技荣登榜单!
“大山里的音乐课堂”,点亮孩子的音乐梦想
2025年APEC“提升可持续创业者能力 促进绿色就业和韧性发展”研讨会在京举办
南瑞支撑福建首个"零碳"离网型海岛微电网稳定运行
2025中国智慧生活大会在京召开 艺术电视2.0标准正式发布
共赴前沿未来!智元机器人 x WAIC 2025重磅来袭
达沃斯定调下的中国实践:传神语联以“根原创”构筑AI主权大模型
海外营收增长700%!阿里云助力云鲸智能出海
TITAN触觉DIY创意大赛:聚焦中国本土触觉应用创新
串联品质生活 用三星Galaxy Z Flip7享受便捷与精彩
零碳园区成为新风口,创维光伏引领从0到1创新实践
万里数据库GreatDB亮相上合组织数字经济论坛 与哈萨克斯坦人工智能发展协会签署合作协议
全新升级版-《学魁母题清单》:新高考提分利器
创云一站式等保 | 助力某一线城市地铁支付小程序合规过等保三级
三星为何一直领跑折叠屏市场?原因不只是技术和经验-朝闻天下
“夏季人生”平衡针灸干预方案
暑期出境游热度攀升,越南航空首登抖音直播开启“云抢票”模式