“考公图都不会?”大模型真正的难题是:看图太难

2025-06-13 10:21:03     来源:

——VisuRiddles 揭示多模态大模型在“看图推理”中的核心瓶颈

考公图都不会?现在火遍全网的多模态大模型(MLLMs),面对一张公务员考试里的图形推理题,居然频频“翻车”?真相可能出乎意料:模型不是“不会推理”,而是“没看懂图”。

2025年6月,华中科技大学白翔团队联合华为发布全新研究成果 —— VisuRiddles,一个专为抽象视觉推理设计的评测与数据体系,首次系统性揭示了当前大模型在“看图推理”中的核心瓶颈:感知能力严重不足。

本项目不仅发布了覆盖五大感知维度+两类高阶任务的基准数据集,还创新设计了自动化数据合成工具 PRS(感知谜题合成器),能够生成带有结构化感知描述的任务样本,让模型“看得懂、推得出”。

实验显示:在不改变模型结构的前提下,仅使用 PRS 生成的数据进行训练,模型在公务员图形题上的表现大幅跃升。

推理不难,看懂才难!

VisuRiddles 发现关键问题:大模型看不懂图

更提供了解决方案:PRS,让模型学会“看清楚”!

论文链接:https://arxiv.org/abs/2506.02537

代码地址:https://github.com/yh-hust/VisuRiddles

 

 

标签:

猜你喜欢

腾讯云 TVP 走进青岛啤酒,解码数字化驱动智慧零售增长引擎
游船赏西湖美景、4折起购3C数码 京东“3C数码国补中国行”落地杭州
美的空调x新世相聚焦厨房孤岛,3.7亿人的清凉不该被外机位困住
BCS 2025|第十届安全创客汇决赛落幕 安泉数智、泛联新安获双赛道年度冠军
中关村科金@成都发布三大行业垂类大模型解决方案,首个交通基建垂类大模型正式亮相
河北沧州新质生产力峰会举办| 华为云AI CITY,共建幸福智慧沧州
九大AI品类销售火爆!618京东3C数码市占52%!稳居行业第一!
明略科技与在港企业共同探讨AI Agent驱动品牌增长创新方法,“走进企业Demo Day活动”成功在港举行
中国旅游业,如何追回错过的20年?
创维光伏亮相SNEC 2025,全场景解决方案开启全民光伏新时代
稳居行业第一!618期间京东3C数码线上市场份额达52%
用鸿蒙版支付宝“熄屏就能碰”,华为Pura 80系列、华为WATCH 5率先支持
更智能的Galaxy相机:懂你所见 即时互动
智象未来两篇论文入选 CVPR 2025!视频生成与虚拟换装齐破局,开源赋能产业革新
芯片界“变形金刚”:清微智能超2000万颗出货,重构AI算力新范式
冷链物流迎来绿色革命!顺新晖与宁德时代建立战略合作
StarRocks 优化实践:揭秘毫秒级实时分析的三大核心技术
直击SNEC丨全球首次开门燃烧试验成功,海辰储能用极限测试定义储能安全新标杆
Acloudear司享网络深度参与SAP全新战略,以AI+实战,助推企业确定性增长
智能客服选型指南:2025高性价比厂商全景解析
当“中国玩具之都”遇上AI大模型:百度智能云携手澄海开启千亿级智能玩具市场新蓝海
AI驱动零售新增长!华为云零售峰会厦门启幕,看零售业如何破局
SASE国内市场第一!企业办公安全升级为何选择深信服?
HIMA集团保持增长态势,将进一步强化全球安全解决方案地位
KGS 2025大中华区战略发布会圆满举行 赋能海湾开启本土化战略新篇章
三钧铜转铝连接解决方案亮相上海SNEC光伏展
警惕假冒官方!抖音生活服务提醒商家:这些"招商会""地推"都是假的
抖音电商“焕新中原”活动启动,6000元以上手机专项补贴限时发放
一盘应万变:闪迪助力游戏玩家开启多场景副本探索时代
618华硕国补超值钜惠开启! 华硕天选6 Pro国补入手价仅6799.2元