DeepSeek后，又一国产宝藏大模型，超超超长文输出，精准拿捏复杂任务规划

这个春节，AI界国产黑马DeepSeek掀翻世界大模型的桌子。DeepSeek用不到OpenAI十分之一的成本，做出了性能媲美o1的R1，一经发布，迅速搅动了世界大模型的发展格局和趋势。

高性能、低成本与高速度之间的不可能三角在被打破。

DeepSeek的成功不仅展示了中国在AI领域的创新能力，也为全球AI发展提供了新的思路。

与此同时，由中国科学院自动化所孵化的AI企业中科闻歌发布的雅意大模型旗舰版——YAYI-Ultra在破解大模型落地"精度-能耗"困局前给出了自己的答案。

作为覆盖全球100+模型的权威评测体系，OpenCompass榜单历来是观察大模型技术路线的"晴雨表"，在其近日发布的OpenCompass大模型公开学术榜单中，中科闻歌YAYI-Ultra，以64.5分首次闯入前十，成为TOP10中五个中国大模型之一。

在OpenCompass最新大语言模型公开学术实时榜单中，YAYI-Ultra排名综合得分64.5，排名第十，其中：

代码生成：LiveCodeBench排名第五，表现优于GPT-4o-20241120版本

复杂指令理解：IFEval排名第九

知识推理能力：MMLU-Pro排名第九

在侧重中文理解的C-Eval评测中，YAYI-Ultra在允许自主验证的公开访问榜单位列第二，展现了在中文场景下的技术优势。

一手实测：

超长文输出，复杂任务规划精准拿捏

AI大模型工场从官方了解到，YAYI-Ultra在图表理解、复杂任务、长文理解与生成方面表现突出，我们立马上手从六个维度（多模态图表深度理解、复杂图像理解、复杂任务智能规划（Function Call）、数据统计分析及超长文本理解与生成）实测下YAYI-Ultra表现到底如何。

01、视觉理解再升级：懂语言，更懂图表

上来我们先来读个图表试试。

prompt：2000年前后，哪个价格区间的物业费占比变化最多？

YAYI-Ultra可以准确识别柱状图中的不同颜色和数字，充分理解图表并给出回答。

除了中文场景外，在多语言场景中，YAYI-Ultra也能够准确理解并遵循用户指令，提供跨语言的精准回复。

prompt：How did the distribution of agriculture-related employment change between 2012 and 2022? Did it increase or decrease, and by what percentage or amount? Answer in Chinese。

可以看到，在视觉理解方面，针对跨语言多模态对齐、多图推理、可变分辨率等技术难点，YAYI-Ultra全面升级，增强了模型在跨语言图表理解、多图表问答、多模态指令遵循等方面的能力，不仅能轻松应对堆积条形图、散点图、混合图表等复杂图表场景，在图表重绘、图表转换等任务上也表现突出。

02、表格智解：万千表格不在话下

在工作中，复杂报告统计费时又费力，我们“喂”给YAYI-Ultra一张包含行业普通报告、行业深度报告、公司普通报告三种类型交替出现的表格，YAYI-Ultra准确统计出不同类型报告的数量。

prompt：每种报告类型的数量是多少？

当涉及不规则表格时，YAYI-Ultra依然能够精准解析并提取关键数据。以下表格包含总分结构及复杂数据表述，YAYI-Ultra能够准确理解表格中的模型类型、方法及局部性指标变化数值，并完成对比分析。

prompt：哪个基座模型使用IKE方法后局部性下降最多？

在统计数据理解方面，可以看出YAYI-Ultra重点增强了表格问答中复杂排版理解、跨语言问答等能力。

从金融报告、学术论文，到包含嵌套结构的复杂表格，YAYI-Ultra都能精准定位信息、理解用户意图；同时，模型也能够在跨语言表格问答场景中，提供高效、清晰的解答。

03、Function Call：复杂任务智能规划

继续上难度，我们让YAYI-Ultra绘制一下去年奥运会中国队金、银、铜奖牌数量折线图（随时间变化）。

首先可以看到，YAYI-Ultra准确理解了用户意图，确定“去年奥运会”指的是巴黎奥运会，并制定出详细的任务规划；接下来，模型通过搜索引擎获取巴黎奥运会中国队金、银、铜牌相关数据（包括91枚奖牌的类型及获得时间）；再将这些奖牌数据进行梳理，归类分组、按时排序，并生成代码，通过调用代码解释器，完成折线图绘制。

YAYI-Ultra之所以能够完成这一系列的复杂任务拆解与规划，离不开其增加的工具调用能力，主要包含搜索引擎、代码解释器、图像解析、天气等基础工具；新闻热榜追踪、传播影响力分析等特色垂直领域工具。

模型显著增强了在多工具串行调用场景下的规划合理性，同时提升了复杂搜索场景下的信息收集能力。

04、多模态输出：图文并茂，直观简洁

在文献阅读或者信息收集过程中，我们通常需要从多篇文档中查找、分析特定信息（如数值变化、实验结果等），现在一句话就能找到想要的内容，并且YAYI-Ultra在文字分析描述的基础上，可同步给出对应的图片内容。

比如，提问：The percentage of different behaviors under different collaborative strategies

YAYI-Ultra根据问题，从用户构建的“人工智能论文知识库”中识别相关的多篇人工智能论文，并据此进行回答。答案中不仅有文字，还在对应的引用位置给出了原始图片，大大提升了阅读体验及答案可靠性。

05、全栈长文：吞吐万言，下笔如神

最让人眼前一亮的要属超长文输出，YAYI-Ultra支持最长20万字输入和10万字超长输出，形成从“输入理解”到“内容创作”的全链路长文本能力闭环。

YAYI-Ultra支持联网智能创作与文献锚定创作双模式，并将长文写作任务拆解为更小、更可控的子任务（先生成大纲，再根据大纲生成全文），这样有效保证了文本结构，提升长文生成质量。

● 联网智能创作：联网收集信息完成创作

prompt：写一篇30000字的中国儒家文化发展历史分析报告

● 文献锚定创作：划定知识边界精准写作

prompt：请根据参考资料写一篇长文，写作的主题是“通用人工智能解决方案：创新与效率的完美结合”

06、数据分析：精准求解，可视交互

最后，我们也针对基础的数据分析和可视化图表绘制进行了实测，YAYI-Ultra准确完成分析、计算和图表绘制任务。

prompt：根据表格，计算人均月收入，然后计算月收入与人均月收入的差值，绘制一个柱形图，横轴是名字，纵轴是差值，标题是“每人收入与平均值差距”。

YAYI-Ultra根据用户要求，通过Python of Thought（POT）能力，生成Python代码并执行，精准完成了统计推断、矩阵运算、数值优化等数值密集型任务。

从“大水漫灌”到“精准匹配”

YAYI-Ultra用灵活专家配置

突破大模型落地瓶颈

当前，AI大模型落地正面临“能力-成本”剪刀差扩大的关键节点。

据IDC最新报告显示，企业在AI大模型落地过程中，面临模型精度不能完全满足业务需求的问题；同时，92%的企业认为在大模型工程化落地阶段，缺少算力资源是最大的挑战。

中科闻歌雅意技术团队透露，YAYI-Ultra是以多领域能力为特色的混合专家模型，为了提升在不同领域专业任务上的表现，采用灵活的专家配置模式，支持数学、代码、金融、舆情、中医、安全等多种领域专家组合，能显著缓解稠密模型在垂直领域迁移过程中普遍存在的“跷跷板”现象，可针对不同领域需求，为行业提供"高精度、低能耗"的智能化解决方案。

譬如，在媒体领域，中科闻歌推出红旗3.0融媒体智能平台，基于YAYI能力，帮助客户将内容创作时间缩短30%-50%，内容发布频率提升了20%-40%，某客户在引入自动化审核能力后，内容差错率从5%降至0.5%左右，目前已广泛应用于新华社、央视、中国日报等头部媒体。

中科闻歌红旗3.0融媒体智能平台

在医疗领域，基于YAYI的大医金匮中医大模型，可精准诊断500余种常见病症，为患者提供个性化的治疗方案，经临床专家测评辨证推理准确率高达90％，在中医师资格考试模拟测试中表现优异，准确率超过94％，并面向C端用户推出了“大医金匮”中医健康管理APP。

中国中医科学院&中科闻歌大医金匮中医健康管理APP

在财税领域，基于YAYI的财税知识大模型，经专项测评，模型回答准确率90.1%，高于其他同类型模型，在接入大模型后，客户实现24小时不间断的咨询服务，使得用户减少排队时间约50%，用户满意度提升超过30%。

航天信息与中科闻歌联合研发财税知识大模型

当前，YAYI-Ultra已在官网开放数据分析、知识库文献解析、超长文写作功能体验，感兴趣的小伙伴也可以登录试用。

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。

标签：

猜你喜欢

正式上线！阿里云短信模板 AI 助手，10 秒生成/改写个性化、合规短信内容

Soul创始人张璐及团队关注社交安全，首创“AI+社群”维护平台生态

双鹿电池5G智慧工厂与DeepSeek深度融合开启碱性电池数字化工厂新纪元

支持本地部署DeepSeek，国产操作系统推动国产AI生态建设

开问SaaS+AI引领数字化转型与增长新机遇

情人节高颜值选择 | 罗技琥珀系列键盘上新，助你开启粉色心动时刻

ISE 2025 | 光峰科技再赴巴塞罗那，开启海外市场新篇章

第一批魅友已经在语音助手里用上DeepSeek-R1了

移动云安全加装DeepSeek，启明星辰云安全焕智强基

长江计算基于昇腾推动DeepSeek本地化部署，助力国产大模型生态繁荣发展

首信红砥大模型全面支持DeepSeek

双微联动 ! 智微智能荣获瑞芯微“2024年度卓越贡献奖”

斑马助力北京市“书香迎新年”阅读文化活动优质数字内容引导孩子过文化年

KunTai上新丨DeepSeek 系列模型爆火，神州数码推出基于昇腾硬件的企业级 GenAI 私有化部署解决方案

万家灯火此时明云南移动邀您赏灯贺元宵

普葆女性菌横空出世，月神益生菌落入下风？普葆益生菌实力揭秘！

普葆女性菌，作为ASTARTE™专利菌株的“原研者”，为何更值得信赖？

警惕！冬春交替，女性私密健康红灯亮起，普葆女性菌来救场

华为云GaussDB助力国家统计局，开启统计现代化改革新篇章

48小时限时创作，CineAltaB大放异彩丨获奖短片《金苹果》主创专访

学习硬件行业新纪录！有道词典笔卖出1000万支

泛微旗下EMobile7&10全量上架原生鸿蒙应用市场，加速企业协同办公数字化跃迁

杭州四小龙：闪耀的“东方神秘力量”

顶级大模型厂商助力，DeepSeek加持智联招聘开启供需匹配“加速度”

职场女性久坐成疾？普葆益生菌拯救“小花园”，7日缓解瘙痒异味

青春期少女私密难题频发，普葆女性菌实力破局，解决青春烦恼

进博会现场首发普葆女性菌，20年老品牌普葆益生菌，直击月神益生菌

孕期女性必备，普葆女性菌改善阴道菌群，全方位预防妊娠并发症

热势难挡！女性益生菌市场爆红，普葆女性菌强势入局，女性私护或进入新时代

女性菌群失衡危害大，严重将影响怀孕，专家：适宜补充普葆女性菌

热点图片

要闻

私密清洗错误百出？六成女性频繁中招，普葆女性菌如何破局
在女性健康领域，私密健康问题一直是许多女性的隐秘困扰。但据相关研究和调查显示，大
女性益生菌业内地震！“普葆女性菌”强势登陆，用三维私护科技改写行业标准
当"月神益生菌月神益生菌"凭借先发优势在女性健康领域引发热议时，一场由国际大厂Prec
益活新AKGpro发布！新加坡Brian Kennedy教授助力“全维抗衰”升级
当你对着镜子，发现第一条皱纹悄然爬上眼角;当爬几层楼梯就气喘吁吁，力不从心之感油
新加坡抗衰国师力荐！益活新AKGpro发布，抗衰通路全面升级
随着全球老龄化进程的加速，越来越多人开始关注衰老带来的生理变化。皮肤松弛、体力下
衰老与疾病是遗传基因程序的自我表达
王文远教授国家中医药管理局适宜技术职业化培训工程推广专家衰老与疾病是两个不同的医
国内音乐平台QQ音乐业内率先部署DeepSeek AI音乐问答更全面精准
2月10日，QQ音乐宣布旗下自研AI助手已完成对DeepSeek-R1完整版大模型部署，这也是Deep
安卓首家！荣耀上线DeepSeek-R1
2月8日，荣耀正式接入DeepSeek。荣耀手机系统版本MagicOS8 0及以上用户，将YOYO助理
永洪发布《新质生产力的创新引擎》白皮书，数据技术重塑生产力！
在商业历史的长河中，我们正站在一个前所未有的转折点上。数字化的浪潮以排山倒海之势
京东投影仪比天猫同款便宜100元下单前多比价轻松省钱
近期一位细心的网友在网购比价时发现，同款商品在不同电商平台经常出现差价，仅仅是选
DeepSeek问答：联想小新Pro新品真的领先不止一代？
近日，从越来越多的剧透中已经可以勾勒出此次小新新品的概貌，在联想海外官网上已经公

DeepSeek后，又一国产宝藏大模型，超超超长文输出，精准拿捏复杂任务规划

相关阅读

猜你喜欢

热点图片

要闻