中国信通院发布“方升”大模型基准测试体系

2024-01-02 09:54:53 来源：

当前，大模型正引领着新一轮技术革命，大模型的全方位测评对于开发验证、产品选型和能力提升都至关重要。但是，已有大模型基准测试以评估模型通用能力为主，存在评测方法不统一、评测方式单一、距离实际应用较远等问题。因此，亟需建立一套面向产业应用的大模型基准测试体系，搭建全量测试题库、自动测试平台和高效测试方法，满足大模型能力持续监测和能力迭代的要求。

2023年12月24日，中国信息通信研究院（简称“中国信通院”）发布“方升”大模型评测体系，旨在建立业界大模型基准测试统一的“度量衡”。“方升”测试体系涵盖大模型基准测试的关键四要素，即测试指标、测试方法、测试数据集和测试工具，目前已形成《大规模预训练模型基准测试-总体技术要求》标准。

大模型基准测试体系“方升”

测试指标方面，“方升”测试体系主要针对行业、应用、通用和安全四个维度对大模型进行全面、客观、统一的评估，为了加速大模型应用落地，重点强化了行业和应用导向能力的考查。

在测试方法方面，“方升”测试体系创新性提出自适应动态测试方法，从测试数据标签化、测试题库实时化、测试方案定制化、测试流程自动化四个方面全面提升大模型基准测试质量，重点解决大模型“刷榜”问题。

测试数据方面，“方升”测试体系搭建动态测试数据库，涵盖测试数据集107个，测试数据条数达到123万，联合产业界多家机构首次推出面向行业、通用、应用、安全领域的评测数据集6个。

测试框架与工具方面，中国信通院在构建超自动化测试平台和智能化结果评估系统方面持续发力，探索解决国内外人工智能自动化测试流程中存在的“阻塞点”，全面提高测试效率。

“方升”大模型基准测试体系由中国信通院联合北京智源研究院、认知智能全国重点实验室和天津大学共同发布。此外，国网智能电网研究院、首都之窗、天津大学、中国电信研究院、中国联通软件研究院、华为、甲骨易、海天瑞声、东方财富9家单位成为“方升”大模型基准测试首批合作伙伴。

大模型基准测试不仅是大模型应用开发的终点，更是驱动大模型能力提升的起点。中国信通院诚邀产学研用各方加入“方升”大模型基准测试体系，共同探索人工智能评测创新发展之路，建设科学、客观、中立的人工智能评测基准，为全面提升中国人工智能评测水平贡献力量！

标签：

相关阅读

中国信通院发布“方升”大模型基准测试体系

上达电子成立二十周年暨遂宁产业基地一期全线达产仪式顺利举办

冲浪人生十年记：「冲浪十年」活动喜迎狂欢，未来点燃新希望

膝盖疼怎么缓解？别担心，三种方式来帮你

回首2023 紧盯2024丨嫦娥生物股份举行年终总结大会暨目标责任状签约大会

中诺口腔医院26岁小伙拔牙后对医生赞誉有加事件

中诺拔牙事件 26岁男子拔智齿后当众痛哭：终于不会睡不着觉了！

普宙科技入选2023年工业和信息化领域数据安全典型案例名单

世界通讯安全新格局下的“中国答案”

客厅影院的C位之选｜爱普生EH-LS650B激光电视让我们聚焦在一起

猜你喜欢

为什么智能手机可以卖299？

以青春之名唱响跨年演唱会，酷狗音乐元旦走进中央音乐学院

三安光通讯"宇航级宽温高速VCSEL"斩获讯石英雄榜优秀技术奖

数势大模型产品SwiftAgent亮相2023QCon全球软件开发大会

探索星空 “佳能EOS点亮中国星空地图”星河探索者活动圆满落幕

网易易盾入选2023中国技术品牌影响力企业榜

牵手觅伊三年，网易易盾为年轻人的社交找回「纯真」

美的鲜净感空气机掀起热销风暴！交出零售销量突破15万套“成绩单”

农产品“年货”消费趋势洞察：水果销量环比增长291%

从通风柜产品的领先性，看实验室通风建设设计方案的关键要点

小水智能应邀出席2024ICT行业趋势年会分享大模型趋势下的智慧应用机遇

华为出境地图Petal Maps重大更新，携程笔记上线！

正式布局高潜细分赛道，追觅科技推出首款迷你洗烘一体机

能链智电获中证、万得、BITA等指数公司纳入旗下指数

墨迹天气独家观察：当代年轻人跨年图鉴

突破边界：CAR-T治疗的监管挑战与未来

停车场运营如何“增收”？捷停车以精细化运营解锁多元化增收

酷狗音乐获评QuestMobile 2023中国互联网TOP50赛道用户规模NO.1 App

壹品慧被评为“放心消费承诺单位”

小蜂充电正式升级为EVbee小蜂充电，全面开启品牌国际化新征程

把握大脑发育黄金期，美赞臣铂睿科学育儿从现在抓起

一步一个脚印，2023 英特尔锐炫显卡全面收获之年！

好评有礼！游戏玩家的福音微星笔记本元旦促销开启

哪个品牌的手表比较好？沛纳海传承意式经典，演绎现代精致

2023ICBE杭州跨交会圆满结束，易海创腾赋能制造业，高效出海！

华为云对话沈昌祥院士：如何为软件生态打造“免疫系统”

2023泛娱乐出海白皮书发布，浅析网易易盾的出海数字内容风控

浪潮云海刘健：可演进的IT云敏捷支撑金融行业数字化转型

三星新春生活美学馆：融合艺术与科技打造有温度的居家艺术空间

华为车主福利！开通Huawei Card，享官方金融服务及专属加油充电权益

热点图片

要闻

IEEE ICDM 2023数据挖掘研究顶会落幕，网易易盾独占鳌头
近日,IEEE ICDM 2023图学习挑战赛决赛圆满落幕。本次比赛由蚂蚁集团与浙江大学联合
科通技术IPO：与国际知名原厂紧密合作助力客户创新
9月18日，深圳市科通技术股份有限公司(以下简称科通技术)向深交所递交了第二轮审核问
网易易盾出席网络游戏生态综合治理圆桌论坛会议，参编《网络黑灰产问题处置指南》发布
11月17日,由徐汇区人民检察院、上海西岸开发(集团)有限公司主办,反网络黑灰产联盟协办
网易易盾再次荣膺2023中国AIGC创新企业榜
近日,由第一新声联合天眼查共同发起的【2023中国AIGC创新企业榜】榜单评选结果正式公
赛乐瑞Cellerator勉益莱，层层加固免疫防线，激发强“噬”攻击力
免疫系统是保护人体免受疾病侵袭的重要防线,一个强健的免疫系统可以有效识别和清除致
进口卫浴品牌德国科鲁迪KLUDI，四种风华呈现个性化卫浴生活
进口卫浴品牌在市场上一直备受关注，作为进口卫浴品牌中的高端系列，德国科鲁迪KLUDI
已正式开启报名！英特尔人工智能创新应用大赛为开发者提供展示创意平台
12 月 16 日，英特尔人工智能创新应用大赛启动仪式在深圳举办。本次大赛为开发者提
2023年度影响力出海品牌！网易易盾为出海企业构筑安全合规基建
2023年12月5日,作为跨境出海产业链最全、资源最丰富、规模最大的专业展会之一,由白鲸
行业引领者 | 南方电讯2023年度音视频答卷
Q: 视频会议系统如何与多业务系统联动？大客户投资一套标准化的视频会议系统，往往涉
AI大模型带火学习新工具，阿尔法蛋等AI品牌销量飙升
自2023年开年以来,AI大模型这股风是越吹越猛烈了,随着AI大模型在教育领域应用的逐渐深