中国信通院发布“方升”大模型基准测试体系

2024-01-02 09:54:53     来源:

当前,大模型正引领着新一轮技术革命,大模型的全方位测评对于开发验证、产品选型和能力提升都至关重要。但是,已有大模型基准测试以评估模型通用能力为主,存在评测方法不统一、评测方式单一、距离实际应用较远等问题。因此,亟需建立一套面向产业应用的大模型基准测试体系,搭建全量测试题库、自动测试平台和高效测试方法,满足大模型能力持续监测和能力迭代的要求。

2023年12月24日,中国信息通信研究院(简称“中国信通院”)发布“方升”大模型评测体系,旨在建立业界大模型基准测试统一的“度量衡”。“方升”测试体系涵盖大模型基准测试的关键四要素,即测试指标、测试方法、测试数据集和测试工具,目前已形成《大规模预训练模型基准测试-总体技术要求》标准。

1704158284942159.png

大模型基准测试体系“方升”

测试指标方面,“方升”测试体系主要针对行业、应用、通用和安全四个维度对大模型进行全面、客观、统一的评估,为了加速大模型应用落地,重点强化了行业和应用导向能力的考查。

在测试方法方面,“方升”测试体系创新性提出自适应动态测试方法,从测试数据标签化、测试题库实时化、测试方案定制化、测试流程自动化四个方面全面提升大模型基准测试质量,重点解决大模型“刷榜”问题。

测试数据方面,“方升”测试体系搭建动态测试数据库,涵盖测试数据集107个,测试数据条数达到123万,联合产业界多家机构首次推出面向行业、通用、应用、安全领域的评测数据集6个。

测试框架与工具方面,中国信通院在构建超自动化测试平台和智能化结果评估系统方面持续发力,探索解决国内外人工智能自动化测试流程中存在的“阻塞点”,全面提高测试效率。

“方升”大模型基准测试体系由中国信通院联合北京智源研究院、认知智能全国重点实验室和天津大学共同发布。此外,国网智能电网研究院、首都之窗、天津大学、中国电信研究院、中国联通软件研究院、华为、甲骨易、海天瑞声、东方财富9家单位成为“方升”大模型基准测试首批合作伙伴。

大模型基准测试不仅是大模型应用开发的终点,更是驱动大模型能力提升的起点。中国信通院诚邀产学研用各方加入“方升”大模型基准测试体系,共同探索人工智能评测创新发展之路,建设科学、客观、中立的人工智能评测基准,为全面提升中国人工智能评测水平贡献力量!

1704158290907093.png

标签:

猜你喜欢

为什么智能手机可以卖299?
以青春之名唱响跨年演唱会,酷狗音乐元旦走进中央音乐学院
三安光通讯"宇航级宽温高速VCSEL"斩获讯石英雄榜优秀技术奖
数势大模型产品SwiftAgent亮相2023QCon全球软件开发大会
探索星空 “佳能EOS点亮中国星空地图”星河探索者活动圆满落幕
网易易盾入选2023中国技术品牌影响力企业榜
牵手觅伊三年,网易易盾为年轻人的社交找回「纯真」
美的鲜净感空气机掀起热销风暴!交出零售销量突破15万套“成绩单”
农产品“年货”消费趋势洞察:水果销量环比增长291%
从通风柜产品的领先性,看实验室通风建设设计方案的关键要点
小水智能应邀出席2024ICT行业趋势年会 分享大模型趋势下的智慧应用机遇
华为出境地图Petal Maps重大更新,携程笔记上线!
正式布局高潜细分赛道,追觅科技推出首款迷你洗烘一体机
能链智电获中证、万得、BITA等指数公司纳入旗下指数
墨迹天气独家观察:当代年轻人跨年图鉴
突破边界:CAR-T治疗的监管挑战与未来
停车场运营如何“增收”?捷停车以精细化运营解锁多元化增收
酷狗音乐获评QuestMobile 2023中国互联网TOP50赛道用户规模NO.1 App
壹品慧被评为“放心消费承诺单位”
小蜂充电正式升级为EVbee小蜂充电,全面开启品牌国际化新征程
把握大脑发育黄金期,美赞臣铂睿科学育儿从现在抓起
一步一个脚印,2023 英特尔锐炫显卡全面收获之年!
好评有礼!游戏玩家的福音 微星笔记本元旦促销开启
哪个品牌的手表比较好?沛纳海传承意式经典,演绎现代精致
2023ICBE杭州跨交会圆满结束,易海创腾赋能制造业,高效出海!
华为云对话沈昌祥院士:如何为软件生态打造“免疫系统”
2023泛娱乐出海白皮书发布,浅析网易易盾的出海数字内容风控
浪潮云海刘健:可演进的IT云敏捷支撑金融行业数字化转型
三星新春生活美学馆:融合艺术与科技 打造有温度的居家艺术空间
华为车主福利!开通Huawei Card,享官方金融服务及专属加油充电权益