当前,大模型正引领着新一轮技术革命,大模型的全方位测评对于开发验证、产品选型和能力提升都至关重要。但是,已有大模型基准测试以评估模型通用能力为主,存在评测方法不统一、评测方式单一、距离实际应用较远等问题。因此,亟需建立一套面向产业应用的大模型基准测试体系,搭建全量测试题库、自动测试平台和高效测试方法,满足大模型能力持续监测和能力迭代的要求。
2023年12月24日,中国信息通信研究院(简称“中国信通院”)发布“方升”大模型评测体系,旨在建立业界大模型基准测试统一的“度量衡”。“方升”测试体系涵盖大模型基准测试的关键四要素,即测试指标、测试方法、测试数据集和测试工具,目前已形成《大规模预训练模型基准测试-总体技术要求》标准。
大模型基准测试体系“方升”
测试指标方面,“方升”测试体系主要针对行业、应用、通用和安全四个维度对大模型进行全面、客观、统一的评估,为了加速大模型应用落地,重点强化了行业和应用导向能力的考查。
在测试方法方面,“方升”测试体系创新性提出自适应动态测试方法,从测试数据标签化、测试题库实时化、测试方案定制化、测试流程自动化四个方面全面提升大模型基准测试质量,重点解决大模型“刷榜”问题。
测试数据方面,“方升”测试体系搭建动态测试数据库,涵盖测试数据集107个,测试数据条数达到123万,联合产业界多家机构首次推出面向行业、通用、应用、安全领域的评测数据集6个。
测试框架与工具方面,中国信通院在构建超自动化测试平台和智能化结果评估系统方面持续发力,探索解决国内外人工智能自动化测试流程中存在的“阻塞点”,全面提高测试效率。
“方升”大模型基准测试体系由中国信通院联合北京智源研究院、认知智能全国重点实验室和天津大学共同发布。此外,国网智能电网研究院、首都之窗、天津大学、中国电信研究院、中国联通软件研究院、华为、甲骨易、海天瑞声、东方财富9家单位成为“方升”大模型基准测试首批合作伙伴。
大模型基准测试不仅是大模型应用开发的终点,更是驱动大模型能力提升的起点。中国信通院诚邀产学研用各方加入“方升”大模型基准测试体系,共同探索人工智能评测创新发展之路,建设科学、客观、中立的人工智能评测基准,为全面提升中国人工智能评测水平贡献力量!