AAAI2024智慧教育研讨会召开 全球大模型数学解题竞赛落下帷幕

2024-02-29 17:53:19     来源:

2024年2月26日~27日,由智慧教育国家新一代人工智能开放创新平台、好未来(学而思)、谷歌、普林斯顿大学、暨南大学等全球领先科技公司、科研机构发起的2024AAAI大会智慧教育研讨会在加拿大温哥华召开。本次研讨会为期两天,以搭建创新与责任桥梁为主题,旨在探讨人工智能尤其是生成式人工智能在教育应用中的创新与责任伦理。

图片1.jpg

会议期间,AAAI2024 全球大模型数学解题竞赛正式发布比赛结果。这是全球首个围绕大模型数学能力的比赛,吸引了来自全球多个国家、地区的120多支队伍参加。历经4个多月的激烈竞争,CPDP-ICST 、cogbase 、MathEducators 、CTYUN-AI 、zuiii 、shengkai 、loveisp 、数学解题推理等8支队伍最终胜出,赢得比赛。

聚焦生成式人工智能,深度探讨创新与责任

过去一年中,最热门的话题莫过于以大语言模型为代表的生成式人工智能。随着全球大模型热的流行,有关其创新应用与责任伦理等问题成为了关注的重点。为此,来自智慧教育国家新一代人工智能开放创新平台、好未来、谷歌、普林斯顿大学、暨南大学等全球领先科技公司和科研机构的专家学者、技术研究人员在AAAI2024期间发起“人工智能为教育”研讨会。

图片2.jpg

在为期两天的会议中,与会者带着各自的思考,通过论文、现场演讲、海报、全球数学推理竞赛等形式展示并听取来自不同群体的专家学者、技术研究人员的见解,深度探讨生成式人工智能的对教育的影响,未来与挑战。

针对大模型技术在教育领域的影响,有专家表示,教育者应该积极拥抱大模型而非抵制他们,禁止学生在完成作业时使用大模型就像20年前禁止互联网的应用一样徒劳。教育者应该重新设计作业,而非把精力花在发现作弊人员身上。更有专家表示,大模型的出现让人们看到了教育的未来——每个学生都有一个与之相匹配的家教,他们更懂得孩子的需求,也知道如何让孩子更为投入。针对大模型在教育中的幻觉、评估等难题,有专家表示,他们提出了一种自动的、基于迭代精化的测试用例生成方法,即使用LLM和symphony中的代码编译器,并在Code Workout数据集上对此方法进行测试,结果显示该方法可以生成准确度量学生知识水平的测试用例。

与之同时,与会人员还深度分享并讨论了教育场景中,负责任的人工智能应该具备哪些标准,应该设置哪些伦理要求。包括,在重要的教育决策场景如招生、预警系统、评分中,负责任的人工智能需要尽可能保证公平性、问责性、可解释性和透明性;负责任的人工智能在教育中的方法论贡献和影响,包括但不限于生成模型、预测模型、因果推断、强化学习和数据收集等。此外,有参会人员提出,随着AI尤其是生成式AI在教育中的影响越来越大,需要通过法规、流程等确保教育公平。

全球大模型数学解题竞赛落下帷幕,120支队伍同场竞技

为了提高大语言模型的数学和科学推理能力,中国领军科技公司好未来(学而思)、联合谷歌、暨南大学等多家知名科技企业及高校的专家学者,依托智慧教育国家新一代人工智能开放创新平台,于2023年10月启动AAAI2024 全球大模型数学解题竞赛。

图片3.jpg

会议期间,主办方还正式对外发布AAAI2024 全球大模型数学解题竞赛正式发布比赛结果。这是全球首个围绕大模型数学能力的比赛,要求参赛者用大模型对给定的数学题目,生成推理步骤与答案,吸引了来自全球多个国家、地区的120多支队伍参加。历经4个多月的激烈竞争,CPDP-ICST 、cogbase 、MathEducators 、CTYUN-AI 、zuiii 、shengkai 、loveisp 、数学解题推理等8支队伍最终胜出,赢得比赛。

比赛分为两个阶段,第一阶段为公榜阶段,主办方事先随机在给定的数据集中选出30%的数据,供参赛者进行大模型调试。第二阶段则为私榜阶段,参赛者需使用第一阶段调优过的大模型来解答数据集中剩余的70%题目。主办方通过对比参赛者的模型输出答案与正确答案之间的准确率,来为参赛者进行排名。第二阶段的成绩将会作为比赛的最终成绩。

为了更好地探究各类大模型在不同语言上的数学能力,主办方将比赛设置中英文两个赛道。由好未来(学而思)提供比赛所用的中英文数据集——TAL-SAQ7K-CN、TAL-SAQ6K-EN,囊括了国内外多个中小学数学竞赛真题。考虑到可能会使用第三方大模型进行推理,会在一定程度上对比赛成绩产生影响。为了确保公平,主办方将不同赛道的结果按照是否调用第三方大模型进行分类,并根据最终的分数评选出各个不同类别的前三名。最终,在120多支参赛队伍中,CPDP-ICST 、cogbase 、MathEducators 、CTYUN-AI 、zuiii 、shengkai 、loveisp 、数学解题推理8支队伍最终胜出。其中CPDP-ICST、cogbase、MathEducators三支队伍同时是中文、英文赛道前三。

图片4.jpg

(中文赛道调用第三方大模型比赛结果)

图片5.jpg

(中文赛道未调用第三方大模型比赛结果)

图片6.jpg

(英文赛道调用第三方大模型比赛结果)

图片7.jpg

(英文赛道未调用第三方大模型比赛结果)

一直以来,数学都被视为人工智能的试金石。目前,大语言模型在应对数学推理方面问题时仍然有很多挑战。智慧教育国家新一代人工智能开放创新平台相关负责人表示,教育作为大模型最先落地应用场景之一,当大模型数学能力得到突破时,将能够带来长久性甚至革命性的变革,能够让更多的人享有更多优质教育资源,真正实现大规模个性化教育。此次支持发起全球大模型数学解题能力竞赛,希望能够借助平台的力量,积极推动科技创新,让更多的人可以享受到科技进步的红利。

智慧教育国家新一代人工智能开放创新平台于2019年经国家科技部批准设立,由北京世纪好未来教育科技有限公司负责承建。平台立足教育行业,覆盖全国,从技术、解决方案和产业化服务三个方面,为教育教学单位、教育科技企业、教育从业者、人工智能研发人员等提供全场景、全过程、全周期的服务支持,促进教育产业智能化升级,构建“共生”“互生”“创生”的智慧教育多元化新生态。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

企业为什么要选择AI加持的英特尔vPro平台?
在婴儿奶粉全国十大品牌排名中选择合生元派星奶粉,对断奶说HI!
引领“安全可靠、绿色低碳算力时代” 携手伙伴共赢智算未来
澳洲泳池升降器制造商,力纳克LINAK推杆强势助力
2024中津防务车辆装备展特设国防军事科技嘉年华 打造全民国防教育盛会
AI PC的风刮到企业里,看英特尔vPro怎么做到的
“AI芯片第一股”寒武纪2023年净利润亏损收窄33.50%
时不我待,朝乾夕惕!龙年杭州科技合作瞄准国际化、全球化
华为数字能源伙伴盛典:问界M9大奖揭晓,千商共庆
2023年度纳米研究青年科学家奖(NR45 Awards)发布
嘉速远航,仆写未来 | 车仆与嘉实多正式签署战略合作协议
豫园文化引入网易云商七鱼呼入机器人,热线服务高效接待
大咖云集 有料有趣——时趣在2024华南采购峰会分享内容营销采购优化方案
杭港科技合作交流龙年首秀!杭实集团与香港科技大学共建产教融合创新中心及联合实验室
人气满满!正泰新能亮相日本国际太阳能光伏展
创新引领 成绩斐然 柯尼卡美能达荣膺2023年度20项年度奖项
气候目标已获确认:永恒力获得科学碳目标倡议(SBTi)的验证
罗德与施瓦茨RedCap测试解决方案获得GTI Awards2024大奖
SKG将召开2024战略成果发布会,为国民全身健康提出新思路
新学期新装备:AI教育引领者科大讯飞AI学习机重磅升级
抖音电商开展治理虚假宣传陶瓷专项 严厉打击冒充古董瓷器行为
拥有全能体验的小折叠:三星Galaxy Z Flip5以创新改变生活
NAD+是什么?深度解锁细胞活力的神奇分子
喜讯!商汤医疗大模型斩获年度人工智能实践典型案例!
《实业精神》栏目走进赛业生物,探寻AI与医药科学新未来
位列第一,华为云盘古气象入选2023年度中国科学十大进展
网易云商·七鱼智能客服产品能力获中国信通院权威评测认可
“北斗杯”体育大赛首次云端开展初赛,钉钉为官方指定参赛通道
2024抖音房产生态白皮书发布:直播卖房成开发商常态化经营手段
钉钉教育两大AI助理全量上线,帮助老师和家长提效减负