姚权铭:与时俱进,以创新迎挑战

2023-11-27 17:42:18     来源:

近期,国际上以ChatGPT代表的人工智能领域进展神速,对我国相关领域的发展构成了重大挑战。在文本、语音、图片和视频这样的感知数据上训练的大语言模型(Large Language Model)已展现了类似人类的学习能力,这些方法能像人一样在适应不同的任务同时从少量样本中快速推理学习。这也让ChatGPT成为人类历史上突破百万用户数量最快的应用。然而,已有结构化数据的学习方法却缺乏这样的快速适应和学习能力。清华大学电子工程系助理教授姚权铭面对挑战,迎难而上,积极创新,取得了丰硕的成果。

扎根机器学习原理和方法,助力AI4Science

姚权铭,国家高层次青年人才计划入选者。于香港科技大学计算机系取得博士学位;后于第四范式担任首席研究员,创建和领导机器学习研究团队。主要研究方向为机器学习,特别是结构化数据元学习方法。发表顶级论文80余篇,包括Nature Computational Science / Nature Communication / Cell Patterns / JMLR / IEEE TPAMI / ICML / NeurIPS / ICLR等,总被引7500余次,h指数32。其中抗噪标签算法“Co-teaching”是鲁棒学习领域的里程碑,总引用1500余次,是该领域近五年来最高引论文之一;小样本学习综述被引2200余次,是CSUR近五年来最高被引论文;自动化图学习方法(TPAMI 2023等)蝉联Open Graph Benchmark榜单第一名;解决新药在临床阶段,如何避免不良副反应的工作录用于Nature Computational Science。姚权铭长期担任机器学习重要会议ICML、NeurIPS和ICLR领域主席,旗舰期刊Neural Network和Machine Learning编委。荣获国内外诸多知名奖项,包括国际神经网络学会早期成就奖(全球2人,授予极有前途的青年研究学者)、香港科学会优秀青年科学家(全香港2人)、Google全球博士奖(全球13人)等,同时入选全球Top 50华人AI青年学者榜、福布斯30under30精英榜,世界前2%科学家。

姚权铭的总体研究目标是在结构化数据上实现类人脑的快速适应与学习能力。结构化数据是指具有明确结构定义的数据,通常以表格、列表、矩阵等形式存储,是计算机处理信息的最基本形式。它经常出现在各种工业和科学应用中,如电商平台上的用户交易记录、医疗分析中生物医学网络、以及药物开发中的化学分子式(如图表 1所示)。

图表 1结构化数据无处不在,是计算机处理信息的最基本形式

姚权铭主要研究结构化数据元学习方法,具体通过自动化设计深度网络的架构(Architecture Design and Search)、小样本方法(Few-shot Learning)提高样本利用率、结合科学场景解决国家需求的重大问题,进而在结构化数据上实现快速适应和学习,最终在结构化数据上实现类似人脑的快速适应与学习能力,如图表2所示。

图表 2 研究问题综述与代表性工作

功夫不负有心人

截至目前,姚权铭的主要研究贡献可以概括为以下三个方向:

1. 以自动化架构设计的方式提升适应能力

为了得到更好的性能,深度网络往往需要依据当前任务特点定制其架构。由于结构化数据的普适性,不同的任务需要不同的神经网络结构,为每个任务手动调整网络架构代价极高,既需要经验也需要时间,这在广泛的应用场景中几乎不可能实现。为了解决这个问题,姚权铭团队首创将自动化机器学习技术引入结构化数据,将架构设计建模成一个双层优化问题,以算力换人力为每个任务寻找合适的架构。以上相关工作陆续发表论文20余篇,刊载于IEEE TPAMI、ICML、NeurIPS、ICLR等国际顶级机器学习会议与期刊上;基于以上原创性理论诞生的AutoBLM、PAS等技术已经成为Open Graph Benchmark(由图灵奖得主Bengio教授和斯坦福大学Jure教授牵头)上的最佳解决方案。

图表 3 姚权铭团队的自动化学习在流行的 Open Graph Benchmark 上的表现

此外,这些工作成果也已被第四范式公司商业化,广泛应用于国有五大银行(工行、中行、建行、农行和交行)的金融理财产品推荐业务。例如,招商银行采用姚权铭团队的AutoCross(KDD 2019)技术,从表单数据自动生成高阶特征,支持更精准的客户理财偏好预测,提升了其客户资产管理率(Asset Management Ratios)近1%。

2. 以小样本学习的方式提升学习效率

收集大规模高质量的数据非常困难,有时甚至不太可能,而结构化数据的学习效果却严重依赖这样的数据。与之相反,人有非常强的快速学习能力,给定几个例子,就能很快对新的事物进行有效的判定。为了将这种快速学习能力引入结构化数据,姚权铭团队研发了一系列技术,支持在噪声或少量标签的情况下进行学习。

在噪声标签学习背景下,提出了抗噪标签算法“Co-teaching”(NeurIPS 2018),通过同时训练两个神经网络并让它们互相教学来克服深度网络的记忆问题。Co-teaching是鲁棒学习领域的里程碑式工作,总引用1500余次,是该领域近五年来最高引论文之一;后续工作进一步解决了如何设计Co-teaching中的样本选择规则问题(S2E,ICML 2020),并尝试引入噪声梯度来消除噪声标签(SIGUA,ICML 2021);这些工作极大地推动了噪声标签学习领域的研究。在小样本学习领域,姚权铭团队发表于CSUR的综述论文颇具影响力,被引用次数2200+,是该期刊近五年最高引的论文,团队积极和百度一起维护小样本学习工具箱PaddleFSL,该工具箱在Github上已经有1500+ Star,受到广泛关注。

图表4小样本学习工具箱 Github库获得 1500+ star(上);Co-teaching和小样本学习综述的引用情况

3. 以结构化数据建模降低药物设计的成本

药物是非常典型的结构化数据。它的研发具有成本高、周期长、风险大等特点,从头开发一个新药需要耗费至少10亿美元,10-20年的周期。因此,数据收集非常困难,但是依赖已有数据的预测任务种类又很多。姚权铭的主要研究结构化数据上的元学习方法,以实现快速适应和学习不同任务的效果。这些技术特点非常贴合药物研发的需求。在制药领域,可以帮助AI模型更好地预测药物的性能,如药物的吸收、代谢、毒性、不良反应等,从而缩小后期实验范围,降低临床失败概率,大幅降低新药研发的时间、资金成本。姚权铭已有在创业公司做技术研发的经验,且该方向的前期研究已发表于NeurIPS、Nature Computational Science、Nature Communication和KDD。在NeurIPS工作中,基于分子中子结构及其关系在不同性质之间的区别,设计了小样本分子性质预测的高效算法;在Nature Computational Science的工作中,设计了基于变换流的图神经网络解决药物间相互反应的预测问题;在Nature Communication的工作中,设计了基于知识图谱子图结构的可解释药物预测方法;在KDD的工作中,设计了基于分子几何信息的自动化与训练模型。基于以上基础,姚权铭考虑未来从AI制药方向切入创业,从而为我国领域的发展做出更大的贡献。(文/李杰)

Figure 1 利用小样本学习处理新药预测相关问题(Nature Computational Science 2023)。上图:方法架构示意,下图:显著提升新药互作用预测效果。

标签:

猜你喜欢

遇见数字孪生城市美好模样 国产GIS加速创新竞逐“新赛道”
日立家用中央空调新升级 20kw澎湃动力为大面积居室而生
热爱坚持赢!2023掠夺者/暗影骑士粉丝见面会收官南京!
探索制造业数字化道路,三一集团董事梁在中接受专访
网易瑶台荣获环球网首届数字赋能文化传播案例征集活动最佳元宇宙应用场景奖
声网与华为达成合作 率先适配鸿蒙HarmonyOS NEXT
声网1v1社交全球最佳实践 秒接通最佳耗时小于600ms
从传统生产到精益制造,看美园电缆的数字化发展之路
今冬超流行单品 三星Galaxy Buds FE值得你拥有
全国示范!东软助力北京市档案馆数字化通过国家档案局专家组验收
GE医疗携40+创新成果亮相RSNA,驱动数字医疗新态势
开讲5年,这位洋博士的网络化学课引数十万人围观
三星Galaxy Z Fold5创新折叠大屏 打造全场景移动新体验
入选“2023中国最具幸福感城市”! 鄂尔多斯灯光秀与百城百屏展播点亮幸福中国
四维图新“智芯”:芯片是汽车智能化、网联化的关键之一
国家卫健委第一届医学人工智能主题赛,这家企业为何能包揽特等奖和一等奖?
投身微短剧浪潮的年轻人:逐梦创作
星环科技成功举办数据要素市场与大模型语料库论坛
中能思拓Storcube发布新品S1000,助力生活储能全场景应用
小当回收&vivo商城至高补贴550!超低价轻松入手vivo X100系列
发挥数字基座价值 金山云助力汽车产业智能化转型
第三届“冠军杯”航空航天产业双创邀请赛项目路演西安专场成功举办
2023海外矿业发展论坛圆满闭幕
MTSC2023第十二届中国互联网测试开发大会(深圳站)成功举办
集中签约!深算院YashanDB关键行业商用提速
多角度详谈 会议室投影仪、电视机到底哪个好?
老板电器受邀参加第三届气环会,共话数智赋能城市餐饮油烟治理高质量发展
电装为减少温室气体制定Scope3新目标并获得SBT认证
去有风的地方 | 大理数字经济阶段成果汇报暨生态共建签约仪式即将启幕!
美商海盗船推出卓越游戏鼠标,提升FPS游戏体验:M75 AIR WIRELESS