近日,香港科技大学(广州)陈雷教授、香港科技大学杨强教授和清华大学唐杰教授等专家学者,在澳门举办的国际人工智能顶级学术会议IJCAI 2023上组织了首届大模型国际研讨会(Symposium on Large Language Models,LLM 2023)。
官网链接(部分演讲已上传PPT):https://bigmodel.ai/llm-ijcai23/
研讨会聚焦于大型语言模型的最新进展及其在不同领域的应用,同时探讨了如何解决构建可信赖的大型语言模型所面临的问题和挑战。
此次研讨会的亮点之一是邀请了多位顶尖学者担任主题演讲嘉宾,包括:牛津大学计算机系副教授Yarin Gal, OSU 计算机系助理教授Yu Su,清华大学计算机系助理教授东昱晓,DeepMind研究科学家Sebastian Farquhar和Biomap首席科学家宋乐。
一起看看他们都说了什么。
DeepMind/牛津大学 Sebastian Farquhar:负责任地使用具有不可预测泛化能力的大型语言模型
Google DeepMind 研究科学家,同时也是牛津大学OATML研究组的高级研究员。
他的研究方向侧重于通过使用概率方法和量化不确定性来减轻先进人工智能和机器学习系统的灾难性风险。
大型语言模型(LLMs)中的幻觉现象指的是模型的语言流畅性远远超过其忠实度和推理能力的情况。不幸的是,这种部分泛化的特点是LLMs的一个特征,其中包括所谓的“目标错误泛化”,可能对代理语言系统具有潜在的危险影响。
无监督方法在应对不可预测的部分泛化具有一定的抵御能力,在研讨会上Sebastian Farquhar分享了基于概率的方法来检测幻觉现象。
但是,不可预测泛化的一般问题仍未解决,这对负责任地使用下一代 LLMs 具有重要意义。
OSU 苏煜:语言Agents,人工智能的关键进化步骤
俄亥俄州立大学计算机与工程系助理教授,俄亥俄州立大学 NLP 小组的联合主任。他对于发展人工智能有广泛的兴趣,尤其关注语言在人工智能和人类智能中作为思维和交流工具的角色。
研究成果曾获得ACL 2023和COLING 2022的最佳论文奖、加利福尼亚大学圣塔芭芭拉分校的优秀博士论文奖,以及首届亚马逊Alexa Prize TaskBot Challenge的第三名荣誉。
最近,人工智能领域的一个热点是自主代理,通常由大型语言模型(LLMs)驱动,可以根据语言指令在现实环境中自主执行复杂任务。然而,代理的概念自AI诞生以来就已被引入,那么这一次有什么不同呢?
苏煜认为最根本的变化是使用语言的能力。当代的AI代理使用语言作为思维和沟通的工具,使它们能够进行复杂的推理,理解多样化的环境感知,并与人类轻松交流。
事实证明,语言的使用对于生物智能的演化至关重要,像老鼠甚至蠕虫这样的动物无法具有推理和学习能力,人类智能在语言的帮助下变得更加高级。
现在,人工智能正在追随类似的演化路径。
因此,苏煜建议将这些当代的AI代理称为“语言代理”,因为语言是它们最显著的特征。开发和理解这样的语言代理是实现通用人工智能的必要步骤。
在本次演讲中,苏煜首先描述一个可能的语言代理概念框架,并简要介绍记忆、工具使用、基础和推理等重要主题。
然后,介绍了团队最近关于语言代理的几项工作,包括:1)Mind2Web,旨在开发适用于任何真实世界网站的通用语言代理;2)LLM-Planner,利用LLMs进行机器人规划以便与物理环境互动;3)Pangu,一个通用的神经符号框架,用于开发适用于不同环境(例如知识图谱、数据库和网站)的语言代理,其中包括一个符号代理和一个神经语言模型协同工作。
清华大学 东昱晓:从GLM-130B到ChatGLM再到CodeGeeX
清华大学计算机系助理教授,知识工程实验室(KEG)成员,曾工作于脸书人工智能和微软总部研究院。研究方向为数据挖掘、图机器学习和预训练基础模型,相关成果应用于十亿级社交网络和知识图谱。入选IJCAI 22 Early Career Spotlight,获2017年ACM SIGKDD博士论文提名奖和2022年ACM SIGKDD新星奖。
大型语言模型(LLMs)极大地推动了人工智能技术的发展。
本次研讨会东昱晓教授的分享主题是《从GLM-130B到ChatGLM再到CodeGeeX》。他首先介绍了如何构建GLM-130B,这是一个包含1300亿参数的双语(英文和中文)预训练语言模型。
他说道,这是一次尝试,旨在开源一个至少与 GPT-3 一样好的千亿规模模型,同时揭示如何成功地进行大规模预训练。
随后,介绍了基于GLM-130B开发的ChatGLM(chatglm.ai)。值得一提的是,开源的ChatGLM-6B和ChatGLM2-6B在Hugging Face上吸引了超过500万次下载,连续28天位居热门榜首,并在GitHub上获得了4万颗星。
最后,东昱晓提到GLM架构还扩展到预训练开源代码模型CodeGeeX2上,在各种与编码相关的任务中展现了出色的性能,为 VS Code 和 JetBrains 上数以万计的日活跃用户提供免费的 "CodeGeeX "插件。
GLM 系列模型和代码:https://github.com/THUDM
BioMap 宋乐:生命科学基础模型
宋乐博士是著名的机器学习和图神经网络领域专家。曾任美国佐治亚理工学院计算机学院终身教授、机器学习中心副主任,阿联酋 MBZUAI 机器学习系主任,国际机器学习大会董事会成员,具有丰富的 AI 算法和工程经验。
他目前担任BioMap的首席技术官和首席人工智能科学家,负责领导xTrimo系列大规模生命科学基础模型的战略规划和技术开发,并构建高通量闭环系统以补充AI引擎。
我们能否利用大量的无监督数据来加速生命科学发现和药物设计?
在本次研讨会中,宋乐博士分享的主题是《生命科学基础模型》。介绍xTrimo系列的大规模预训练模型,涵盖了多尺度的生物过程,整合了来自蛋白质序列、结构、蛋白质相互作用和单细胞转录组学数据的海量信息。
这些预训练模型可以作为解决生命科学和药物设计中出现的许多预测问题的基础,并实现 SOTA 性能。
Oxford Yarin Gal:能告诉我们不知道的基础模型
牛津大学副教授,他在现代贝叶斯深度学习的早期工作中做出了重要贡献,量化了深度学习中的不确定性,并开发了可以在工具“随机猜测”时通知用户的ML/AI工具。这些工具已广泛应用于工业界和学术界,被用于医学应用、机器人技术、计算机视觉、天文学、科学研究以及NASA等领域。
我们可以看到很多基础模型,当模型不知道答案的时候,就会出现“胡言乱语”,提供毫无意义的答案。如果想要依赖于基础模型进行工作,目前来说还无法实现。
Yarin Gal在研讨会上表示,深度学习有很多限制,我们无法真正知道模型知道什么,不知道什么,它们常常被视为不可解释的黑盒子,很容易被愚弄,这也引发了大家对人工智能安全方面的担忧。还有就是模型现在依赖于大数据。将这些问题全部联系在一起,会发现基础模型没有不确定性的概念。但是,在决策、物理学和生命科学中,我们需要一种方法让模型告诉我们,当我们不知道我们知道什么和不知道什么时,而确定性也给我们一个洞察黑盒的方式。确定性甚至可以用来识别我们是否受到了对抗性示例的攻击,最后,如果只在模型对其预测不确定时收集标签,我们需要的数据量会少得多,这可以避免在医疗分析等领域中浪费专家的时间。最后,Yarin Gal表示还有很多工作要做,比如开发新工具来帮助他人构建安全可靠的机器学习模型,以便在工业界和学术界进行可能的部署。
在研讨会期间,来自世界各地对大模型感兴趣的学者齐聚一堂,共同讨论了大模型时代面临的机遇和挑战。
另外,本次研讨会收录了16篇精彩论文,并且在现场讲解他们的研究成果,收录论文如下:
1. 论文:A Quantitative Review on Language Model Efficiency Research
作者:Meng Jiang, Hy Dang and Lingbo Tong
2. 论文:A Survey on Large Language Models for Recommendation
作者:Likang Wu, Zhi Zheng, Zhaopeng Qiu, Hao Wang, Hongchao Gu, Tingjia Shen, Chuan Qin, Chen Zhu, Hengshu Zhu, Qi Liu, Hui Xiong and Enhong Chen
论文:HyFit: Hybrid Fine-tuning with Diverse Sampling for Abstractive Summarization作者:Shu Zhao, Yuanfang Cheng, Yanping Zhang, Jie Chen, Zhen Duan, Yang Sun and Xinyuan Wang
4. 论文:Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach作者:Bin Hu, Chenyang Zhao, Pu Zhang, Zihao Zhou, Yuanhang Yang, Zenglin Xu and Bin Liu
论文:ChatDB: Augmenting LLMs with Databases as Their Symbolic Memory作者:Chenxu Hu, Jie Fu, Chenzhuang Du, Simian Luo, Junbo Zhao and Hang Zhao
论文:How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection
作者:Biyang Guo, Xin Zhang, Ziyuan Wang, Minqi Jiang, Jinran Nie, Yuxuan Ding, Jianwei Yue and Yupeng Wu
7. 论文:A Systematic Evaluation of Large Language Models on Out-of-Distribution Logical Reasoning Tasks
作者:Qiming Bao, Gaël Gendron, Alex Peng, Neşet Tan, Michael Witbrock and Jiamou Liu
8. 论文:FATE-LLM: A Industrial Grade Federated Learning Framework for Large Language Models
作者:Tao Fan, Yan Kang, Lixin Fan and Qiang Yang
9. 论文:FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs
作者:Zhenheng Tang, Yuxin Wang, Xin He, Longteng Zhang, Xinglin Pan, Qiang Wang, Rongfei Zeng, Kaiyong Zhao, Shaohuai Shi, Bingsheng He and Xiaowen Chu
10. 论文:Enhancing Logical Reasoning of Large Language Models through Logic-Driven Data Augmentation
作者:Qiming Bao, Alex Peng, Zhenyun Deng, Wanjun Zhong, Gaël Gendron, Neşet Tan, Nathan Young, Yang Chen, Yonghua Zhu, Michael Witbrock and Jiamou Liu
11. 论文: Large Language Models on the Chessboard: A Study on ChatGPT's Formal Language Comprehension and Complex Reasoning Skills
作者:Mu-Tien Kuo, Chih-Chung Hsueh and Richard Tzong-Han Tsai
12. 论文:Copilot for Xcode: Exploring AI-Assisted Programming by Prompting Cloud-based Large Language Models
作者:Chee Wei Tan, Shangxin Guo, Man Fai Wong and Ching Nam Hang
13. 论文:SentoP: Sentence-level Prefix Prompt for Controllable Abstractive Summarization
作者:Shu Zhao, Yang Sun, Jie Chen, Zhen Duan, Yuanfang Cheng, Chunhui Zou and Feng Zhou
14. 论文:EmotionPrompt: Leveraging Psychology for Large Language Models Enhancement via Emotional Stimulus (proxy)
作者:Cheng Li, Jindong Wang, Kaijie Zhu, Janice Zhang, Wenxin Hou, Jianxun Lian and Xing Xie
15. 论文:Attention Paper: How Generative AI Reshapes Digital Shadow Industry? (virtual?)
作者:Qichao Wang, Huan Ma, Wentao Wei, Hangyu Li, Changqing Zhang, Peilin Zhao, Binwen Zhao, Bo Hu, Shu Zhang, Bingzhe Wu and Liang Chen.
16. 论文:New Trends in Machine Translation with Large Language Models (virtual?)
作者:Chenyang Lyu, Zefeng Du, Jitao Xu, Yitao Duan and Longyue Wang
最后,值得一提的是,推出 ChatGLM 的智谱 AI,在赞助KD2023大模型日之后也独家赞助了本次研讨会部分Keynote speakers的travel cost,体现了国内厂商在学术生态领域的活跃与贡献。