周枫谈大语言模型:三项根本性新能力最为关键

2023-04-23 17:10:29     来源:

近日,网易有道CEO周枫在个人公众号发文,探讨大语言模型技术带来的三项根本性新能力。他指出,在大模型带来的新能力中,涌现能力、作为基座模型支持多元应用的能力和支持对话作为统一入口的能力最为关键,可能给业界和产品带来长期影响,值得重点关注。

以下为内容全文:

基于大语言模型技术的ChatGPT推出已经有4个月了,更多同类产品还在快速出现。比如,前天谷歌更新了Bard,将辅助编程能力支持的语言数量扩展到20种。

然而,对大模型技术的重要性也出现了质疑,前段时间,吴军老师就评价ChatGPT不算新技术革命,带不来什么新的机会,他认为大模型仍然存在很多限制,不像大家追捧的那样有吸引力。这篇文章发布后,网上也出现了多篇反驳文章。我不太关注这些争论,但我认为有一个问题没有被充分讨论,那就是大模型带来的新能力中,哪些是最为关键的,最有可能带来长期影响的。

我认为,与之前众多的自然语言处理技术相比,大语言模型至少具有三项根本性新能力,这些新能力在学术界已经被广泛讨论,甚至被视为常识,但是在产业界和产品团队中却缺乏足够的关注。实际上,这些大模型技术的特点已经改变了我们对业务和产品规划的思考方式,也会改变很多产品的经济模型。因此,产品经理和业务负责人需要更多地关注和深入思考这些新能力的应用场景。

能力一:涌现能力(emergent abilities)

涌现能力指的是在小型模型中并不存在,但在大模型中“突然出现”的能力,其中包括常识推理、问答、翻译、数学、摘要等(详见下图)。如果仅依靠小型模型的能力做线性外推,往往无法预测出涌现能力的出现和其强度。OpenAI的首席技术官Ilya Sutskever在接受采访时反复强调,尽管表面上看来,语言模型只是在预测下一个词元(token),但当模型足够大,transformer技术的建模能力足够强时,基于内部表示的推理能力就会出现。因此,模型会呈现出与规模较小时完全不同的行为,涌现全新的能力。

随着语言模型参数数量增加,新的能力逐步涌现且质量快速提升。

涌现能力之所以重要,不仅因为它们是大模型出现后才有的新能力,而且由大模型涌现出来的多数是非常重要的能力。例如,常识推理能力一直是AI领域的重大难题,而大模型的出现使得常识推理取得了重大进展。此外,大模型还有机会进一步获得更多能力。例如,一旦“推理”能力涌现,“思维链提示”(Chain of Thought Prompting)策略就可以用来解决多步推理的难题。因此,涌现能力的出现,是大模型带来的一项根本性变化。

能力二:作为基座模型支持多元应用的能力

在2021年,斯坦福大学等多所高校的研究人员提出了基座模型(foundation model)的概念,这更清晰地描述了之前学界所称的预训练模型的作用。这是一种全新的AI技术范式,借助于海量无标注数据的训练,获得可以适用于大量下游任务的大模型(单模态或者多模态)。这样,多个应用可以只依赖于一个或少数几个大模型进行统一建设。

上图展示了基座模型的结构,基座模型集中化了多模态数据,并且可以适配多元化的下游任务。

大语言模型是这个新模式的典型例子,使用统一的大模型可以极大地提高研发效率,相比于分散的模型开发方式,这是一项本质上的进步。大型模型不仅可以缩短每个具体应用的开发周期,减少所需人力投入,也可以基于大模型的推理、常识和写作能力,获得更好的应用效果。因此,大模型可以成为AI应用开发的大一统基座模型,这是一个一举多得、全新的范式,值得大力推广。

能力三:支持对话作为统一入口的能力

让大语言模型真正火爆的契机,是基于对话聊天的ChatGPT。事实上,业界很早就发现了用户对于对话交互的特殊偏好,陆奇在微软期间2016年就推进“对话即平台(conversation as a platform)”的战略。此外,苹果Siri、亚马逊Echo等基于语音对话的产品也非常受欢迎,反映出互联网用户对于聊天和对话这种交互模式的偏好。虽然之前的聊天机器人存在各种问题,但大型语言模型的出现再次让聊天机器人这种交互模式可以重新想像。用户愈发期待像钢铁侠中“贾维斯”一样的人工智能,无所不能、无所不知。这引发我们对于智能体(Agent)类型应用前景的思考,Auto-GPT、微软Jarvis等项目已经出现并受到关注,相信未来会涌现出很多类似的以对话形态让助手完成各种具体工作的项目。

图为微软最新项目Jarvis的工作流程,Jarvis将通过任务规划、模型选择、任务执行、生成响应四个步骤,结合HuggingFace上的众多模型,完成多模态的复杂AI任务。

随着大型语言模型技术越来越受欢迎,我们可以期待它带来更多的惊喜,特别是考虑到上面讨论的这些大型模型带来的关键新能力,周明等人所预测的语言智能黄金十年(2020-2030)很可能会成为现实,这正是一个令人兴奋的时代。

标签:

猜你喜欢

科技助力金融发展,力码科技李超荣膺“金融科技创新领导力奖”
日日顺汽车行业供应链管理方案入选“中国城市物流供应链服务创新案例TOP50”
突破带量采购低价中标的困局 2023中国医疗装备发展与创新论坛--深圳站圆满落幕
华为“智慧教室”闪耀第81届教育装备展,带来教育数字化创新成果
影像系统全面进化 三星Galaxy S23系列完美记录春日旅途
新国标时代:冲击?洗牌?变局?看皇派门窗如何亮剑!
航旅企业布局“虚拟空间”新赛道,数字赋能打造航旅新体验!
AIoT助力小微普惠,小雨点打造“火眼金睛”
国际荣誉!艾罗照明两款新系列产品双双摘得2023德国红点设计大奖
华为智能电动亮相第二十届上海汽车工业展览会
虚拟数字人天妤迎来上线一周年 逐梦前行探索无限可能
以全栈智慧教育能力,加速教育数字化转型──新华三亮相第81届中国教育装备展
战神新品装机优选,Lexar雷克沙ARES PCIe4.0固态硬盘!
e签宝举办2023产品发布会,构建企业签章数字化底座
微博隐私安全中心上线 与用户定向交流个人信息保护
加速产学研融合创新,新华三与复旦大学微电子学院开展战略合作
数智地产 生态共赢 - 企业盒子受邀参加用友2023生态峰会
“我的尼康”摄影比赛现已开启 邀你共寻“春日的面孔”
2023世界动力电池大会6月将在四川宜宾举办
早八人良药!2023小明同学「见面会」—北京外国语大学站圆满完成
峰米投影亮相第三届消博会,向世界展示大屏娱乐新选择
落子重庆!歌尔股份抢抓汽车电子新机遇
《华为云数据使能白皮书》发布 推动建设数据驱动型现代化企业
解码基因密码,探索生命奥秘 ——记山东第一医科大学詹显全教授
添可5年成长凝练用户价值创新理论 入选复旦管院管院专项案例
CCBN2023丨思特奇以技术创新为指引 携手中国广电智启5G新时代大门
vivo X Fold2 搭载瑞声科技旗下辰瑞光学两颗16MP超薄前置摄像头
平安知鸟亮相2023中国教育培博会:以AI赋能业培联动 助力业务高效发展
人工智能集群核心算法技术发展研讨会暨集群核心算法邀请赛圆满举办
十沣科技2023 R2新品发布会顺利举行 自主CAE软件再添神器