World Science Hill创始人Mia王璟晗：独家专访澜舟科技创始人及CEO、微软亚洲研究院前副院长周明

前文介绍:

北京时间2023年9月15日早上10:00, World Science Hill独家专访了北京澜舟科技有限公司创始人及CEO、微软亚洲研究院前副院长、中国计算机学会副理事长周明博士。

专访嘉宾:周明

周明博士,北京澜舟科技有限公司创始人及CEO, 中国计算机学会副理事长,是中国和国际上NLP领域的领导者之一,曾任国际计算语言学会主席,发表了100余篇ACL文章。他在NLP领域重要论文发表数目名列世界前列,谷歌H-Index 107。

在创办澜舟科技之前,周明博士曾任微软亚洲研究院副院长,领导微软NLP领域的R&D业务,覆盖了大模型、机器翻译、搜索、聊天和对话系统等技术并成为微软的重要产品例如Windows,Office,Azure,Cognitive Service,小冰的核心技术。

1. 能否简单介绍一下您和您的澜舟科技团队正在做的工作?

澜舟科技是一家专注于认知智能领域的人工智能公司,致力于为全球企业提供新一代认知智能平台,助力企业数字化转型升级。

我于2020年底预感到大模型的未来发展,离开工作了21年的微软亚洲研究院(期间我多年担任NLP研究的副院长),在创新工场支持下,着手孵化一家大模型公司。澜舟科技公司于2021年6月正式成立。

该公司开发了著名的“孟子(Mengzi)”系列的大模型技术,专注To B开发行业大模型并应用到金融等重要领域。目前该公司在To B大模型研发和应用方面,尤其是金融大模型方面,走在中国前列。

澜舟科技公司曾获得2021年中国HICOOL全球创业大赛的一等奖及AI和金融赛道的第一名。它是达沃斯2023年技术先锋(Technology Pioneers),2023年被列为The Information评选出的五个有可能成为中国OpenAI的公司之一。

2. 能否请您介绍一下,整个深度学习与自然语言处理这个方向从最初的 Word2vec 和 CBOW (Continuous Bag of Words),一路发展到如今以GPT4为代表的一众大语言模型,您认为中间经历了多少次重大技术创新?

自从深度学习被引入自然语言处理领域以来,这一领域发生了许多重要的技术进步。下面是一些我认为对自然语言处理产生重大影响的事件或算法:

● CBOW (Continuous Bag of Words)和Word2Vec

这些都是用多维向量刻画一个词的语义的方法,支持静态词汇之间、两个句子之间的语义计算。它使得神经网络能够更好地理解单词之间的关系,从而提高了自然语言处理任务的性能。但是这种词汇的语义描述方法是静态的描述,这个问题,在后来发展出来的预训练模型得以解决。

● LSTM (Long Short-Term Memory) 和 GRU (Gated Recurrent Unit)

这两种循环神经网络结构解决了传统 RNN 中的梯度消失问题,使其更适合用于序列建模任务。

● LSTM(Long Short-Term Memory)

是一种特殊类型的循环神经网络(RNN),主要用于解决传统 RNN 中的梯度消失问题。在传统 RNN 中,由于反馈权重只依赖于当前时刻的输出状态,因此当递归层数增加时,信息逐渐流失,导致较早时刻的信息无法传递给后续时刻,最终出现梯度消失问题。

而 LSTM 通过添加三个门控单元(输入门、遗忘门和输出门)以及细胞状态更新规则,有效地缓解了梯度消失问题,并且能够记住长期依赖关系,因而适用于需要考虑上下文信息的建模任务,如语音识别、机器翻译、情感分析等。GRU则是LSTM的一个改良。

● Transformer

Transformer是一种用于自然语言处理任务的神经网络架构,最初被应用在机器翻译领域中。它主要基于自注意力机制来实现对输入序列进行编码和解码操作,从而得到最终的翻译结果。

与传统的循环神经网络(RNN)或卷积神经网络(CNN)相比,Transformer具有更好的并行性、更高效的计算速度以及更强的表达能力等优点。

具体来说,Transformer将每个单词表示为一个向量,然后通过多头自注意力机制将这些向量映射到不同的特征空间中,以便提取出它们之间的相关信息。接着,使用前馈神经网络(Feedforward Neural Network, FNN)对这些特征进行加权求和,最后再经过一层线性变换和softmax函数得到整个句子的概率分布。

这种方式可以有效地捕捉长距离依赖关系,并且能够同时考虑所有位置上的信息,因此对于一些需要全局理解的NLP任务表现出了很好的效果。

● BERT (Bidirectional Encoder Representations from Transformers)

这是 Google 发布的一种双向 Transformer 模型,通过预训练方式大大提升了各种自然语言处理任务的表现。

● GPT 系列

包括 GPT、GPT-2、GPT-3 等,这些大型语言模型利用了大量数据进行无监督预训练,具有很强的泛化能力,可用于多种自然语言处理任务。

3. 在我的印象中,最初的自然语言处理有很多子方向,例如自动问答,摘要生成等等。每一个子领域都有很多专精的研究者。但是现在似乎整个自然语言处理只剩下的大语言模型这一个方向,您对此怎么看?

确实如您所说,近年来大语言模型已经成为自然语言处理领域中的主流技术之一,许多重要的进展都是建立在这类模型之上。基于大模型,几乎所有NLP任务只需要经过微调或者指令就可以得到不错的效果。

然而我认为并不能完全否定其他子领域的价值和意义,因为各种类型的自然语言处理任务本身就有着各自独特的特点和挑战,而针对这些特殊需求开发出的方法也同样值得我们去关注和探索。

比如,直接用大模型做某些领域的信息抽取任务,也许不一定有用BERT(小模型)做检索增强来的效果好。而且大模型本身也有很多问题,比如幻象问题、可解释问题,这些问题也许用其他自然语言方法可以避免。大模型的算力消耗和数据消耗也产生严重的环境问题,而且也阻碍了其未来可持续性发展。

随着大模型算法不断发展和改进,新的技术和思想也会随之涌现出来,推动着各个子领域不断进步和创新。

除了幻象和缺乏可解释之外,当前大模型在企业应用实际落地过程中仍面临不少挑战,比如面对复杂问题时使用门槛较高、信息更新不及时、领域知识匮乏、无法与外部系统交互等等问题。这些问题催生了类似于Langchain的框架的发展,也期待着未来AI Agents的到来。

4. 我们知道现在的大语言模型,如 ChatGPT 相较于初代的 Transformer 而言,做了很多工程上的改进,例如 RLHF、Chain of thoughts 等等。您认为这其中哪一样是起到最大作用的。这一代代的大语言模型您认为是量变还是质变?

这是个非常有意思的问题。其实从历史角度来看,每次新版本的大语言模型发布后,往往都伴随着多种不同的改进措施,很难判断到底哪一种才是关键因素。我认为首先是预训练数据集的增大和质量提高;其次是模型的参数量大幅度提升。

至于RLHF,我认为是引导大语言模型的输出结果和人类的伦理规范对齐的一个技术措施,其中要读在于保证结果的可用性。而思维链则是引导大模型进行逐步推理或者计算得到最终结果的一个技术措施。这些都很重要,但是似乎也是理所当然可以想象出来的措施。

至于是否属于“质变”,这个问题有点难以界定。如果按照纯粹的科学标准来看,只有当某项发现或者发明真正颠覆了原有的理论体系时才能称得上“质变”,但实际情况却远没有这么简单。

毕竟任何一次迭代升级都不是孤立存在的,而是建立在已有基础之上的继续推进,所以应该把它视作是一个渐进式的过程。

5. 我们知道最近澜舟科技也是刚刚发布了自己的400亿参数孟子大语言模型,在各大榜单上取得了极佳的成绩和极大的影响力,您能给大家介绍一下澜舟的一些基本业务构成吗?

2021年成立以来,澜舟科技一直致力于预训练模型的研发与应用。我们在2022年底推出了基于孟子预训练模型的认知智能平台,包括AIGC、机器翻译、金融NLP等20多个产品服务。

我们坚定地专注于孟子大模型在垂直领域和专业赛道的应用,为企业客户量身定制解决方案,并始终秉承以客户价值为第一的原则,持续投入行业深耕。

澜舟科技推出了孟子大模型面向企业的“L1-L2-L3-L4”的产品体系。包括L1-孟子通用大模型、L2-孟子行业大模型、L3-场景服务模型和L4-AI Agents四个级别。每个级别的产品都具有不同的功能和优势。具体如下:

● L1-孟子通用大模型

提供阅读理解、通用写作、机器翻译、多轮对话等通用能力。

● L2-孟子行业大模型

基于行业或者垂直领域专业数据、联合行业客户和伙伴,打造出来的更加专业的行业大模型, 行业任务表现更优。

● L3-场景服务模型

完全面向企业客户的业务场景,聚焦业务效果,基于提示(prompt)工程或者微调(SFT)后实现更加定向的优化效果。

● L4-AI Agents

面向复杂场景,孟子大模型担当”大脑“角色,将复杂场景需求自主拆解为任务列表,自动执行,实现”所说即所得“。

“在企业的数智化道路上,通用大模型和行业大模型都非常重要,通用大模型像是底座,提供未来的可能性,行业大模型更重视业务应用。而我们在做的就是把行业伙伴的最后一公里做起来,结合业务场景,实现真正的价值落地。未来,我们也会继续努力,不断优化和完善我们的大模型,与行业伙伴紧密合作,共同推动人工智能技术在各个领域的应用和发展”。

嘉宾:周明

主持:Mia王璟晗

作者:Mia王璟晗

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。

标签：

猜你喜欢

全流程多元化适配服务，OPPO Android 14 适配率高达98%！

深信服EDS，高性能存储助力河北地信效率提升

海珠x百度智能云联合打造海珠政务云脑大模型

智慧亚运，你我共见，联想全栈智能全面助力杭州亚运

更好营养带动羊奶家庭纷纷证言佳贝艾特引领羊奶品类迈新阶

魔力官陈小春空降华帝直播间，引领超薄烟机新一代

墨将烈风无线游戏手柄（重新定义百元好手柄）首发价199

关于火箭回收，国内或许有更大想象空间？

科沃斯集团京东巅峰24小时送万元豪礼享洁净生活就在10月7日晚8点

北京银行APP8.0焕新，携手火山引擎共建金融智能化创新实验室

会稽山打造年轻化品牌形象，和公益大师谢震业为荣耀干杯

国电南瑞入选"央企ESG · 先锋100指数"

氢燃料电池市场逆势增长骥翀氢能打造自主可控的电堆“飞轮”

双节消费热马上消费多措并举服务实体经济

三星玄龙骑士电竞显示器新一代Ark（G97NC）正式上市，构建更具未来感的游戏场域

OPPO Enco Air2 新声版携手酷狗音乐深度定制，首销到手价149元！

北通游戏手柄与美学结合北通与广州美术学院达成深度校企合作

今日启幕！第十七届中国（象山）海洋论坛暨2023“青年与海”创新创业大会来了

三星Galaxy Z Fold5立式交互拍摄引领折叠生活新方式

获央视特邀采访，站在出海风口，雅迪如何讲好中国品牌故事？

清雷科技与象山县第一人民医院合作开展睡眠监测服务

助力能源转型！正泰新能2023品牌全球巡回Solar Party登陆西班牙

【县级医院康复方略】普外科康复建设方案——翔宇医疗

《灵笼2》顶流归来，艺画开天助力武汉动漫高质量发展

引领科技，追求卓越！理光中国官方网站升级版震撼来袭

秉持社会责任不负行业使命——奥图码将继续秉持绿色承诺，以永续设计引领未来

破纪录峰米投影实现2023年上半年中国投影市场出货量Top3

青云QingCloud对AI算力的“解法”

【县级医院康复方略】胸外科康复建设方案——翔宇医疗

七彩虹校园粉丝观赛会武汉站顺利收官

热点图片

要闻

久事赛事携手赛倍明，2023上海劳力士大师赛亮灯仪式闪耀开场
2023年9月22日，上海劳力士大师赛在久事体育场馆旗忠网球中心隆重举行了亮灯仪式暨久
时光派TIMECURE携Timeformula定制补剂，打造个性抗衰服务
不管过去还是现在,人类一直都梦想着长生不老、永葆青春,科学家们也一直在不遗余力地研
乘“时光方舟”，渡抗衰彼岸，时光派TIMECURE高端抗衰干预助力长寿人生
在《创世纪》记载的故事中,诺亚方舟承载着世界上的所有动物和诺亚一家八口,在滔天洪水
三星移动固态硬盘T9发布，为专业人士提供强悍性能和数据可靠性
T9是三星首款采用USB 3 2 Gen 2x2接口的移动固态硬盘，顺序读写速度高达2000 MB
永久Forever Blu上海开业：开启电动两轮出行的新篇章
自 1940 年以来，上海永久自行车一直是中国自行车行业的重要代表。作为中国最早的自
升学e网通三大板块多元教育，护航学子全面发展
高中三年，是人生中一个重要阶段，在这期间高中生会面临更大的学习压力，升学e网通作
遥遥领先！锐舞华为Mate 60系列手机壳重磅上市
主打新生活方式的新锐国货品牌锐舞将科技与创新植入于品牌基因，时刻走在时代前沿，洞
传承中的超越与创新从Galaxy Z Fold5看三星折叠屏引领之路
2023年已过大半，智能手机行业依然是一半冰山、一半火焰。综合Canalys、DSCC等发布的
登陆“世界第一屏”，凯度「微魔方」复合烹饪技术再次出圈！
2023年9月30日，凯度「微魔方」复合烹饪技术登陆世界第一屏——美国纽约时代广场纳斯
首店经济火热！影石创新华南首家直营店落地深圳前海
10月1日，影石创新科技股份有限公司（简称：影石Insta360）华南首家直营店于深圳前海

World Science Hill创始人Mia王璟晗：独家专访澜舟科技创始人及CEO、微软亚洲研究院前副院长周明

相关阅读

猜你喜欢

热点图片

要闻