11月5日,由微博与新浪新闻联合主办的“新浪新闻·2025探索大会”在北京落幕。在大会主题分享环节,火山引擎副总裁张鑫进行了题为《智能体“1+N+X”一站式工作站从生产工具到生产力上岗》的演讲。

火山引擎副总裁张鑫-主题演讲
以下是演讲实录,内容经编辑略有删减:
每次遇到像大模型这样一个技术浪潮的时候,人们总是喜欢用一些大的跨时代性的词汇描述和赞美。比如有人把大模型称为第四次工业革命,有人把它称为新时代的水电煤,但是我更倾向于用一个一个里程碑式的时刻来去勾画一些技术演进的路径。
比如从ChatGPT发布至今,先后经历了苹果时刻,因为我们人机交互的方式发生了本质的变化,从图形界面变成自然语言交互,甚至开发方式也发生最根本的变化,自然语言成为AI时代新的源代码。
随后豆包的出现在短时间内迅速积累上亿的用户,又给我们带来了AI的普惠时刻,包括到了今年春节DeepSeek的开源,又通过开源开放的方式推动整个行业技术进步。
当然创新脚步并没有停止,反而在加速。比如像Deep Research的出现,又让很多人惊呼,说AI时代这个智能体时刻真的到来,但我觉得更重要的一个问题是我们如何去预判下一个时刻,有人还是用了一些很宏大的词汇,比如AGI,AI达到人类的水平,甚至是ASI超级人工智能,AI甚至能超越人类的智力。
这些从我的角度我觉得道路还比较漫长,但我已经看见在发生的一个时刻,AI直接能够作为数字劳动力直接上岗的时刻,所以前面几位专家老师也提出了一个共同的问题,AI可能会让哪些人先失业?刚才聊了很多,从我的角度来讲,在如下三个领域里,我看到AI和智能体是最能够成为数字劳动力直接上岗的领域,哪三个领域?
第一,人力密集型的领域,需要大量重复劳动,人员众多,甚至有的时候水平参差不齐,需要大量培训的场景,比如像客服、审核、标注,因为智能体本质上拓展就是人类体力和时间的边界。
第二,知识密集型场景,对知识要求非常高,但是老专家又非常稀缺,比如说我们的咨询、法务、医疗,智能体本质上解决的是知识分发的问题。
第三,IT密集型场景,比如AI Coding,包括网络运维,因为在这样一些领域天然就是数字原生,所以通过AI和智能体可以更进一步提升效率。当然理论很美好,讲到这里有相关的听众可能也会引起一段焦虑,但是我觉得现在还不必焦虑。
真正打造这样一个智能体数字员工,理论是很美好的,在座有很多技术专家,大家看过非常多类似的架构图,什么是一个Agent?又能感知、又能规划、又能反思、又能和环境交互,但是它真实落地情况是什么样呢?
时间关系,我今天只分享两步--当然可能有很多因素。
第一步,从好的模型到好的应用开始。因为我们越来越认识到,模型能力的上限其实就能够框定应用效果的下限;模型能力的提升,会解锁更多的上层应用的爆发。我们的豆包大模型其实是最好的一个例子,在过去从2024年5月份发布到今天,短短一年多的时间里,Tokens调用量增长253倍,我觉得它成为了AI时代新的科技密度和智商密度的一个衡量单位。
模型能力的提升,为什么能带来更好的应用?本质上能给我们解锁更多好的应用场景,因为今天咱们大会的主题是探索,所以我们也往前探索一下,分享我们认为至少在未来一年之内,模型能力能给我们解锁哪些新的场景。
第一个场景,融合多模态的深度思考能力。过去当大模型刚出现的时候,往往把大模型这三个字和大语言模型五个字划等号,如果我们仔细想,人类信息接触的方式,它不光是语言,有视觉和语音,甚至再畅想一下,甚至可能文本的token只是技术发展上的偶然,所以我们的深度思考不光能基于文字来进行,还要能基于我们所看到的、听到的去进行思考。
举一个例子,在座确实也有很多影视行业的专家,比如过去在网上我自己也非常喜欢玩的游戏就是找穿帮,我们经常有一些纰漏的地方会造成一些穿帮的镜头,但是今天结合大模型的视觉理解能力,比如给定一张特定的背景和设置,这是一个古代的背景,从图片里我们看布景里有没有一些穿帮镜头,我自己当时找其实是花了一些时间,但是结合今天大模型的理解能力,能迅速发现里面右下角桌上的矿泉水瓶是不符合这个时代背景。
甚至看一个更复杂的例子,给定一个80年代末北方一个很贫穷的家庭房厅的背景,让大模型判断,说在整个布景里面有哪些物品是不符合这个时代的人设,大模型经过一顿分析以后,它首先能理解贫穷这两个字的含义,发现布景里面的缝纫机是不应该出现在80年代末一个贫穷的家庭里,甚至更细的它能发现里面的暖水壶和脸盆都过于崭新,不符合背景的设置。
从视觉里面找穿帮找出规律漏洞以外,甚至可以做基于多模态的搜索,我经常自己会看到一个很好的电影片断甚至一张图片,很想知道原片出自于哪里,今天的搜索不光基于文字,直接可以通过我们的文字、视频、图像都统一的映射到同一个向量空间里,去实现所谓多模态混合检索。比如给一张米老鼠弹钢琴的截图,就能从视频影视资料库里面找到对应的一些影片。
当然,第一个趋势其实更多是从多模态里提炼出信息,我们还需要的第二个信息传播维度是反向的:给定一个信息,把它变成多模态的一种表达。第一个当然就是对于图像的生成,这里不用我多讲了,有图有真相,我们可以看到,今天以豆包为例,视频是图片生成的模型可以支持不管是图片创作还是编辑,都能非常轻松的驾驭。像我们刚才提到的,可以让非技术人员大家都能实现专业级的图片创作。
除了图片之外,其实视频能够给我们带来更高的信息密度、更沉浸式的体验以及更加直观的感染力,所以我们看一段视频,基于豆包刚才我们讲的图像编辑模型和视频生成的模型,我们完全可以生成一部AI的这样一部影片。
可以看到整个画质更加高清,同时可以多支持不同的运镜,保证多个故事之间逻辑的连贯性和一致性,包括支持不同的运镜,还能在这个视频里结合我们想要的经典元素,让非科班的创作者都能快速去实现自己的导演梦。
正是基于这样的技术能力,今年9月份,火山引擎也携手上海电影和剪映,参加了今年第30届的釜山电影节,并且举办了AI未来影像的峰会,在会上还展示了五个AI的短片,所以确实像龚老师说的,我觉得通过技术的手段能够让人人成为创作者的梦想能够照进现实,让大家都能够通过光影去表达自己的心声。
当然多模态的领域除了能生成图片视觉以外,其实在听觉语音上,今天的大模型也给我们带来了非常多的突破,我相信大家对AI合成声音并不陌生,但可是过去可能没有太多的爱,因为AI的味道太浓了,但是今天的这个大模型不光可以以非常少的样本量去进行人声的模拟复刻,甚至能够用更加流畅、更加自然的语音语调去播报,我们现在可以做一个小的测试,大家可以听一下在下面这个播客里,哪一个声音是来自于真人,哪一个声音是来自于AI。
大家听到语气还是很自然的,有没有嘉宾想参与一下,哪个是真人,哪个是AI?
我们可以看到,其实从大家的迟疑里,真人和AI的声音已经很难分辨了,所以从语音的角度,甚至可以宣布AI已经通过了图灵测试,因为已经很难分辨哪个是真人、哪个是机器了。
基于趋势一的理解和趋势二的生成,第三个趋势是大模型真的能下场干活了,但是讲到智能体,大家可以回想一下,在2025年之前,我们看到的demo都是什么样的,是不是大部分都是聊天框?都是一个聊天框然后人机对话,人没事和机器聊来聊去的,但是今天智能体这个demo可以大家看到屏幕上的样子,我给它一张图片,我说你帮我用剪映把它转成3D,再配上一段音乐,然后再发布到抖音上,所有这些操作对于电脑上这些软件工具的调用,都是这个大模型通过一个叫做Computer Use的技术,端对端直接完成的。
当然除了电脑以外还有手机,我说帮我订一张明天最早回上海的机票,它能够理解我的意图,然后自动的打开我原手机上的12306的软件,搜索了以后再结合它的长期记忆,对我个人偏好的理解,去选择最适合我的航班航司出发的机场,最终直接完成订票,所以今天的智能体不再仅仅是聊天的Chatbot,而是端到端完成复杂任务的、真干活的帮手。
讲到这里是第一步:我们选择一个更好的模型,解锁更多的应用场景。第二步,如何从一个好的应用场景,真正把它变成一个能够上岗的数字生产力。
我们先看一张时间表,这个时间表是不是跟我们某些同事的日常有一些类似,早上八点半起来,先对着一堆系统发会呆,先思考一下今天该干啥,九点开始把数据整理,录入到N个不同的表格里,10点—12点连续开了三个会,记了很多会议纪要,下午一点好不容易想专注的去干会事,又被流程怎么操作、系统卡在哪里这样的问题所打断,这个时间表其实从系统工程的角度来看,本质上暴露了企业效率三个制约因素。
第一,我们有大量的工时被这种规则性的任务所消耗;第二,过多系统的切换导致了上下文的中断;第三,数据的孤岛制约了决策效率,所以我们第二步要做的是帮助企业构建一个数字生产力的劳务派遣站,通过源源不断的帮我们派遣数字员工来去拓展人类的体力和精力的边界,来去解决这些问题。
但这样一个数字员工派遣站,并不是一堆工具和一堆智能体简单的堆砌,而是需要一个体系化的平台,这里我也起了一个名字叫“1+N+X”,听起来有点晦涩,但简单来说就是一个统一的交互入口,解决找工具难的问题以及带上N个开箱即用的、解决企业通用痛点的智能体,比如说懂数据分析、懂营销的数字专家,帮大家提效。
还有面向千行百业企业定制化无限多需求的一整套业务定制智能体的开发工具链。所以换句话说,你能够通过一个统一入口去派遣、去雇佣一堆相互协同的智能体,能够直接和业务系统对话跑结果,最后把结果送回到统一的工作台上来。
首先我们为什么需要一个统一的交互入口呢?我自己的认知也在迭代,我发现今天企业的智能体数量不是太少,反而是太多了,根据我们客户的数据显示,现在平均一家企业投产的智能体有超过130多个,最多的已经超过600个,但是不幸的是,这些智能体交互的入口和界面都是散落在不同的业务系统里,有OA、CRM,有自己独立的聊天框,所以虽然我们进入AI时代,但是搞IT的人都知道,过去一直想要去铲除所谓烟囱式IT的孤岛不但没有消失,反而越变越多了,因为智能体让开发的门槛变得极低。
所以我们的解法通过同一个操作空间,通过我们大家熟悉的A2A的协议,通过MCP的协议能够让不同智能体为我们所用。
我们简单看一下智能体交互入口能够给我们带来三方面的便利:
第一,实现所谓多智能体的协同,忘了开会怎么办呢?会议助手找来会议纪要,想出差,差旅助手帮我去搞定所有的行程,我不用在系统间切来切去,在同一个工作间就像一个智能前台就可以去调度一切。
第二,和企业的业务系统打通,包括差旅系统知识库等等,让我们高效完成日常工作。
第三,千人千面,可能销售关注的是客户看板,HR关注的是招聘助手,行政可能会把待办助手置顶,让每一个人都有和自己最相关的智能体追着去服务。
这里有一段演示,时间关系就不展开了,我们光有交互入口还不够,我们还要有开箱即用能帮我们解决问题企业的通才和专家,企业的通用需求有很多,比如像数据分析、客服、内容生成,但今天这里我简单举一个例子,企业内部各类的流程提效。
以屏幕上的例子为例,一家公司从客户下订单到最后产品交付往往要跨越多个系统,要通过人工去实现多个系统之间的不同串联,耗时又耗力,但今天我们通过大模型,通过AI首先可以模仿理解人类的操作,生成可以自动化执行的工作流,从而后续能够帮我们自动的完成工作。
比如这样一个智能体起了一个名字叫做OAA,只需要简单三步,第一步观察人类操作录屏,第二步从录屏中自动的去学习领域的规则,生成工作流,第三步所有后续的操作可以由这个机器完全自动的执行。
除了需要通才以外,千行百业,不管是制造、传媒、新闻行业都是需要有自己的员工自己的专才,整个智能体构成时间关系我就不赘述了。只想跟大家分享一个关键的认知,智能体的效果并不是一次性搭建一个静态结果,而是像人类员工一样,需要有持续养成、持续迭代、持续调教的过程,所谓全生命周期的管理。
大家在图上看到全是技术的语言,我就不展开了,但是我做一个很形象的比方,比如里面第一步策略的规划,就像我们招聘时候写JD,先明确需要什么样的技能和智能体,能力开发就像准备面试时候去刷题,我们要去快速的抱佛脚把这个技能建立起来。
效果的评测是实习的考核和转正,包括应用的发布转正以后持证上岗,线上观测就像是对智能体日常的绩效管理,我们要从多个维度通过数据驱动的方法观测可评测智能体的效果,而品质优化就像是我们真人员工的一个晋升,通过这样一个循环,让这个智能体从一开始一个实习生的级别,最后蜕变成行业的业务专家。
时间关系,有一些细节就不展开了,基于“1+N+X”的体系,回到最前面的主题,我们就能够构建企业从一开始基于需求去招聘员工,再去培养,再和真人构建成一个混合型组织的一个完整链路。
讲到这里,“1+N+X”就讲完了,但是最后还有一个One More Thing,今天跟王巍总聊天的时候提到,随着社会的进步连宠物都在进步,宠物狗都越变越聪明,所以在AI大模型快速迭代的今天,其实人类也同样需要进化,所以AI可能会在取代一部分职业的同时,也会催生出更多一些新的工种和角色。
所以从我的角度,AI高价值的落地不光是技术的问题,更重要也是我们对于新的人才结构和人才密度的建设,最后一页分享给各位,我们一起共勉。
