01. 三个核心信仰
先讲一下我们做设计人工智能的三个核心信仰:
1.把科技带入设计,而不是用科技取代创意,不是让设计师变成工程师:我有一个艺术的心和科技的脑。我一直想做的事情就是把科技带到创意的领域里边,所以我并不希望把每一个创作者都变成工程师,而是希望把工程的力量能够带到艺术的领域里去。其实艺术、设计、创意是人性化科技的手段,让科技和我们的生活连接起来,否则科技只能冷冰冰的解决问题。
2.不是机器取代人,而是人与机器共创更美好的未来:创业前我在美国教“人机交互”。人机交互和人工智能一个最大的区别,就是人工智能是以机器取代人为目的的,希望把人的工作自动化。人机交互则是希望人和机器一起,做人和机器单独都做不到的事情。我自己的信仰不是要让人工智能去取代人的工作,而是要让人工智能和人一起创造更美好的生活和未来。
3.预测未来最好的方式是动手创建未来:不论是作为创业者,还是研究者,有一样不变的东西就是要动手创建。我们的价值观是“创建未来 / to build and create”,to build就是写代码,to create就是去创作。
02. 为什么是设计人工智能
2017年,我第一次参加阿里设计的大会,也是我第一次对外宣讲“设计人工智能”。其实设计人工智能在那个时候并不是一个共识,所以我加了一个“和”字,叫“设计和人工智能”。正因为上面提到的信仰,所以我也不叫“人工智能设计”。7年过去了,让我们更深刻的去思考、尝试、行动,和我的同事、学生一起做了很多有意思的实验性项目。
在我的实验室的同事和学生,有三类专业背景:计算机、工科和人文背景。计算机背景的人解决生产力的问题,会去做各种生成的算法和工具;工科背景的人解决生产资料的问题,会去理解设计如何翻译成机器可以理解的数据;而人文背景的人则通过运用新的科技、手段、工具,来创造新的场景和产品。
我们有一个不变的“研究问题”,就是“创意的可计算性”。这个问题本身是矛盾的,创意肯定是人文的,需要人的灵光乍现和历史积淀,从这个角度来说“创意可计算性”是具有争议的。但是创意又有一部分可被计算,什么样的创意表现好,什么样的形式更符合几何原则……所以越矛盾、越争议的题目越能带来有意思的讨论。这个讨论不为了达成共识,而是让我们各自奔赴到自己方向的一个动力。亚里士多德讲过:我们知道的越多,我们知道自己不知道的就越多。所以创意的可计算性越多,我们理解创意的不可被计算性也就越多。
这个过程中学习是很重要的。我们实验室有研究生、博士生、博士后,也有一些交流的访问学者、研究员和特赞科技的工程师、算法团队等。大多数时间并不是我在教他们,而是他们在教我,我们是一个研究型组织,更是学习型组织。
我研究“设计人工智能”的另一个视角是企业视角。企业带来了真实问题,有社会性的,也有商业性的;有关于每个消费者的,也有关于整个社会的。企业里很多问题需要“更快”的解决方式。企业发展过程从研发到市场,过去这个过程背后有大量科技型投资在支撑,而现在则需要企业真的产生客户价值为导向的产品服务和技术。
所以在设计人工智能的研究中,行动和知识很重要,我们当然要和历史、文化和学科发生关系;另一方面又要和社会、商业、真相发生关系。就像我们在学校做研究的时候,是年轻人给我们带来了新的知识、新的工具、新的场景、新的思考方式。在商业语境做研发的时候,是客户、合作企业给我们带来了很多问题、答案、和研究问题。
我希望能够通过to build and create的方式,去建立一个比较良性的“学”与“做”的模式,这大概是我做设计人工智能的研究/研发的大背景,接下来讲讲我们做了些什么。
03. 数据是设计人工智能的突破口
当我们讨论设计人工智能的时候,尤其是最近的AIGC——不管是文生图、文生视频还是文生文的内容——其实人工智能都在扮演一个很有天赋的形式创造者,它们能做很漂亮的东西,不管是很漂亮的句式、很漂亮的图片,还是很漂亮的视频,现在甚至可以做很漂亮的三维模型。但是,天赋只代表形式创造的平均水平变高了,并不代表这是一种设计创造的能力,因为它们还没有帮我们解决问题。
一说到AIGC,我们就会期待“一键生成”——输入提示词后生成结果。要么是把一段很复杂的东西总结一下,要么是把简单的一句话变成复杂的设计。但一键生成只是一个开始,离我们需要的结果还要走一段调整、再创作的路。让我们先简单了解一下这些生成式模型的基本原理,这里有几个要素:
第一个要素是“数据集”,没有数据集计算机就没有可以学习的教材。
第二个要素是需要把数据embed成为一个向量矩阵里,这个过程是“深度学习”,或者更抽象的讲叫算法。现在我们用的是深度学习框架是Transformer。
第三个要素是“算力”,通过调用GPU来完成。
以生成图为例,我们用扩散diffusion模型,从而让每一张图生成出来都是不一样的。前半部分叫模型训练,后半部分叫模型应用(更专业的词叫“推理”),连接模型和推理的叫“提示词”。我听说中国GPU的使用,大概95%以上是在模型训练,也就是说我们还在建模型的阶段,就像要致富先修路,我们还在修路的阶段。另外5%左右的GPU使用在推理上,所以使用的场景、规模、数量都远远还很早期。
人工智能有三个重要支柱,分别是:算力,算力的垄断者就是英伟达;算法,算法的垄断者是OpenAI;数据,我们还没有看到单一的垄断者,尤其是在垂直领域的数据。也许消费者数据我们有很多的平台,但是生产者供给侧创意方设计的数据却分散着,没有很好的被处理。所以我们做设计人工智能的思路是充分利用已有的算力和算法,在设计和创意的数据上做文章。
数据不能只是大,而且要能被很好的处理好。在互联网上大概有95%的数据是非结构化数据,和设计创意有关的很多数据,几乎都是非结构化的数据。什么叫结构化的数据?就是在excel表格可以处理的数据。而图、文、视频、音乐,地理信息、三维模型……都是非结构化的数据。处理不好非结构化的数据,计算机就无法理解设计和创意。
处理非结构化的方式,就像多模态模型或大语言模型,其实是把内容变成向量。如果是人来处理图片,我们会知道图片背后的文化暗示,也可能会揣测图片制作过程的信息……。但在大模型里,现在还只被用一种很简单的方式处理,就是用图片像素对应文字产生向量。所以大模型的图片处理还很粗糙,但是规模庞大。所以我为什么会说生成式人工智能现阶段还只是一个有天赋的形式主义者,就是因为它只是理解像素和文字的向量的对应(学习形式与风格),但并没有深入的专业、文化影响。他不知道这些像素为什么存在,他只知道他们存在的概率。
从2017年到19年,我们每年做一份《设计人工智能报告》,来到阿里巴巴的设计大会发布。贯穿报告的主题之一是把设计翻译为一种数据资产,我一直试图能够用设计的语言,而不是用科技的语言去解释设计人工智能的问题。因此在提到设计数据的时候,我借用了柳冠中先生的“设计事理学”:一种设计数据叫“大数据”,就是我们有很多对于设计的特征描述,这个设计是什么?就像刚刚我们用像素去描述这个设计是一样的;另一种角度是从“事”的角度,设计有过程、有思考、有参考、有过程迭代、有商业影响和社会影响。而这些都把设计当做一件“事”,而不是只是当做一个“物”。那么这些维度怎么能够成为设计数据资产的一部分,未来在模型调优、训练中有所体现,这其实就是我们实验室里去探索的。
04. 把设计翻译成机器可以理解的元数据
我们是翻译家,要把设计翻译给机器。用生成式人工智能里一个更专业的词,“翻译”应该叫做“对齐(alignment)”,对齐是大模型里很重要的维度,我们在做的就是按设计的思路和逻辑对计算机结果进行调优。为此,我们做了很多研究课题。比如2017-18年的时候我们做数据集,就像李飞飞教授的ImageNet让机器能够有眼睛一样,由眼睛发展出了视力,能够看见。我们做的数据集叫DesignNet,当机器可以看见以后,是不是可以审美。我们教机器的设计语言就像教一个八岁小孩什么是设计,比如字体、设计风格、色彩组合等。这件事情非常难做,要做大量的人工标记。很感谢我的很多耐心而优秀的学生和同事,他们做了大量的标记。
接下来,除了自下而上的让机器去理解设计作品外,我们试着做一个设计的知识图谱,通过设计的书籍、文章等提取设计作为一种学科知识,这些知识点连接成为一个自上而下的设计知识图谱。这是我们2019年做的,采用最简单的对话形式来进行交互,现在看上去和ChatGPT还有些相似。你可以问设计问题,机器从设计知识库里找到向量关系、或者找到问答的索引。如果说数据集是一种自下而上的草根式的理解设计;那么知识图谱就是一种自上而下,通过设计学自己本身的知识来教机器什么是设计。
那么这两样东西结合在一起,是不是就可以成为设计的可计算基础了呢?后来我们发现很难。每一次设计的语言描述又会给理解提供一个新的维度。所以我们就倒过来,开始想能不能用人工智能的技术手段去理解设计的文化现象?
我有一些学生,每周的头发的颜色都是不一样的。红色、粉色、蓝色、宝石兰等,我问她这些颜色是哪里来的?她说这是亚文化的颜色。亚文化颜色并没有很明确的设计定义,但是存在于很多案例中。我们想这很有意思,能不能用计算机视觉倒过来建立亚文化色彩的理论?通过提取染发剂的色卡,通过摇滚音乐会的海报,倒过来去研究亚文化的色彩的理论到底是什么。所以我们就做了一个亚文化的色彩数据集,这个数据集里任何相邻的颜色就是一种亚文化色彩的搭配关系。
当我把这个研究项目介绍给一些国外学校的朋友的时候,他们告诉我正好有一个新兴的学科方向,隶属于数字人文,叫做“文化分析(cultural analytics)”。文化分析正好和人文视角的研究相对应,人文的方式叫文化研究(cultural study)。而现在这种计算的方式增加了文化研究的维度。其实除了在色彩、设计之外,越来越多的人文学科开始“可计算”了。著名经济学家陈志武教授现在在推动“量化历史”。如果我们认为历史原来是由一个个个体个案组成的,那陈志武教授的量化历史是通过量化研究来研究老百姓群体,不是一个个孤立的故事,而是一个连续的过程。历史和量化历史的关系,正好也是设计和设计可计算之间的关系。
实验室还做了不少有意思的事情。有个学生自己朋友圈发出去的内容来进行分析和理解,做了一个小小的个人数据库,是她99条朋友圈,里边有她喜欢的东西、观点感言等……他只做了一件事情,就想知道这99条朋友圈如果变成输入条件,通过扩散模型,会输出一张什么样的意向。结果输出的是这样一张图——不知道为什么那么缤纷的朋友圈最后指向的是一个“庙门”。我觉得这个过程很有趣,扩散模型作为一个很强的归纳者,不是用AIGC去卷我们已知的设计问题,而是让我们理解以前不理解的东西,比如情绪被生成了。我们并不在意这张图片本身的质量,而在于通过这张意向的理解,让更好的知道自己的情绪是怎么样的?
如果上面的项目是研究物质背后的情绪,那么我们还有一个项目正好相反,是研究创意背后的物质。有一位学生用各种的算法和工具生成了很多图。然后研究做这些图的耗电量。大家知道一张图被生成需要耗多少电量吗?他的研究表明:我们用midjourney做一张图,整个链路上用的电,大概可以把苹果手机充电25%。生成式人工智能虽然不消耗多少的创造力,但是却着实消耗不少电量。他在做的事情是把能量这个维度的数据也放到创意上。当我们开始做这么多的动画的时候,当我们可以实现空间化的时候,大家想一想背后消耗的能量有多少。我们不想那么快的进入到道德和批判,但确实一个很重要的设计的数据维度,而过去我们是不考虑的。
上述的项目都遵循着如下的结构,想法通过图文、视频、色彩等内容形式来承载,然后通过元数据(metadata)来对齐给机器,元数据就是那些让机器去理解的数据单元。我们做了一个这样的工具(musedam),让人们可以把设计创意能够翻译成数据资产。
听上去这种记录很抽象,但是事实上这不是什么新的概念,只是通过数字化工具和人工智能,这个记录又有了更强大的新工具而已。我想给大家分享这个10分钟的纪录片,记录了《教父》导演科波拉的笔记本。这个笔记本是他自己做的,中间是《教父》的原著,外边他做了一个白色的框,这个白色的框被贴在每一页原著上。他在旁边做了很多的笔记,就像元数据一样。所以《教父》就变成了属于科波拉的《教父》了,他说:只需要这本笔记本,他就可以拍出电影了。你们猜这本笔记本叫什么?Prompt book。
Prompt这个词大家越来越熟悉,就是驱动大模型的“提示词”。早在几十年前戏剧导演的创作过程当中,他们就在用一个叫Prompt Book的工具。现在如果我们在搜索引擎上去找Prompt Book,十有八九你会拿到的是一本AIGC的提示词秘籍。但那个时候科波拉自己做了属于自己的prompt book,所有的想法都是从这个很物质化的元数据集里被prompt出来,产生他的艺术创作。我们在让机器去更好的理解设计、做设计的路上,还有很多的像科波拉做笔记本一样的“数据工作”可以做。
05. 设计人工智能要从视觉到行动
既然设计可以被翻译为数据,那么是不是也可以用数据来生成设计。我认为现在设计的生成是形式主义,是西方视觉历史的延续。西方学者(如Jonathan Crary等)认为西方的视觉历史是关于“看(opticality)”的,人作为观者(observer)。
巫鸿教授的《重屏》则通过分析顾闳中的《韩熙载夜宴图》来研究中国的视觉,增加了时空和变换角色的维度,他认为在全画中画家有时候是第一人称,有时候是第三人称,有时候是宴会的参与者,有时候是宴会的记录者。这种具有时空、行为和角色的视觉是值得引起注意的。现代设计其实一直在做一个努力,就是从纯视觉,从设计“物”转变为设计“行动”。从只做视觉转变为设计服务、体验、社会、生物等。从以物为中心,能不能到以人为中心?从以设计作为以造物为目的,到作为改造社会的手段。我认为我们还缺少一种讨论,是设计人工智能到底怎么能让设计学科在推动的变革继续延续。
我们也做了一些很早期的尝试,比如通过人工智能来保护传统的手工艺。这个项目中我们讨论了两个人工智能与手工艺保护冲突的元问题:一、我们到底应该如何让生成的结果可控?到底是应该要让AI生成金山农民画真的很好,还是做的一般就可以。二、到底应该生成新的金山农民画元素,还是用原有元素生成新的布局和主题?这些话题都是开始用人工智能作为一种手段去重新想设计的问题的时候才会遇见。如果只想绝对优化的话,那一定应该做到最好,应该生成更多的元素。但是如果我们想设计作为一种保护手段的时候,也许我们不应该这么去选择。
过去是有了声音才有节拍,听到音乐翩翩起舞,舞蹈的创造往往受制于音乐。我们在想如果把音乐的限制因素去掉,任何舞蹈都可以配出合适的音乐,会对舞蹈/行动有什么影响?所以我们做了个通过节拍生成音乐的算法,只要确定节奏,就可以产生任何配舞音乐。
我们希望通过AI来创造新的故事叙述。我们总觉得AI的形象都太刚性,我女儿喜欢的AI会是什么样子?我们用生成的方式做了很多叫“脑机比”的玩偶,每个人背后都有个故事。这些是最早的种子,第一个是鲁班,第二个是达芬奇,第三个是特斯拉……然后我们用这些种子进行组合生成,产生了5000个变种,比如特斯拉如果和爱因斯坦结合在一起,可能叫爱因斯拉。他们会对世界的发展产生什么影响?我们用GPT生成这样的故事,也许他们改造的世界会是我们的平行宇宙。所以当我们重新去思考AI的时候,AI应该给我们创造更多的可能性,而不应该只有一种视觉的结果。
最近我们开始试着做一些空间维度的探索。从一个中国的绘画开始,不停的通过各种各样生成的算法来无穷无尽的拓展它的空间边界。可能在中国视觉是关于时空和体验的,我们怎么样能够让原来一个平面的绘画,重新利用AI寻找回它的空间感。
我的学生想给每个人做一个自己喜欢的冥想空间。生成个人化的视觉、气味、声音,生成了一种你属于你自己的独特体验空间,从而让你放松下来。
这是另一个学生的作品。我们都是被动劳动,能不能实时的生成各种各样的场景,把劳动和游戏结合,劳动就像是在玩沉浸式游戏一样?这一系列的尝试,其实都是让AI不只是针对物的形式主义,而是回归到我们希望通过设计来对行为进行改变上。
最后,在变化万千的人工智能技术下,始终有一些不变的东西。
第一,我们并没有以技术作为目的,而是以技术作为手段,最后解放人。所以如果我们不能更开心,技术不能让我们的生活更美好,这就不是一个对的技术。那反过来,如果我们的设计,不能让我们变得更快乐,不能让这个社会变得更好,可能也不是一个好的设计。所以我觉得我们现在特别重要的不是只是强调技术的效率,也需要带入设计的人文。
第二,一键生成不会产生好的设计,积累从来没有比现在更重要。就像科波拉的Prompt Book一样,我们有多少东西被解释、翻译、对齐给数据,就决定了我们有多少能力去提取和创作。所以藤子·F·不二雄在他的创作书里就强调这个观点:没有想法是平白无故产生的,我们要提取都不会从一个透明的盒子里面去提取。所有的积累才是我们创作的源泉,发散才会有收敛,创意才会出现。
第三,好的创意来自于不断迭代反馈,OpenAI的CEO Sam Altman说:“创意就是过去东西的重组,加上灵光乍现,乘以迭代的数量和反馈的质量。人们往往觉得要最大化的变量是灵光乍现,其实关键是要最大化迭代的数量和反馈质量。”
最后我想引用毕加索讲的一句话:“电脑没有用,因为电脑只会给答案。”
所以剩下的,就交给各位了。谢谢大家。