全文7000字,估量阅读韶光18分钟。

教“设计”学“人工智能”的这几年 |范凌长文_人工智能_数据 智能问答

三个核心崇奉

先讲一下我们做设计人工智能的三个核心崇奉:

把科技带入设计,而不是用科技取代创意,不是让设计师变成工程师:我有一个艺术的心和科技的脑。
我一贯想做的事情便是把科技带到创意的领域里边,以是我并不肯望把每一个创作者都变成工程师,而是希望把工程的力量能够带到艺术的领域里去。
实在艺术、设计、创意是人性化科技的手段,让科技和我们的生活连接起来,否则科技只能冷冰冰的办理问题。
不是机器取代人,而是人与机器共创更美好的未来:创业前我在美国教“人机交互”。
人机交互和人工智能一个最大的差异,便是人工智能因此机器取代人为目的的,希望把人的事情自动化。
人机交互则是希望人和机器一起,做人和机器单独都做不到的事情。
我自己的崇奉不是要让人工智能去取代人的事情,而是要让人工智能和人一起创造更美好的生活和未来。
预测未来最好的办法是动手创建未来:不论是作为创业者,还是研究者,有一样不变的东西便是要动手创建。
我们的代价不雅观是“创建未来 / to build and create”,to build便是写代码,to create便是去创作。
为什么是设计人工智能

2017年,我第一次参加阿里设计的大会,也是我第一次对外宣讲“设计人工智能”。
实在设计人工智能在那个时候并不是一个共识,以是我加了一个“和”字,叫“设计和人工智能”。
正由于上面提到的崇奉,以是我也不叫“人工智能设计”。
7年过去了,让我们更深刻的去思考、考试测验、行动,和我的同事、学生一起做了很多故意思的实验性项目。

在我的实验室的同事和学生,有三类专业背景:打算机、工科和人文背景。
打算机背景的人办理生产力的问题,会去做各种天生的算法和工具;工科背景的人办理生产资料的问题,会去理解设计如何翻译成机器可以理解的数据;而人文背景的人则通过利用新的科技、手段、工具,来创造新的场景和产品。

我们有一个不变的“研究问题”,便是“创意的可打算性”。
这个问题本身是抵牾的,创意肯定是人文的,须要人的灵光乍现和历史积淀,从这个角度来说“创意可打算性”是具有争议的。
但是创意又有一部分可被打算,什么样的创意表现好,什么样的形式更符合几何原则……以是越抵牾、越争议的题目越能带来故意思的谈论。
这个谈论不为了达成共识,而是让我们各自奔赴到自己方向的一个动力。
亚里士多德讲过:我们知道的越多,我们知道自己不知道的就越多。
以是创意的可打算性越多,我们理解创意的不可被打算性也就越多。

这个过程中学习是很主要的。
我们实验室有研究生、博士生、博士后,也有一些互换的访问学者、研究员和特赞科技的工程师、算法团队等。
大多数韶光并不是我在教他们,而是他们在教我,我们是一个研究型组织,更是学习型组织。

我研究“设计人工智能”的另一个视角是企业视角。
企业带来了真实问题,有社会性的,也有商业性的;有关于每个消费者的,也有关于全体社会的。
企业里很多问题须要“更快”的办理办法。
企业发展过程从研发到市场,过去这个过程背后有大量科技型投资在支撑,而现在则须要企业真的产生客户代价为导向的产品做事和技能。

以是在设计人工智能的研究中,行动和知识很主要,我们当然要和历史、文化和学科发生关系;另一方面又要和社会、商业、原形发生关系。
就像我们在学校做研究的时候,是年轻人给我们带来了新的知识、新的工具、新的场景、新的思考办法。
在商业语境做研发的时候,是客户、互助企业给我们带来了很多问题、答案、和研究问题。

我希望能够通过to build and create的办法,去建立一个比较良性的“学”与“做”的模式,这大概是我做设计人工智能的研究/研发的大背景,接下来讲讲我们做了些什么。

数据是设计人工智能的打破口

当我们谈论设计人工智能的时候,尤其是最近的AIGC——不管是文生图、文生***还是文生文的内容——实在人工智能都在扮演一个很有天赋的形式创造者,它们能做很俊秀的东西,不管是很俊秀的句式、很俊秀的图片,还是很俊秀的***,现在乃至可以做很俊秀的三维模型。
但是,天赋只代脸色势创造的均匀水平变高了,并不代表这是一种设计创造的能力,由于它们还没有帮我们办理问题。

一说到AIGC,我们就会期待“一键天生”——输入提示词后天生结果。
要么是把一段很繁芜的东西总结一下,要么是把大略的一句话变成繁芜的设计。
但一键天生只是一个开始,离我们须要的结果还要走一段调度、再创作的路。
让我们先大略理解一下这些天生式模型的基本事理,这里有几个要素:

第一个要素是“数据集”,没有数据集打算机就没有可以学习的教材。

第二个要素是须要把数据embed成为一个向量矩阵里,这个过程是“深度学习”,或者更抽象的讲叫算法。
现在我们用的是深度学习框架是Transformer。

第三个要素是“算力”,通过调用GPU来完成。

以天生图为例,我们用扩散diffusion模型,从而让每一张图天生出来都是不一样的。
前半部分叫模型演习,后半部分叫模型运用(更专业的词叫“推理”),连接模型和推理的叫“提示词”。
我听说中国GPU的利用,大概95%以上是在模型演习,也便是说我们还在建模型的阶段,就像要致富先修路,我们还在修路的阶段。
其余5%旁边的GPU利用在推理上,以是利用的场景、规模、数量都远远还很早期。

人工智能有三个主要支柱,分别是:算力,算力的垄断者便是英伟达;算法,算法的垄断者是OpenAI;数据,我们还没有看到单一的垄断者,尤其是在垂直领域的数据。
大概消费者数据我们有很多的平台,但是生产者供给侧创意方设计的数据却分散着,没有很好的被处理。
以是我们做设计人工智能的思路是充分利用已有的算力和算法,在设计和创意的数据上做文章。

数据不能只是大,而且要能被很好的处理好。
在互联网上大概有95%的数据是非构造化数据,和设计创意有关的很多数据,险些都是非构造化的数据。
什么叫构造化的数据?便是在excel表格可以处理的数据。
而图、文、***、音乐,地理信息、三维模型……都是非构造化的数据。
处理不好非构造化的数据,打算机就无法理解设计和创意。

处理非构造化的办法,就像多模态模型或大措辞模型,实在是把内容变成向量。
如果是人来处理图片,我们会知道图片背后的文化暗示,也可能会揣测图片制作过程的信息……。
但在大模型里,现在还只被用一种很大略的办法处理,便是用图片像素对应笔墨产生向量。
以是大模型的图片处理还很粗糙,但是规模弘大。
以是我为什么会说天生式人工智能现阶段还只是一个有天赋的形式主义者,便是由于它只是理解像素和笔墨的向量的对应(学习形式与风格),但并没有深入的专业、文化影响。
他不知道这些像素为什么存在,他只知道他们存在的概率。

从2017年到19年,我们每年做一份《设计人工智能报告》,来到阿里巴巴的设计大会发布。
贯穿报告的主题之一是把设计翻译为一种数据资产,我一贯试图能够用设计的措辞,而不是用科技的措辞去阐明设计人工智能的问题。
因此在提到设计数据的时候,我借用了柳冠中师长西席的“设计道理学”:一种设计数据叫“大数据”,便是我们有很多对付设计的特色描述,这个设计是什么?就像刚刚我们用像素去描述这个设计是一样的;另一种角度是从“事”的角度,设计有过程、有思考、有参考、有过程迭代、有商业影响和社会影响。
而这些都把设计当做一件“事”,而不是只是当做一个“物”。
那么这些维度怎么能够成为设计数据资产的一部分,未来在模型调优、演习中有所表示,这实在便是我们实验室里去探索的。

把设计翻译成机器可以理解的元数据

我们是翻译家,要把设计翻译给机器。
用天生式人工智能里一个更专业的词,“翻译”该当叫做“对齐(alignment)”,对齐是大模型里很主要的维度,我们在做的便是按设计的思路和逻辑对打算机结果进行调优。
为此,我们做了很多研究课题。
比如2017-18年的时候我们做数据集,就像李飞飞教授的ImageNet让机器能够有眼睛一样,由眼睛发展出了视力,能够瞥见。
我们做的数据集叫DesignNet,当机器可以瞥见往后,是不是可以审美。
我们教机器的设计措辞就像教一个八岁小孩什么是设计,比如字体、设计风格、色彩组合等。
这件事情非常难做,要做大量的人工标记。
很感谢我的很多耐心而精良的学生和同事,他们做了大量的标记。

接下来,除了自下而上的让机器去理解设计作品外,我们试着做一个设计的知识图谱,通过设计的书本、文章等提取设计作为一种学科知识,这些知识点连接成为一个自上而下的设计知识图谱。
这是我们2019年做的,采取最大略的对话形式来进行交互,现在看上去和ChatGPT还有些相似。
你可以问设计问题,机器从设计知识库里找到向量关系、或者找到问答的索引。
如果说数据集是一种自下而上的草根式的理解设计;那么知识图谱便是一种自上而下,通过设计学自己本身的知识来教机器什么是设计。

那么这两样东西结合在一起,是不是就可以成为设计的可打算根本了呢?后来我们创造很难。
每一次设计的措辞描述又会给理解供应一个新的维度。
以是我们就倒过来,开始想能不能用人工智能的技能手段去理解设计的文化征象?

我有一些学生,每周的头发的颜色都是不一样的。
赤色、粉色、蓝色、宝石兰等,我问她这些颜色是哪里来的?她说这是亚文化的颜色。
亚文化颜色并没有很明确的设计定义,但是存在于很多案例中。
我们想这很故意思,能不能用打算机视觉倒过来建立亚文化色彩的理论?通过提取染发剂的色卡,通过摇滚音乐会的海报,倒过来去研究亚文化的色彩的理论到底是什么。
以是我们就做了一个亚文化的色彩数据集,这个数据集里任何相邻的颜色便是一种亚文化色彩的搭配关系。

当我把这个研究项目先容给一些国外学校的朋友的时候,他们见告我恰好有一个新兴的学科方向,从属于数字人文,叫做“文化剖析(cultural analytics)”。
文化剖析恰好和人文视角的研究相对应,人文的办法叫文化研究(cultural study)。
而现在这种打算的办法增加了文化研究的维度。
实在除了在色彩、设计之外,越来越多的人文学科开始“可打算”了。
著名经济学家陈志武教授现在在推动“量化历史”。
如果我们认为历史原来是由一个个个体个案组成的,那陈志武教授的量化历史是通过量化研究来研究老百姓群体,不是一个个伶仃的故事,而是一个连续的过程。
历史和量化历史的关系,恰好也是设计和设计可打算之间的关系。

实验室还做了不少故意思的事情。
有个学生自己朋友圈发出去的内容来进行剖析和理解,做了一个小小的个人数据库,是她99条朋友圈,里边有她喜好的东西、不雅观点感言等……他只做了一件事情,就想知道这99条朋友圈如果变成输入条件,通过扩散模型,会输出一张什么样的意向。
结果输出的是这样一张图——不知道为什么那么缤纷的朋友圈末了指向的是一个“庙门”。
我以为这个过程很有趣,扩散模型作为一个很强的归纳者,不是用AIGC去卷我们已知的设计问题,而是让我们理解以前不理解的东西,比如感情被天生了。
我们并不在意这张图片本身的质量,而在于通过这张意向的理解,让更好的知道自己的感情是怎么样的?

如果上面的项目是研究物质背后的感情,那么我们还有一个项目恰好相反,是研究创意背后的物质。
有一位学生用各种的算法和工具天生了很多图。
然后研究做这些图的耗电量。
大家知道一张图被天生须要耗多少电量吗?他的研究表明:我们用midjourney做一张图,全体链路上用的电,大概可以把苹果手机充电25%。
天生式人工智能虽然不消耗多少的创造力,但是却其实花费不少电量。
他在做的事情是把能量这个维度的数据也放到创意上。
当我们开始做这么多的动画的时候,当我们可以实现空间化的时候,大家想一想背后花费的能量有多少。
我们不想那么快的进入到道德和批驳,但确实一个很主要的设计的数据维度,而过去我们是不考虑的。

上述的项目都遵照着如下的构造,想法通过图文、***、色彩等内容形式来承载,然后通过元数据(metadata)来对齐给机器,元数据便是那些让机器去理解的数据单元。
我们做了一个这样的工具(musedam),让人们可以把设计创意能够翻译成数据资产。

听上去这种记录很抽象,但是事实上这不是什么新的观点,只是通过数字化工具和人工智能,这个记录又有了更强大的新工具而已。
我想给大家分享这个10分钟的记录片,记录了《教父》导演科波拉的条记本。
这个条记本是他自己做的,中间是《教父》的原著,外边他做了一个白色的框,这个白色的框被贴在每一页原著上。
他在阁下做了很多的条记,就像元数据一样。
以是《教父》就变成了属于科波拉的《教父》了,他说:只须要这本条记本,他就可以拍出电影了。
你们猜这本条记本叫什么?Prompt book。

Prompt这个词大家越来越熟习,便是驱动大模型的“提示词”。
早在几十年前戏剧导演的创作过程当中,他们就在用一个叫Prompt Book的工具。
现在如果我们在搜索引擎上去找Prompt Book,十有八九你会拿到的是一本AIGC的提示词秘籍。
但那个时候科波拉自己做了属于自己的prompt book,所有的想法都是从这个很物质化的元数据集里被prompt出来,产生他的艺术创作。
我们在让机器去更好的理解设计、做设计的路上,还有很多的像科波拉做条记本一样的“数据事情”可以做。

设计人工智能要从视觉到行动

既然设计可以被翻译为数据,那么是不是也可以用数据来天生设计。
我认为现在设计的天生是形式主义,是西方视觉历史的延续。
西方学者(如Jonathan Crary等)认为西方的视觉历史是关于“看(opticality)”的,人作为不雅观者(observer)。

巫鸿教授的《重屏》则通过剖析顾闳中的《韩熙载夜宴图》来研究中国的视觉,增加了时空和变换角色的维度,他认为在全画中画家有时候是第一人称,有时候是第三人称,有时候是宴会的参与者,有时候是宴会的记录者。
这种具有时空、行为和角色的视觉是值得引起把稳的。
当代设计实在一贯在做一个努力,便是从纯视觉,从设计“物”转变为设计“行动”。
从只做视觉转变为设计做事、体验、社会、生物等。
从以物为中央,能不能到以人为中央?从以设计作为以造物为目的,到作为改造社会的手段。
我认为我们还短缺一种谈论,是设计人工智能到底怎么能让设计学科在推动的变革连续延续。

我们也做了一些很早期的考试测验,比如通过人工智能来保护传统的手工艺。
这个项目中我们谈论了两个人工智能与手工艺保护冲突的元问题:一、我们到底该当如何让天生的结果可控?到底是该当要让AI天生金山农人画真的很好,还是做的一样平常就可以。
二、到底该当天生新的金山农人画元素,还是用原有元素天生新的布局和主题?这些话题都是开始用人工智能作为一种手段去重新想设计的问题的时候才会遇见。
如果只想绝对优化的话,那一定该当做到最好,该当天生更多的元素。
但是如果我们想设计作为一种保护手段的时候,大概我们不应该这么去选择。

过去是有了声音才有节拍,听到音乐翩翩起舞,舞蹈的创造每每受制于音乐。
我们在想如果把音乐的限定成分去掉,任何舞蹈都可以配出得当的音乐,会对舞蹈/行动有什么影响?以是我们做了个通过节拍天生音乐的算法,只要确定节奏,就可以产生任何配舞音乐。

我们希望通过AI来创造新的故事阐述。
我们总以为AI的形象都太刚性,我女儿喜好的AI会是什么样子?我们用天生的办法做了很多叫“脑机比”的玩偶,每个人背后都有个故事。
这些是最早的种子,第一个是鲁班,第二个是达芬奇,第三个是特斯拉……然后我们用这些种子进行组合天生,产生了5000个变种,比如特斯拉如果和爱因斯坦结合在一起,可能叫爱因斯拉。
他们会对天下的发展产生什么影响?我们用GPT天生这样的故事,大概他们改造的天下会是我们的平行宇宙。
以是当我们重新去思考AI的时候,AI该当给我们创造更多的可能性,而不应该只有一种视觉的结果。

最近我们开始试着做一些空间维度的探索。
从一个中国的绘画开始,一直的通过各种各样天生的算法来无穷无尽的拓展它的空间边界。
可能在中国视觉是关于时空和体验的,我们怎么样能够让原来一个平面的绘画,重新利用AI探求回它的空间感。

我的学生想给每个人做一个自己喜好的冥想空间。
天生个人化的视觉、气味、声音,天生了一种你属于你自己的独特体验空间,从而让你放松下来。

这是另一个学生的作品。
我们都是被动劳动,能不能实时的天生各种各样的场景,把劳动和游戏结合,劳动就像是在玩沉浸式游戏一样?这一系列的考试测验,实在都是让AI不但是针对物的形式主义,而是回归到我们希望通过设计来对行为进行改变上。

末了,在变革万千的人工智能技能下,始终有一些不变的东西。

第一,我们并没有以技能作为目的,而因此技能作为手段,末了解放人。
以是如果我们不能更愉快,技能不能让我们的生活更美好,这就不是一个对的技能。
那反过来,如果我们的设计,不能让我们变得更快乐,不能让这个社会变得更好,可能也不是一个好的设计。
以是我以为我们现在特殊主要的不是只是强调技能的效率,也须要带入设计的人文。

第二,一键天生不会产生好的设计,积累从来没有好比今更主要。
就像科波拉的Prompt Book一样,我们有多少东西被阐明、翻译、对齐给数据,就决定了我们有多少能力去提取和创作。
以是藤子·F·不二雄在他的创作书里就强调这个不雅观点:没有想法是平白无端产生的,我们要提取都不会从一个透明的盒子里面去提取。
所有的积累才是我们创作的源泉,发散才会有收敛,创意才会涌现。

第三,好的创意来自于不断迭代反馈,OpenAI的CEO Sam Altman说:“创意便是过去东西的重组,加上灵光乍现,乘以迭代的数量和反馈的质量。
人们每每以为要最大化的变量是灵光乍现,实在关键是要最大化迭代的数量和反馈质量。

末了我想引用毕加索讲的一句话:“电脑没有用,由于电脑只会给答案。

以是剩下的,就交给各位了。
感激大家。