用人工智能做设计究竟能不能真的有效?_结构_文本
作者:仵冀颖
编辑:Joni
在这篇文章中,我们谈论设计中的人工智能问题(AI in Design)。众所周知,人工智能 AI 的终极目的是让机器具备与人类类似的识别、剖析、理解乃至是决策的能力,从而能够代替人类办理问题、完成任务。但是,现阶段的人工智能,纵然是在工业场景中已经得到了较好的推广运用的人工智能技能,都属于弱人工智能。
利用大量的数据学习、预演习、参数调优、微调、模型架构调度等等改进或处理手段,这些人工智能的模型或方法能够依赖数据或履历自动完成一些任务,但是却无法拥有人类的主不雅观能力,例如对事物、事宜或者环境的感想熏染和感知能力。它们不能够独立思考,因此,也不能真正具备像人类一样的推理、类比等抽象思维的能力。
什么是设计?百科中这样写道:「设计是有目标有操持的进行技能性的创作与创意活动, 是把一种设想通过合理的方案、周密的操持、通过各种办法表达出来的过程,可以把任何造物活动的操持技能和操持过程理解为设计。」设计涉及了浩瀚领域,例如:商贸领域(Commerce),包括产品设计、包装设计等等;运用领域(Applications),包括游戏设计、UI 设计等等;传达(Communications)领域,包括字体设计、音效设计、图形设计、版面设计等等;科学和数学领域(Scientific and Mathematical),包括组合设计、实验设计等;物质领域(Physical),包括服装设计、环境设计、工业设计等等。不管终极的运用领域是什么,设计都有一个关键的组成「人类的一种设想」。这种设想是范例的人类思维和思想,是完备抽象的存在,也是目前人工智能所无法替代的关键。因此,在设计中引入人工智能仍面临很大的寻衅。
不过,只管在设计中引入人工智能面临很多问题,但人工智能还是有其固有的上风的。一是,人工智能具有超过人类的影象能力,能够随时、精确的调用大量的履历来赞助完成任务;二是,人工智能具有超强的打算能力,能够在短韶光内完成繁芜的打算任务;三是,人工智能方法不受人类主不雅观感情影响,能够相对公正的评估设计方案。因此,在设计中引入人工智能将能够不断地积累并有效利用履历知识,且能够不断地、快速且高效地优化设计方案,以及能够不断地探索并找到最佳的设计方案。
本文根据近期揭橥的四篇论文,详细磋商了人工智能在构造设计、产品设计、电路设计、排版版面设计中的运用。这四个设计运用领域的任务差异非常大,以是运用人工智能的方法也非常不同。我们将在后续章节中详细剖析不同设计任务的特点、需求,以及如何有效的将人工智能引入到设计中。
1、构造设计中的 AI
本文重点关注的是构造设计问题,详细是指医院病房的房间布局设计 [1]。患者在住院期间涌现跌倒的情形会严重影响患者的预后,导致发病率增加、住院韶光延长和生活质量降落等问题。此外,不必要的跌倒也会给患者和医疗系统带来巨大的经济本钱。导致患者跌倒的缘故原由有很多。个中,环境危害(Environmental Hazards)和事件(Accidents)已被确定为最常见的跌倒缘故原由。
文献[6] 中提出了一种考虑房间布局的病人在医院房间内自然行走时跌倒风险的度量方法。该方法通过考虑房间设计成分,包括照明、地板类型、门的操作 (摆动或滑动) 和房间内的支撑物 (如家具、扶手、床栏等) 来估计病人在房间中的跌倒风险。然而,作者所提出的度量标准所定义的跌倒风险与房间布局之间的公式关系繁芜且不直不雅观,同时不能手动调度布局以降落跌倒风险。
本文在 [6] 中跌倒模型的根本上,采取无梯度优化技能自动天生医院房间布局的设计方案,目的是能够通过改进房间布局设计的办法降落患者跌倒的风险(见图 1)。详细来说,作者对仿照退火方法进行了调度,以优化多个真实天下医院房间的特色,包括病人床、沙发、病人椅、输液杆、马桶和水槽等物体的位置,房间内照明的位置,以及主门和浴室门的位置等,即,引入人工智能赞助进行房间布局的构造设计。
图 1. 传统和优化的房间布局对跌倒风险的评价。图 (a) 和(b)为房间示意图,图 (c) 和(d)为跌倒风险模型评估的相应跌倒风险热力争。
1.1 构造设计中的人工智能先容
构造设计中的人工智能与打算机化布局方案(Computerized layout planning)问题干系。打算机化布局方案是指在知足一系列标准和约束条件和 / 或优化一些目标的同时,利用打算机来分配空间。自 20 世纪 60 年代基于规则的打算机布局方案理念初见端倪以来,对打算机布局方案的需求不断增加。此后,人们在打算机布局方案方面做了很多事情,包括一些商业化产品。例如,Spacemaker(https://www.spacemakerai.com/)、Planner 5D(https://planner5d.com/)等等。这些软件包利用数学建模、人工智能和建筑城市发展方面的技能,帮忙建筑师设计多建筑住宅用地和高层方案。
在空间分配和布局方案中,人们关注的是花费空间的物体和资源的物理位置安排。除此之外,打算机布局方案也常运用于室内设计中的物体放置问题。我们比较熟习的有宜家开拓的 IKEA PLACE 平台,通过手机摄像头扫描的区域内,虚拟放置公司的产品(Ikea apps - ikea. https://www.ikea.com/us/en/customer-service/mobile-apps/.)。
医院科室布局方案是医疗机构打算机布局方案中的重点研究领域之一。本文重点谈论了医院房间内家具、照明和门洞的摆放,目的是通过合理的方案布局设计,以降落患者跌倒的风险。
1.2 方法先容
一个范例的单人床医院房间由两个子房间组成,一个是主房间,包括了病人、访客和临床区域。一个是浴室,包括了厕所、淋浴和洗脸池。作为本文方法的输入, 房间边界的几何形状是根据建筑学的哀求确定的(本文利用的房间几何形状见图 1)。对付每一个子房间,必须放置特定的家具物品,必须包含光源来照亮房间,必须有连接浴室与主房间的门廊和连接主房间与走廊的门廊。本文模型的目标是对家具、光源和门廊的位置设计进行了优化,以降落患者跌倒的风险。
借用约束知足问题中的符号,作者将本文方法的输入形式化为三个凑集:(1)房间的一组 n 个可变工具(如:家具、光源和门):X=;(2)为 X 中每个变量定义的一组域:D=;(3)一组定义在 X 中变量上的约束条件:C,个中,每个约束条件都可以涉及任何变量的子集。对付 X 中的每个工具 x_i,将其在医院房间中的位置参数化为配置向量 d_i∈ D_i。然后,将全体医院房间的布局参数化为向量 l= [(d_0)^T , (d_1)^T , ... (d_n)^T]^T ,即 X 中每个工具的配置向量的并集。本文优化目标是在知足约束条件的条件下,确定医院房间的详细布局 l,同时将「与患者跌倒风险」干系的函数 l 最小化。
房间的整体跌倒风险分布是根据以前对医院跌倒风险的研究,打算出病人的一系列外在成分的函数。该跌倒风险模型考虑了受房间内举动步伐位置影响的静态和动态成分,并供应了两个跌倒风险评估:(1) 房间基线评估,根据以下静态成分打算:地板类型、照明条件、门的操作、周围物体 (如扶手、椅子、医疗架、沙发、水槽、马桶和床) 的支撑或危险浸染,从而得出全体房间的风险分布。(2)基于运动的评估,考虑患者的步态动态特性,如转身角度和活动类型,如坐到站、走、转身、站到坐等。跌倒风险模型的完全流程见图 2。
图 2. 完全的跌倒风险模型流程图[6]
跌倒风险模型的输入为有关房间的细节,如地板表面类型以及房间的布局,包括照明、所有物体的位置和配置以及门的位置。输出是一个风险分布 r( l ),定义为离散化病房的网格图中每个元素的值。在模型的基线层中,每个网格的基值为 1,然后根据间隔最近的支撑物体的间隔以及照明、地板、门的操作成分来更新该值。对付基于运动的评估,该模型利用一组预先定义的场景,如患者从床上到厕所的转换,然后预测每个场景的物体之间的样本轨迹。仿照轨迹所经由的每个网格单元都会受到详细的仿照活动(如坐立)和动态成分(如角速率和转弯角度)的影响。由于两个目标工具之间可能存在多个轨迹,因此模型会天生并评估仿照患者轨迹的分布。结合基线和基于运动的评估风险曲线,得到全体房间的跌落风险分布。为此,打算基线跌落风险成分的均匀值和每个网格单元上铺设的轨迹 / 活动点的跌落风险。末了输出的是每个网格单元的风险值。末了,可以将跌倒风险模型的输出可视化为医院房间布局的热力争,以显示跌倒风险值的分布情形(如图 1 所示)。
本文所利用的代价函数如下:
个中,α表示用户指定的截止参数,用于确定在分布中从哪里开始考虑曲线尾部下的区域,详细如图 3 所示。公式中的第三项表示风险值高于α的网格单元的凑集。考虑曲线尾部下面积是财务风险管理中的常见做法,即所谓的条件风险值。终极的代价函数便是跌倒风险分布的中位数、均匀值、标准差和最大值的函数。
图 3. 跌倒风险分布的代价函数参数,显示中位数、最大值和高风险尾部下面积。
作者利用仿照退火来优化 r( l )。仿照退火是一种随机迭代优化方法。在每次迭代时,随机天生当前布局附近的布局,并评估其代价。如果新的布局比当前布局有所改进,则将其更新为当前最新布局。如果没有改进,根据 Metropolis 概率,仍旧可以接管它为最新布局:
个中,k 为 Boltzman 常数,T 为根据冷却操持随韶光衰减的温度值,c 代表与布局干系的代价值。详细的优化流程见 Algorithm 1。
在实行优化过程中,当同时天生随机的初始可行房间布局 (Alg.1 行 8) 和附近可行布局 (Alg.1 行 16,NearbyFeasLayout) 时,紧张担保的是这些布局是可行的,即知足约束集 C 中所有的约束条件。在这两种情形下,作者采取随机抽样与回溯的方法,在初始房间布局的天生过程中,从每个变量的域中均匀地随机采样。当天生现有布局的附近布局时,从以现有布局的配置为中央的正态分布中对每个变量的配置进行采样,并为每个变量定义标准差(Alg.1 中的σ_r)。为了确保在此过程中知足约束条件,作者利用了回溯搜索方法。回溯搜索方法每次为一个变量赋值并检讨是否知足约束。当一个变量赋值违反约束条件时,回溯搜索方法重新采样,当一个变量没有合法的值可供赋值时,或者在试图赋值该变量时创造已经达到最大迭代次数或已耗费最大韶光时,该方法会回溯到重新赋值之前的变量。
图 4 给出了在医院房间中放置一个物体时的回溯示例。在图 4a 中,算法试图将个中一个物体放置在浴室中,但由于前面物体的存在导致它无法做到这一点。该方法回溯并考虑变动先前放置物体的位置(图 4b)。末了,在知足约束条件的情形下,算法成功地将物体放置在房间里(图 4c)。图 5 描述了回溯算法的整体流程。
图 4. 物品放置程序。(a) 先前放置的物体妨碍后续物体的可行放置。(b)回溯改变先前放置的工具的位置。(c) 所有物体都以知足约束条件的办法放置。
图 5. 回溯方法流程图
1.3 实验先容
为了评估所提出的模型的性能,作者优化了两种常见类型的医院房间的内部配置:闺阁(Inboard rooms)和外室(Outboard rooms)。对付闺阁和外室的实验,定义 X 包括:由沙发、病床、病椅、探视椅、移动医疗架、马桶和水槽组成的家具;主室和卫生间的吸顶灯;连接卫生间与主室和主室与走廊的门。
在图 6 和图 7 中,作者分别展示了优化前和优化后具有代表性的闺阁和外室房间布局,以及它们干系的跌倒风险得分热力争。在文章最开始的部分展示的图 1 中,作者也给出了类似的布局设计。作者创造,与闺内室间比较,优化外室房间时的本钱值更低。
图 6. 跌倒风险的房间布局评估和优化。(a)和 (b) 为算法天生的闺内室间示意图。(a)是初始房间布局的实例,(b)是个中一次运行的优化房间布局。(c)和 (d) 是跌倒风险模型评估的相应跌倒风险热力争。图 (c) 和(d)中的颜色条数值越高,解释跌倒风险越高。
图 7. 跌倒风险的外室房间布局评估和优化。(a)和 (b) 为算法天生的闺阁示意图。(a)是初始房间布局的实例,(b)是个中一次运行的优化房间布局。(c)和 (d) 显示了由跌倒风险模型评估的相应跌倒风险热力争。颜色条上的数值越高,解释跌倒风险越高。
2、产品设计中的 AI
2.1 产品设计中的人工智能先容
设计思维是从终极用户的角度创造创新产品的一个成熟过程,常日被称为以用户为中央的设计(User-centered design)或以人为中央的设计(Human-centered design)。这篇文章先容的便是我们最熟习的产品设计中的 AI[2]。只管创新的设计思维具有无可争议的优点,但是对付在线业务来说,由于与产品开拓过程或机器学习系统不兼容,目前很难在个中引入设计思维。本文的研究目的是提出一个过程框架,将设计思维与开拓过程结合起来,将人融入到设计过程的循环(Loop)中。这就涉及了人机回圈问题(Human-in-the-loop,HITL)。
人机回圈是人工智能的一个分支,它利用人类和机器智能来创建机器学习模型。从实质上讲,人机回圈将自动化的问题重新定义为了人机交互(Human-Computer Interaction,HCI)设计问题。人机回圈将 「如何构建一个更智能的系统?」 的问题扩大到「如何将有用的、故意义的人机交互纳入系统中?」这种系统设计的目的是实现能够增强或提高人类完成任务的能力的交互式机器学习(Interactive Machine Learning),人机回圈作为一种工具通过智能地跟踪随韶光的变革和中间结果,可以实现快速迭代、快速相应的反馈、自察和调试以及后台实行和自动化。关于人机回圈的问题,机器之心之前有过专门的宣布,感兴趣的读者可以查阅(https://www.jiqizhixin.com/articles/2020-11-11-6)。
为什么将人机回圈整合到机器学习系统中变得越来越主要?其根本缘故原由是近年来人工智能研究成果的爆炸式增长导致人们对这些研究成果的有效性越来越疑惑。除了对再现性和可阐明性的关注,人们聚焦于一个新的关注点:可控性,即须要将人整合到依赖于机器学习结果的过程中,即人机回圈。
本文所提出的过程框架运用生理丈量学来理解用户的设计感知,为后续的设计周期天生反馈,并逐步更新机器学习模型,以适应在线运用中用户偏好的快速变革。作者认为,目前供应在线运用的公司无法履行设计思维方法的内在缘故原由可能在于对设计思维过程的误解。例如,IDEO 在 2007 年引入的斯坦福 d.school 设计思维过程[7],规定了一个由强调、定义、构思、原型和测试五个过程阶段组成的循环。许多公司的第一个误解便是忽略了设计的周期性,将五个阶段一次性实行。此时,末了的测试阶段并不会连接到后续的学习周期。然而,周期性的特性可以很随意马虎地通过敏捷过程(agile process)来实现,即迭代和增量开拓过程。第二个误解是企业没有将设计思维作为一个迭代学习周期来实现。设计思维方法常日将定性用户测试的样本量确定为 5 到 10 人之间。由于测试阶段只实行一次,小样本量会导致反馈不具代表性,因此对产品决策有风险。也正由于如此,这些供应在线运用的公司和企业认为无法在其产品设计过程中引入设计思维方法。
2.2 方法先容
本文提出了一个过程框架—人在学习循环(Human-in-the-learning-loop,HILL)。如图 8 所示,它由一个设计思维过程(Design sprint)组成,并合并到了一个敏捷开拓过程中。该过程通过对用户反馈的定量丈量来代替定性的用户测试。这种更换能够为后续的学习周期供应可扩展的传授教化反馈。
作者利用 HILL 设计周期(The HILL Design Cycles)过程取代了定性用户测试的定量生理丈量工具的设计感知。所天生的用户反馈用于演习机器学习模型,并沿着四个设计维度(新颖性、能量、大略性、工具性)辅导后续的设计周期。将四维用户反馈映射为用户场景(User stories)和优先级(priorities),Design sprint 将用户反馈直接转化为实现过程。(Design sprint 是谷歌开拓的基于敏捷过程的设计思维方法)。
图 8. HILL 过程框架:将终极用户的人机回圈集成到基于机器学习的剖析过程中。
对付用户测试,团队首先确定公司的终极用户池,并在设计 sprint 端约请该用户池中的一部分用户来完成在线调查。在线调查给出了在前面的设计 sprint 中产生的新原型(拜会图 9)。受邀的调查参与者评估了设计感知丈量工具中关于展示的新原型的 12 个项目。此外,调查还搜聚了参与者的定性反馈,例如有关功能细节的问题等等。
敏捷过程的紧张特色是迭代和增量的开拓方法。这意味着产品开拓过程不是像瀑布模型那样由一系列长的后续阶段定义的,而是一系列称为迭代的短韶光周期。Scrum(一种最常见的敏捷方法)称这些迭代为 sprint。谷歌开拓了基于敏捷过程的设计思维方法,并称之为 Design sprint。履行团队可以根据客户对上一次 sprint 结果的反馈来定义当前 sprint 的范围。这样,新的范围就会被充足到用户场景(User stories)中,即从用户角度制订的需求。所有用户场景都将根据客户反馈确定优先级。
图 9. 通过设计感知调查进行用户测试。
本文通过以下办法对设计感知调查的反馈进行剖析。根据新颖性、能量刺激性、大略性、工具创造性四个设计维度对用户反馈进行分组。对付每个设计维度,打算其综合得分,并给出箱线图的可视化结果(图 10)。人机回圈部分是由人类质控工程师来实现的。质控工程师仔细检讨所吸收到的用户反馈的数据质量,丢弃掉无效数据,如非常值或包含强默认偏差的反馈。这个数据清理过程对付只保留有效的新数据并将其添加到演习机器学习模型的数据集中是至关主要的。所得到的模型可以作为快速仿真的预演习模型,以支持原型决策。
图 10. 基于设计感知剖析的设计维度反馈天生与机器学习模型更新。
Design sprint 过程由四个设计维度构成,每个设计维度对应 sprint 脚本中的一个种别(拜会图 11)。种别(例如大略性)对应领域或业务需求的高等抽象。团队根据设计维度的综合得分来分配每个类别的优先级 --- 最低的得分给出最高的优先级,由于它揭示了最严重的毛病。在设计维度的优先级低落时,团队决定在即将到来的 sprint 中处理哪些设计维度。对付这个决定,团队不必考虑履行的难易程度,由于后者反响在后面的事情量估算过程中。这意味着更随意马虎实现的用户场景将得到更少的事情量估计单位,因此更可能实现。
团队为选定的设计维度编写用户场景。例如,category simplicity 中的用户场景可以表述为「作为一个前端 web 用户,我希望以尽可能少的导航步骤导航到我的个人页面」。在编写此类用户场景时,团队将定性用户反馈整合到用户场景的接管标准中。例如,如果用户反馈暗示颜色不一致,那么用户场景在 category simplicity 中的接管标准可以表述为「检讨所有 UI 元素是否来自相同的颜色方案」。
基于用户场景,团队实行敏捷事情估算过程(Agile effort estimation process),并相应地调度 sprint 范围。然后,实行任务分解(task breakdown),即团队成员将用户场景中定义的范围分解为必须实行的小任务,以实现用户场景。任务分解之后,回顾团队对当前 sprint 范围的理解,并结束 sprint 方案(sprint planning)。
图 11. 基于设计维度反馈的 Sprint Planning。
团队是一个自组织的团队,它通过正常的敏捷迭代办法来实行 Design sprint。在这个过程结束时(拜会图 12),团队会在随后的调查中展示其设计结果,这是由于用户必须能够从在线的运用显示中创造并节制运用的新功能。这种关注须要实行额外的活动,比如从不同的视角拍摄照片或制作效果图,直到用户能够在他们的在线调查显示中节制到新原型的要点(拜会图 12,图 12 中底部中间显示的原型)。
图 12. Design sprint 的新设计原型。
3、版面设计中的 AI
本文谈论的是版面设计中视觉文本版面布局(Visual-textual presentation layouts)的自动天生问题[5]。随着互联网的发展,人们对社交媒体无处不在的访问和利用,使其创建和共享的富媒体(rich-media)内容比以往任何时候都要多,无论是为了体验共享还是产品推广。发布富媒体内容的一个主要任务是设计一个由异构媒体元素(例如,图像和文本描述)组成的具有视觉吸引力的展示布局(Presentation Layout)。因此,视觉文本版面布局的设计无处不在,从现有的商业印刷出版物,到在线数字杂志,再到个人媒体帖子。
如图 13 的示例。图 13(a)给出了利用本文提出的方法自动天生的布局,它能够反响出真实杂志封面中利用的许多设计原则,如图 13(b)所示。在各种视觉文本版面布局中,杂志封面表示了最全面的设计理念。本文提出了一个结合高等美学原则(自上而下的办法)和低级视觉特色(自下而上的办法)的版面布局打算框架。为了验证本文提出的框架的有效性,作者从设计师供应的繁芜杂志封面中导出了一组模板,并将模板运用到打算框架中以天生相应的视觉文本布局。在本文提出的框架中,这些模板可以很随意马虎地修正和扩展到其他出版物中。
图 13. 视觉文本版面展示布局示例:(a)根据本文方法自动天生的布局和(b)真实杂志封面的布局。本文事情目标是从给定的图像和文本自动创建一个专业的布局。
3.1 天生模板
本文首先天生了一套主题干系的模板。这些模板能够用于在空间布局和色彩折衷过程中辅导设计,从而确保令人满意的布局性能。模板由两个方面定义:空间布局和主题干系风格。在空间布局中考虑了黄金分割分布的对称和不对称视觉平衡以及空间的艺术性,并将主题干系的字体情绪、字体大小约束、语义色彩、色彩调和模型等融入到设计风格中。作者将版面元素定义为 「刊头」、「标题」、「封面线」和「副标题」。对付每种类型的元素,作者在图像的百分比范围内预先定义一些显示在黄色区域中的 mask 区域。在 mask 区域中考虑了空间布局的美学原则。图 14 给出了 「时尚」 和「餐饮」主题的两个版面模板。图 14(b)的设计假设当一个显著的工具位于图像的左下角时,文本该当被限定在预定义的区域内,这些区域勾引文本元素按照从上到下的顺序进行展示。
图 14. (a)「时尚」和(b)「食品和饮料」模板中的示例。每个模板都包括空间布局、字体系列、高度限定和语义颜色。所定义的空间布局中的文本区域可以根据图像主要性而变革。
作者定义了 16 种常见的空间布局,涵盖了 8 个最常用的主题。对付每个主题,作者设计了 20 种语义颜色、4 种字体情绪模板和一到两种颜色调和模型的主题干系样式。并遵照以下几点设计原则:
文本信息完全性:要使杂志封面视觉完全,文本元素不应超出背景图像的边界或相互重叠。
视觉信息最大化:图像应调度到目标分辨率,同时保留主要的视觉信息(即图像区域),如人脸、文本、显著工具、人类参与区域等。此外,嵌入的文本元素不应遮挡显著区域。
空间布局的合理性:要制作出自然、吸引人的杂志封面,文本元素的定位应遵照美学原则。例如,对称平衡遵照人类审美感知中的关键规则,即文本该当放置在背景图像的空缺处。
感知同等性:主要的文本该当以更独特的文今年夜小、字体和更高的比拟度颜色,在不显著的区域中更有吸引力地显示出来。
色彩折衷:从视觉感知的角度来看,文本元素的色彩该当是和谐的、吸引人的。
文本信息的可读性:为了使读者一眼就能理解,须要设置适当大小的文本元素。同时,文本元素和背景图像之间的颜色比拟可以提高文本信息的可理解性。
3.2 打算框架
本文设计了一个打算框架来整合版面设计的所有关键元素,包括版面模板、高等美学原则(自上而下的办法)和低级图像特色(自下而上的办法)。作者将排版问题描述为一个模板约束的能量最小化问题。
除了上一节中谈论的预定义的布局模板外,自动天生视觉文本布局的过程还该当考虑到基于内容的图像特色(如显著性图)。通过结合高等模板约束和低级图像特色,作者定义了一个打算框架,如图 15 所示。该框架包括四个紧张模块:(i)素材天生器,用户可以直接上传图片和文本,也可以对网页进行剖析,得到紧张图片和关键句子;(ii)图像合成,自动裁剪和缩放原始图像,以匹配目标版面大小;(iii)排版优化,在选定版面模板的空间约束下,将文本覆盖在调度大小的图像上;(iv)文本质彩设计,在考虑全局颜色折衷和局部可读性的情形下,以主题干系的样式重新存储文本。
图 15. 基于主题干系模板的可视化文本版面自动天生框架。
3.2.1 图像合成
该算法根据目标分辨率对原始图像进行裁剪和缩放,同时能够检测到并保存主要的区域。这些区域包含关键信息,如人脸、文本、突出物体和人类把稳力。如图 16 所示,作者对输入图像运用显著性检测、OCR 和人脸检测。相应地,打算出显著性、人脸、文本和把稳力争,并将视觉感知图定义为所有图中的最大操作。通过最大化与图像 I 具有相同纵横比的裁剪 mask 下主要性值实现从分辨率为 [w_o, h_o] 的图像 I_o 到分辨率为 [w, h] 的图像 I 的图像合成,然后再将裁剪后的图像缩放到分辨率 [w, h]。此外,在检测侧面轮廓时作者引入了注目把稳力(Gaze attention),从而得到人眼在图像上的位置和头部的方向。然后,可以很随意马虎地皮算出注目方向,通过它我们可以估计出图 15 所示的注目把稳力争。主要性图定义为对显著图、人脸图和文本图的最大操作。通过对注目 - 把稳力争和主要性图进行 T 变换,得到了分辨率为[w, h] 的注目 - 把稳力争 I_a 和主要性图 I_m,这对后续的排版过程是非常有用的。
3.2.2 排版
图 16. 排版过程:(a)视觉主要性图(灰色)与注目把稳力(黄色);(b)从排名前 5 位的模板中选择模板;(c)输入文本;(d) 排版程序的细节,个中通过迭代掌握正面高度(例如,「封面线」)在次优化办理方案中最小化定义为 E(L)的能量;(E)排版结果具有自下而上的图像特色和自上而下的空间布局约束。
图 16 给出了完全的排版过程。视觉文本布局的排版是将文本叠加到背景图像上的过程。从人类的视觉感知来看,句子在图像上的表现常日被视为一个文本块。作者将此文本块的轮廓定义为相应句子的边界框,拜会图 16 中图像(e)的赤色矩形。作者将排版问题描述为一个能量优化问题,在自动选择模板的约束下,最小化文本叠加的代价、多余视觉空间的摧残浪费蹂躏以及信息主要性在感知和语义上的不匹配程度。
3.2.3 和谐色彩设计
文本和图形元素的色彩设计一贯是创造高质量视觉文本布局的一大寻衅。由于人们对颜色非常敏感,和谐的颜色可以产生一种悦目的触感来吸引用户的把稳力,并为永劫光的阅读供应良好的体验。和谐色彩设计的两个哀求是:1)保持文本质彩与背景图像的整体折衷,2)保持文本的局部可读性。为了知足这些需求,作者利用设计师总结出的语义色彩和一些著名的色彩调和模型,在调和色彩设计中采取主题干系模板,供应了一种有效的色彩设计方法。
如图 15 所示,从调度大小的图像中提取调色板。调色板由七种颜色组成,个中前四种来自显著工具,其余三种来自非显著工具。同时通过图像主题识别出文本的语义颜色,用于监督文本质彩的天生。根据模板中主色的定义,从调色板中选择主色。在一定的色调调和模板中,对语义颜色进行迭代,打算出与主颜色的匹配分数。提取相应最大(匹配分数最高)的颜色作为文本的基色。为了知足第一个哀求,作者采取「i」型色调调和模板来掌握其他文本的色调。在确定每个文本的色调后,作者采取一定的色调模型来担保与背景有足够的视觉比拟度。
图 17 演示了「时尚」主题中图像的色彩设计过程。在「时尚」话题中,主色调被定义为最常涌如今显著区域的颜色。据此,选择调色板中的第一种颜色作为主色,主色反响视觉部分中的基色。通过在本主题中运用相似色调类型,文本元素的基色被分配给与主色具有最大匹配分数的语义颜色。然后选择调和色作为最靠近主色的颜色。在杂志封面样式的版面设计中,最显著位置和最大许可字体大小的「刊头」常日用于确定文本元素的基本颜色。然后将调和语义颜色设置为「刊头」。以「刊头」颜色为根本,通过主题干系调和模型和局部图像特色对其他部分的文本进行识别。首先,在「i」类型模板中设置文本的「色调」值。为了补偿比拟度与文本确当地背景,作者运用了一个扩展的色调模板(Tone template)。文本的色调设置为局部背景色调与饱和度在值坐标中最远可能的相反方向之间的黄金比例点。
图 17. 「时尚」主题中图像的色彩设计程序解释。
3.3 实验剖析
作者在实验中选择了两个比拟基线方法:MM12 和 IUI13。MM12 供应了一个半自动化系统,这样一旦设计师为杂志设计了一种风格,就可以基于一组内容图像特色自动天生文章版面[8]。IUI13 则是一个杂志封面自动设计推举系统[9]。作者表示由图 18 可以看出,本文方法的效果优于 MM12 和 IUI13。这是由于对付每个主题,我们都供应了专门的空间布局模板和主题样式,这有助于天生更令人愉悦的视觉文本布局。
图 18. 与以往事情的实验比拟。(a) 和(b)分别由 MM'12 和 IUI'13 部分的重新实现天生。本文方法结果如(c)所示,该结果看起来自然而专业,空间布局平衡,色彩和谐。(d) 由从未见过我们提出的视觉文本布局的招募而来的设计师手工设计。
此外,作者在论文中还给出了从测试参与者那里得到的反馈。作者表示,这些参与者在评论本文方法天生的排版结果时说:「令人惊异的是,自动天生的版面看起来如此靠近于设计师制作的杂志封面和真实的杂志封面。」「一些结果彷佛便是设计师做的。」他们认为我们天生的版面中笔墨颜色好看,整体与图像和谐。「时尚主题的衬线字体看起来非常和谐。」这些参与者也给出了一些建议,例如该当给「刊头」更多的灵巧性。此外,他们还建议,如果能够掌握每个字符的字体大小,效果可能会更好。由此,作者表示在后续事情中,会考虑将本文方法扩展到其他类型的媒体中,如海报,以使文本元素在空间上更加灵巧。
4、电路设计中的 AI
这篇文章关注的是电路设计中的 AI 问题[4]。稠浊旗子暗记集成电路无处不在。虽然目前可以用成熟的 VLSI CAD 工具来赞助数字旗子暗记的设计,但仿照旗子暗记设计还是要依赖有履历的人类专家来完成。履历丰富的专家或者设计师可以借助学习型的自动化工具来进行设计,但是,由于设计流程冗长繁芜,纵然对付他们来说,借助工具进行设计也不是一件随意马虎的事情。设计职员须要首先对拓扑构造进行剖析,并推导出性能指标的打算公式。由于仿照电路具有高度非线性的特性,以是在拓扑剖析过程中须要进行大量的简化和近似处理。在得到全部打算公式 / 方程的根本上,打算出初始值。然后,再进行大量的仿真、参数微调,以知足性能指标的哀求,终极输出设计结果。由于设计空间大、仿真工具运行速率慢、不同性能指标之间的权衡处理繁芜,全体过程会非常耗费人力和韶光。近年来,晶体管自动定型(Automatic transistor sizing)引起了越来越多关注。目前,紧张研究内容都集中于在单个电路上确定晶体管的尺寸。关于探索将电路设计的知识或方案从一种拓扑构造转移到另一种拓扑构造,或从一种技能节点转移到另一种技能节点以减少设计开销的研究则非常有限。
受强化学习(Reinforcement Learning,RL)的迁移学习能力启示,本文提出了一种能够实现知识迁移的电路设计方法(GCN-RL Circuit Designer),如图 19 所示。首先在电路上演习一个 RL agent,然后运用相同的 agent 在新的技能节点 / 拓扑构造上对新的电路或相同的电路进行大小调度。这样一来,就可以在不从头设计的情形低落低仿真本钱。
电路也可以看作是一个图,受此启示,作者在优化循环中利用拓扑图,可以使优化循环过程并不是黑盒。为了充分利用电路的拓扑图信息,作者提出给 RL agent 配备一个图卷积神经网络 (Graph Convolutional Neural Network,GCN) 来处理电路中元件之间的连接关系。作者表示,本文是第一个利用 GCN 的 RL 在不同的技能节点和不同的拓扑构造之间进行知识转移的事情。
图 19. 基于图卷积神经网络的自动晶体管尺寸强化学习。
4.1 方法剖析
作者将仿照电路拓扑构造固定的晶体管尺寸问题表述为一个边界约束的优化。
个中, x 为参数向量,n 为搜索的参数数目,D^n 为设计空间,优化目标为效益图(Figure of Merits, FoM)。作者将 FoM 定义为归一化性能指标的加权总和:
个中,m_i 为测得的性能指标,(m_i)^min 和(m_i)^max 为预先定义的归一化因子,用于对性能指标进行归一化处理,以担保其知足取值范围哀求。(m_i)^bound 是预先定义的性能上界。w_i 是调度第 i 个性能指标主要性的权重。对付一些电路基线,存在着必须要知足的性能规范(Performance specification,spec),如果不知足这些规范,则给 FoM 赋负值。
完全的方法框架如图 20 所示。在每一次迭代中,(1) 将电路拓扑嵌入到一个图中,图中节点是元件,边是导线;(2) 电路环境为每个晶体管天生一个状态向量,并将带有状态向量的图 (带有圆圈节点的图) 通报给 RL agent;(3) RL agent 处理图中的每个节点,并为每个节点天生一个动作向量。然后,agent 将带有节点动作向量的图 (指带有方形顶点的图) 通报给电路环境;(4) 电路环境将动作规范化为参数,并对其进行细化处理;(5)仿照电路;(6)打算 FoM 值并反馈给 RL agent 更新策略。
图 20. 方法框架图。
本文利用 actor-critic RL agent。critic 可以被认为是电路仿照器的一个可区分模型。agent 根据模型探求性能最优的点。
状态空间(State Space)。RL agent 逐个组件处理电路图。对付拓扑图 G 中具有 n 个元件的电路,第 k 个元件的状态 s_k 定义为:s_k=(k, t, h),个中 k 是晶体管指数的 one-hot 表示,t 是元件类型的 one-hot 表示,h 是元件的选定模型特色向量,它进一步区分不同的元件类型。对付 NMOS 和 PMOS,利用的模型参数是 V_sat, V_th0, V_fb, μ_0 和 U_c。对付电容和电阻,将模型参数设置为 0。例如,对付一个有四个不同种类(NMOS、PMOS、R、C)的十个元件和一个五维模型特色向量的电路,第三个元件(一个 NMOS 晶体管)的状态向量为:
对付不雅观测向量 s_k 中的每一个维度,我们通过不同分量的均匀值和标准差对它们进行归一化处理。
动作空间(Action Space)。由于搜索所需的参数不一样,以是不同类型的组件的动作向量也不一样。对付第 k 个元件,如果是 NMOS 或 PMOS 晶体管,其动作矢量拟定为(a_k)^MOS =(W, L, M),个中 W 和 L 为晶体管栅极的宽度和长度,M 为复用器。对付电阻器,其动作矢量公式为:(a_k)^R = (r)。个中,r 为电阻值。对付电容器,其动作矢量公式为:(a_k)^C = (c)。个中,c 为电容值。作者利用一个连续的动作空间来确定晶体管的尺寸,这是由于利用离散动作空间会失落去相对顺序信息同时离散空间过大。
褒奖(Reward)。褒奖是 FoM。它是归一化性能指标的加权和。在默认设置中,所有的指标都是同等权重的。
为了将图毗邻信息嵌入到优化循环中,作者利用 GCN 来处理 RL agent 中的拓扑图。如图 21 所示,一个 GCN 层通过聚合来自其邻居节点的特色向量来打算每个晶体管的隐蔽表示。如果堆叠多个 GCN 层,一个节点就可以吸收到间隔很远的节点的信息。在本文框架中,作者运用了 7 个 GCN 层,以确保末了一层在全体拓扑图上有一个全局接管场。
GCN 层可以表述为:
拓扑图 G 的毗邻矩阵(A)加单位矩阵(I_N)
一个特定层的可演习权重矩阵,与图 21 中共享权重相呼应
图 21. 多层 GCN 的强化学习 agent。
actor 和 critic 模型的架构略有不同(图 21)。actor 的第一层是所有组件共享的 FC 层。critic 的第一层是一个共享的 FC 层,有一个特定组件的编码器来编码不同的动作。actor 的末了一层有一个组件特定的解码器来解码不同动作的隐蔽激活,而 critic 有一个共享的 FC 层来打算预测的褒奖值。作者设计这些特定的编码器 / 解码器层是由于不同的组件有不同类型的动作(参数)。actor 末了一层的输出是每个组件的预设参数向量,范围为[-1, 1]。作者对它们进行去归一化和细化处理,以得到终极的参数。
关于技能节点间的迁移问题,如图 22 所示,专家或设计工程师首先从一个节点中继续拓扑构造并打算初始参数,然后反复调度参数、仿真并剖析性能。本文方法可以将这一过程自动化,在一个技能节点上演习一个 RL agent,然后凭借不同技能节点之间相似的设计事理,直接应用演习好的 agent 去搜索不同技能节点下的同一电路。
关于拓扑间的迁移问题。如果不同的拓扑构造具有相似的设计事理,也可以在不同的拓扑构造之间进行知识转移,比如两级跨阻放大器和三级跨阻放大器之间。修正 GCN 中的状态向量,将 k 修正为一维索引值(one-dimension index value),而不是 one-hot 索引向量(one-hot index vector)。这样一来,在不同的拓扑构造中,每个分量的状态向量的维度保持不变。
图 22. 知识迁移。
4.2 实验剖析
作者通过实验证明了本文方法实现 Three-TIA 上技能节点之间的知识迁移。作者将在 180nm 上学到的设计迁移到 45nm、65nm、130nm 和 250nm 上,学习曲线见图 23。agent 在 180nm 上进行演习,并迁移到较大的节点 250nm 和较小的节点 130nm、65nm 和 45nm 中,以验证其广泛的有效性。经由 100 个热身步骤后,有知识迁移的 FoM 迅速增加,末了收敛在比没有知识迁移更高的水平。
为了验证将所学的知识从一种拓扑构造迁移到另一种拓扑构造的能力,作者选择了 Two-TIA 和 Three-TIA,由于它们都是跨阻抗放大器,因此有一些共同的知识,学习曲线见图 24。GCN-RL 一贯比 NG-RL(即 non-GCN RL,未利用 GCN 的 RL)得到了更高的 FoM。在没有 GCN 的情形下,NG-RL 的 FoM 与没有迁移的方法勉强处于同一水平,这解释利用 GCN 从图中提取知识是至关主要的,GCN 提取的图信息有助于提高知识迁移性能。
图 23. Three-TIA 上技能节点之间的知识迁移。将在 180nm 上学到的设计转移到 45nm、65nm、130nm 和 250nm 上。
图 24. Two-TIA 和 Three-TIA 之间的知识迁移。
5、文章小结
设计是一种有目标有操持的进行技能性的创作与创意活动,以是设计是一种与人类抽象思维能力高度干系的任务,在设计中引入人工智能就更具寻衅。
我们在这篇文章中详细磋商了人工智能在构造设计、产品设计、电路设计、排版版面设计中的运用。个中,构造设计和电路设计中的运用方法较为相似,都是将设计问题转化为数学问题,然后对数学中的离散或连续变量进行建模并剖析。排版版面设计任务与文本识别、图像合成高度干系,紧张是通过套用模板、设计色彩实现排版。产品设计则是指运用生理丈量学来理解用户的设计感知,为后续的设计周期天生反馈,并逐步更新机器学习模型以适应在线运用中用户偏好的快速变革的设计过程。
在设计中引入人工智能,能够利用人工智能的影象能力、学习能力、打算能力不断地探索并找到最佳的设计方案。如何更合理地对设计问题进行建模和剖析,如何根据不同设计问题的特点找到最适宜的 AI 方法,还有待更深入的研究和磋商。
【本文参考引用的文献】
[1] Chaeibakhsh S , Novin R S , Hermans T , et al. Optimizing Hospital Room Layout to Reduce the Risk of Patient Falls, 2021. https://arxiv.org/pdf/2101.03210.pdf.
[2] Chaehan So. Human-in-the-Loop Design Cycles – A Process Framework that Integrates Design Sprints, Agile Processes, and Machine Learning with Humans. The first International Conference on Artificial Intelligence in HCI 2020. https://arxiv.org/ftp/arxiv/papers/2003/2003.05268.pdf.
[3] Wang Hanrui, Yang Jiacheng, et al. Learning to Design Circuits NIPS‘18 .https://arxiv.org/pdf/1812.02734.pdf.
[4] Wang, Hanrui, Wang, Kuan, et al. GCN-RL Circuit Designer: Transferable Transistor Sizing with Graph Neural Networks and Reinforcement Learning. The 57th Design Automation Conference (DAC) 2020. https://hanlab.mit.edu/projects/gcnrl/
[5] Yang Xuyong, Mei Tao. Automatic Generation of Visual-Textual Presentation Layout. ACM Transactions on Multimedia Computing, Communications, and Applications, Volume 12, Issue 2. https://dl.acm.org/doi/10.1145/2818709.
[6] Novin, R. S., Taylor, E., Hermans, T., and Merryweather, A. (2020). Development of a novel computational model
for evaluating fall risk in patient room design. HERD: Health Environments Research & Design Journal.
[7] EO: IDEO Human-Centered Design Toolkit. 2nd Edition, (2008). https://doi.org/10.1002/ejoc.201200111.
[8] Mikko Kuhna, Ida-Maria Kivel¨ a, and Pirkko Oittinen. 2012. Semi-automated Magazine Layout Using Content-based Image Features. In Proceedings of the 20th ACM international conference on Multimedia (MM’12). ACM, ACM, New York, NY, USA, 379–388.
[9] Ali Jahanian, Jerry Liu, Qian Lin, Daniel Tretter, Eamonn O’Brien-Strain, Seungyon Claire Lee, Nic Lyons, and Jan Allebach. 2013. Recommendation System for Automatic Design of Magazine Covers. In Proceedings of International Conference on Intelligent User Interfaces. ACM, 95–106.
剖析师先容:
本文作者为仵冀颖,工学博士,毕业于北京交通大学,曾分别于喷鼻香港中文大学和喷鼻香港科技大学担当助理研究员和研究助理,现从事电子政务领域信息化新技能研究事情。紧张研究方向为模式识别、打算机视觉,爱好科研,希望能保持学习、不断进步。
本文系作者个人观点,不代表本站立场,转载请注明出处!