智东西(公众号:zhidxcom)文 | 心缘

谷歌用AI设计AI芯片!6小时完成芯片构造速度碾压人类专家_结构_芯片 AI简讯

智东西4月24日,谷歌用人工智能(AI)设计芯片又有新进展!
在昨日新发布的预印本论文中,谷歌团队描述了一种深度强化学习方法,能在6小时内完成芯片布局设计,而完成相同设计步骤,人类专家每每要花费数周韶光。

人工智能的快速发展得益于打算机系统和硬件的显著进步,但随着摩尔定律趋缓,天下须要新的硬件架构来知足指数级增长的算力需求。

然而,芯片常日须要数年的韶光来设计,芯片设计专家不得不预测未来2-5年的机器学习(ML)模型对芯片的需求,大幅缩短芯片设计周期将使硬件更好地适应快速发展的人工智能领域。

谷歌研究职员相信,AI将供应缩短芯片设计周期的手段,在硬件和AI之间建立一种共生关系,彼此推动彼此的进步。

与原有方法不同,谷歌的新算法能从过去的履历中学习,并随着韶光的推移而改进。
特殊是当演习更多芯片块(block)时,其算法能快速地为以前从未见过的芯片块天生优化的设计。

研究职员表示,相较当前最高水平的基线,这一方法可以使真正的AI加速器(谷歌TPUs)达到更好的功率、性能和面积(PPA)。

这项研究适用于任何芯片布局优化,如果该技能可公开利用,那么它将使现金短缺的初创公司能够开拓自己的芯片用于AI和其他专门用场。
它还可以帮助缩短芯片设计周期,从而使硬件更好地适应快速发展的研究。

该研究的论文题目为《芯片布局与深度强化学习 (Chip Placement with Deep Reinforcement Learning)》,Azalia Mirhoseini和Anna Goldie为共同作者。

论文链接:https://arxiv.org/pdf/2004.10746.pdf

一、占领芯片设计最耗时的环节

在芯片设计中,全局布线是最繁芜和耗时的阶段之一,须要在日益繁芜的电路中进行多目标优化。

在这项新研究中,研究职员提出了一种基于深度强化学习的芯片布局方法,目标是将宏(如SRAM)和标准单元(逻辑门,如NAND、NOR和XOR)的网表节点映射到一个芯片画布(一个有界的2D空间)上,从而优化功率、性能和面积(PPA),同时遵守对布局密度和布线拥塞的约束。

这些网表图的大小范围,从数百万到数十亿个节点不等,常日评估目标指标须要数小时到一天的韶光。
只管对芯片布局问题已研究几十年,人类专家仍旧须要用现有的布局工具迭代数周,才能产生知足多方面设计标准的办理方案。

为了破解这一寻衅,谷歌研究职员提出将芯片布局视为一个增强学习(RL)问题。
研究职员称,这是第一个具有泛化能力的芯片布局方法,它能利用从以前布局网表中学到的东西来为从未见过的新网表天生优化的芯片设计方案,从而为芯片设计职员带来了新的可能性。

研究职员表示:“我们的方法可以直接优化线长、密度和拥塞等目标指标,而不必像其他方法一样定义这些功能的近似值。
我们的公式不仅使新的代价函数在可用时易于整合,而且还使我们能够根据给定芯片块的需求(如功耗受限)来权衡它们的相对主要性。

据论文先容,其新领域适应策略不仅产生了较好的效果,而且与从零开始的演习策略比较,演习韶光缩短了8倍。

二、用10000个芯片布局演习模型

谷歌研究职员采取深度强化学习的方法,包含状态、动作、状态转移、褒奖四个关键要素,通过演习一个智能体通过累计褒奖最大化来优化芯片布局。

初始状态有一个空的芯片画布和一个未布局的网表,末了的状态对应于一个完备布局的网表。
真实的褒奖是一个商业EDA工具的输出,包括线路长度、布线拥塞、繁芜度、功率、韶光和面积。

智能体在每个步骤中布局一个宏,一旦布局了所有宏,标准单元格就会利用逼迫定向的方法来放置。
褒奖是近似的线路长度和拥塞的线性组合,被打算并通报给代理来优化它的参数,以便下一次迭代。

由于强化学习策略须要10万个示例才能有效地学习,因此褒奖函数的评估速率必须非常快,最好在几毫秒内运行,且这些近似的褒奖功能也必须与真实的褒奖有正干系。
因此研究职员定义了线路长度和布线拥塞的近似代价函数,通过加权和将多个目标合并成一个单一的褒奖功能。

根据论文描述,谷歌研究职员提出一种新的神经网络架构,能演习领域自适应策略的芯片布局。

演习这样一个策略网络是一个具有寻衅性的任务,由于包含所有可能放置的所有可能的芯片的状态空间是巨大的。
此外,不同的网表和网格大小可能具有非常不同的属性,包括不同数量的节点、伟大小、图形拓扑以及画布的宽度和高度。

为了应对这些寻衅,研究职员首先集中学习状态空间的丰富表示。
其直觉是,一个能够跨芯片迁移布局优化的策略网络架构,也该当能够在推理时,将与一个未被创造芯片干系的新状态,编码为一个故意义的旗子暗记。

因此,谷歌研究职员建议演习一个能够预测新网表褒奖的神经架构,天生输入网表的丰富特色嵌入,然后利用这个架构作为其策略和代价网络的编码器,以支持迁移学习。

▲策略和代价网络架构

嵌入层对当前给定网表要放置的毗邻、节点特性、宏信息进行编码,然后策略网络输出可用放置位置上的概率分布,而代价网络则输出当前放置位置的预期褒奖估值。

在实践中,上述智能体从空芯片开始依次布局组件,直到完成网表为止,直到智能体波长(与功率和性能干系)的负加权总和和拥塞为负值时才收到褒奖。
为了辅导智能体选择首先布局哪些组件,按大小递减的顺序对组件进行排序,首先布局较大的组件,可减少往后没有可行布局的机会。

演习该监督模型需创建一个包含10000个芯片布局的数据集,个中输入是与给定布局干系的状态,而标签是布局的褒奖(即线长和拥塞)。
研究职员通过首先选择五个不同的芯片网表来构建这个数据集,并用AI算法为每个网表创建2000个不同的布局位置。

在实验中,合著者报告说,当他们在更多芯片上演习框架时,他们能够加快演习过程并更快地产生高质量的结果。

三、6小时天生芯片布局,支持迁移学习

在实验评估阶段,研究职员着重评估几个问题:新方法是否使领域转移和从履历中学习成为可能?演习前的策略对结果的质量有什么影响?与最前辈的基线比较,天生布局的质量如何?

1、预演习策略优于从零演习策略

下图比拟了利用预演习策略和从零开始演习策略所产生的设计质量,包括zero-shot以及在2小时和12小时内对预演习策略网络的详细设计细节进行调度的结果。

▲领域适应结果

从图中可以看出,预演习策略网络始终优于从零开始演习的策略网络,证明了从离线演习数据中学习的有效性。

策略网络从零演习须要更永劫光收敛,乃至24小时后的收敛效果还不如收敛12小时的微调策略网络,解释权重和专家设计履历有助于在更短韶光内实现更高质量的新设计。

上图显示了从零开始演习与从Ariane RISC-V CPU预演习策略网络演习的收敛图。
预演习策略网络在微调过程开始时布局代价较低,且能收敛到更低代价,比从零开始演习的策略网络快30多小时。

2、更大数据集能产生更好布局效果

演习数据集从内部TPU块创建,由各种块组成,包括内存子系统、打算单元和掌握逻辑。
当将演习集从2个块增加到5个块,末了增加到20个块时,zero-shot策略网络和微调策略网络在相同的韶光内均能产生更好的结果。

▲布局代价与微调韶光及数据集大小的关系

研究职员在三个不同的演习数据集上对策略网络进行预演习,个中小数据集是中等数据集的子集,中等数据集是大数据集的子集,然后在相同的测试块上对预演习策略网络进行调度,并在不同的演习期间报告代价。

随着数据集大小的增加,天生的布局质量和测试块的收敛韶光都有所提高。
下图显示了在每个数据集上演习的策略的评估曲线,对付小的演习数据集,策略网络在测试数据集上快速地超拟合演习数据和性能;对付最大的数据集,策略网络须要更长的韶光来拟合,且在这个更大的数据集上,预演习的策略网络在测试数据上能更快产生更好的结果。

▲不同大小数据集的收敛情形(每个点显示了演习策略天生的布局代价)

这表明,如果将策略网络供应更多不同的芯片块时,可能须要更长的韶光来进行预演习,策略网络变得不易过度拟合,并且更善于为新的未知块找到优化的布局位置。

3、可视化芯片布局比拟

下图显示了开源处理器Ariane RISC-V CPU的布局结果。
左边是zero-shot策略网络的结果,右边是微调策略网络的结果。

▲可视化布局

zero-shot的结果是在推理期间于一个以前未见过的芯片上产生的。
zero-shot策略网络将标准单元置于画布的中央,周围环抱着宏,已经非常靠近于最佳布局。
微调后,宏的位置变得更有规律,中央的标准细胞区域变得更不受滋扰。

▲随着演习进行,开源处理器Ariane的布局(左边是从头开始演习策略,右边是针对该芯片的预演习策略,每个矩形代表一个单独的宏位置。

下图左边是人工布局的结果,右边是谷歌新方法的布局结果。
白色区域为宏位置,绿色区域为标准单元位置,新方法在标准单元周围创建环状的宏布局,从而减少总线长。

4、不到6小时完成芯片布局设计

在本节中,研究职员将其新方法与仿照退火(Simulated Annealing)、RePlAce和人工布局方法进行比较。

谷歌的新方法,在最大的数据集(20个TPU块)上利用预演习策略,然后在块1到5表示的5个目标不可见块上对其进行微调。
比较仿照退火算法须要18个小时来收敛,而谷歌端到真个学习方法耗时不超过6个小时。

研究职员进行多次仿照退火实验,结果显示,仿照退火算法很难产生高质量的芯片布局,较谷歌新方法均匀线长增加14.4%,拥塞率增加24.1%。

▲谷歌新方法与仿照退火方法的实验结果比拟

RePlAce的收敛速率更快,能在1-3.5小时内收敛,谷歌新方法则须要3-6小时来完成。

▲谷歌新方法与RePlAce方法、人工布局方法的实验结果比拟(表中所有指标越低越好)

但比较最前辈的RePlAce,谷歌新方法在天生知足设计哀求的布局方面性能更优,其紧张优点包括:能很随意马虎地优化各种不可微分的本钱函数,而不须要转换封闭形式或与那些本钱函数等价的可微分形式;当有更多芯片块时,该新方法的性能会随着韶光推移而改进;遵守对布局密度和布线拥塞的约束。

结语:新方法可拓展到芯片设计的其他环节

总体来看,谷歌这项新研究提出了一种基于深度强化学习的芯片布局方法,支持迁移学习,能产生比现有最前辈方法性能更优的芯片布局,并且能在6小时内完成人类专家须要几周才能完成的设计。

研究职员提到,其新方法只是领域适应策略优化的一个例子,它可以被拓展到芯片设计的其他阶段,比如架构和逻辑设计、合成和设计验证。
基于学习的方法还可以在组成芯片设计过程的任务级联中进一步探索设计空间和协同优化。

原文来自:Google AI

感谢阅读。
点击关注上船,带你浪在科技前沿~