阿里云根本举动步伐大打算集群部总监 曹政

阿里巴巴的AI“发动机”是它_集群_阿里巴巴 绘影字幕

在“阿里云磐久液冷根本举动步伐”专场,阿里云根本举动步伐大打算集群部总监曹政表示:“高算力集群是推动AI运用发展的发动机,集群体系架构一贯在创新,阿里巴巴从2018年开始研发AI集群,为AI业务供应超大规模算力。
通过实践和总结,我们认为算力的供给、集群的设计,应从运用出发。

阿里巴巴AI算力规模化支配运用实践

2018年阿里巴巴开始研发AI集群,2019年建成0.5 EFlops(TF32)的单GPU集群,2021年已经升级到“万卡”规模,峰值算力达到了1.5 EFlops(TF32)。
AI根本举动步伐的持续投资保障了算力供给,更为AI技能发展供应了充足的“动力”。
结合内部三年多超大规模AI集群运用实践,阿里巴巴给出了规模化运用AI集群的最优方案。

运用需求是集群设计的指挥棒

阿里巴巴业务场景丰富多样,涵盖视觉、图像、语音、推举、搜索等多类型AI运用,向外延伸还有医疗康健、数字化社会等综合型运用。
以金融为例,部分金融场景的AI业务须要快速实现模型收敛来完成演习,须要为异构算力部件拓展网络资源。
而自动驾驶领域则是HPC和AI的叠加,可同时知足大量的仿照仿真和AI需求。

不同的算力集成方案,可以在精度、加速器运用、通讯需求等方面有很大的差异,因此,我们对AI的集群架构提出了针对性的软硬件设计方案。

软硬协同“合而为一” 开释峰值算力

在AI集群层面,通讯的碰撞是打算延迟的紧张来源,除了架设集群通信的“高速公路”外,还须要进行合理的通讯调度,避免“堵车”。
阿里巴巴通过自研通信库,结合自研硬件,对“万卡”规模的AI集群供应无拥塞、高性能的集群通讯能力。

在一些AI打算任务里,我们创造GPU耗费了大量韶光在等待数据加载,真正的打算韶光只有很少一部分,不仅影响打算任务的处理时长,也造成严重的打算资源损耗。
为办理这个问题,阿里巴巴对AI打算特色进行挖掘,预测数据的最优路径,提提高行“数据预热”。
在超大规模集群中,也可以做到资源倍增,打算加速一倍的效果。

AI集群中,GPU是非常主要的异构算力硬件,阿里巴巴通过自研的GPU资源虚拟化技能,对GPU资源进行细粒度切分、调度,以充分开释GPU算力,并且同时具备升级本钱极低的特点。
经由实际运用验证,GPU虚拟化使资源利用率提升3倍,节省60%+的GPU资源。
不仅如此,虚拟化能力在兼容国产供应链方面也具备主要意义。

充足的算力,合营机器学习平台PAI,为AI构建了十分友好的发展环境,使阿里巴巴AI运用百花齐放的同时,也为超级模型等技能探索供应了有力的支撑。

一起向前,算力的发展方向

无人驾驶、自然措辞、图像识别……算力不仅为AI运用供应发展“动力”, 在科研领域也将发挥更加巨大的代价。

科学家正在利用AI技能,更高效地对蛋白质的三维折叠构造进行预测,为新一代的疾病防治和药物开拓进行探索;AI也正在地质监测、即时景象预测、乃至是暗物质探索等多学科的科研课题中发挥越来越主要的浸染。

相信在不远的未来将进入“第五打算范式”时期,通过多种异构处理器运用和打算系统架构设计,供应差异化算力,为不同的运用处景供应针对性的算力方案。

打算类型

打算特点

高性能打算(HPC)

精确打算科学

大数据(BigData)+AI

数据科学+模糊打算科学

大数据(BigData)+AI+高性能打算(HPC)

数据科学+模糊打算科学+精确打算科学

注:HPC(高性能打算)“第三打算范式”,大数据“第四打算范式”,HPC+AI+大数据“第五打算范式”

中国工程院院士、清华大学郑纬民教授最近在《公民邮电报》撰文指出:算力和数据是元宇宙和数字经济发展的根本,算力是元宇宙的根本要素,也是衡量数字经济发展的晴雨表。
未来,云打算将推动算力成为像水电一样的根本资源,并以做事的形式直接赋能给终极用户。
(正文完)

阿里巴巴的AI“发动机”,是它!