在当今时期,高性能打算(HPC)和人工智能/机器学习(AI/ML)事情负载的需求进步神速。
这些事情负载对打算资源的需求极为弘大,须要成千上万的CPU或GPU核心同时运行,并且在完成任务后又须要迅速开释资源。
演讲者指出,当打算实例从10个扩展到100个、1000个乃至10000个时,对存储的吞吐能力需求也会进步神速。
空想情形下,存储的吞吐能力应该与打算实力保持线性扩展关系,但现实中存储每每成为HPC和AI/ML事情负载的瓶颈之一。

运用亚马逊云科技高机能存储加速HPC和AIML工作负载_亚马逊_数据 绘影字幕

为办理这一问题,亚马逊云科技供应了两种紧张的高性能存储办理方案:Amazon FSx for Lustre和Amazon S3。
Amazon FSx for Lustre是一款并行的高性能共享文件系统,紧张面向文件接口。
它采取独特的架构设计,由多个存储做事器组成,每个做事器都供应独立的网络、缓存、存储和磁盘介质资源。
当客户端访问数据集时,数据会险些均匀地分布在各个存储做事器上,从而实现资源和带宽的弹性扩展。
通过横向扩展存储做事器,FSx for Lustre能够线性扩展存储空间、带宽和IOPS。
根据不同的存储做事器规格,单个文件系统的吞吐量可达数百GB/s,IOPS可达数百万级。

FSx for Lustre还具有按需调度吞吐量的特性。
以一个地震数据处理案例为例,全体流程分为13个阶段,前三个阶段是I/O密集型,须要高带宽,而后续阶段则倾向CPU/GPU打算密集型。
在这种情形下,FSx for Lustre可以在不移动任何数据的情形下,将带宽从高规格的500MB/s/TB调度到低规格的125MB/s/TB,从而节省本钱。

另一个主要特性是FSx for Lustre与S3的无缝集成。
由于大部分客户的数据都存储在S3数据湖中,FSx for Lustre能够透明地从S3获取所需数据,也可以将中间结果如检讨点(checkpoint)自动上传到S3进行持久化存储,对前真个打算实例完备透明。
因此,FSx for Lustre被设计为HPC、机器学习和大数据剖析等数据密集型运用的空想文件系统。

一项内部测试显示,在一个Kaggle机器学习任务中,利用FSx for Lustre作为中间层访问S3数据,比较直接从S3***数据,第一次运行演习韶光减少了67%。
如果是第二次运行,由于FSx for Lustre已经缓存了数据,演习韶光进一步缩短至83%,展现出其卓越的加速能力。

壳牌(Shell)公司利用EC2集群和FSx for Lustre扩展了其云端打算能力,构建了稠浊云环境。
借助FSx for Lustre,壳牌能够充分利用GPU资源,提高利用率。
另一家公司Netflix则利用FSx for Lustre加速了大规模机器学习演习,将原来一周的演习韶光缩短到1-2天,整体性能提高3-4倍,险些肃清了GPU的空闲韶光。

除了FSx for Lustre,亚马逊云科技还供应了S3工具存储做事。
越来越多的客户将数据存储在S3数据湖中,并直接从S3访问数据进行HPC和AI/ML事情负载。
之以是将数据存储在S3,一方面是由于S3供应了多种存储种别,可根据数据生命周期优化存储本钱;另一方面,亚马逊也在不断开拓高性能组件来提升S3的性能,如Monport for S3、Amazon Common Runtime等,后者能将S3的访问速率提高5-6倍。

去年,一家名为TII的公司在亚马逊云上利用4000个Nvidia A100 GPU演习了一个拥有1800亿参数的大型措辞模型FileCount。
它们的做法是直接从S3***数据到本地,加载到GPU内存中进行演习,并将检讨点保存回S3。

为进一步提升S3的性能,在2022年的reinvent大会上,亚马逊推出了S3 One Zone,这是一种全新的高性能低延迟工具存储。
S3 One Zone通过重构S3的每个模块,采取底层措辞如Rust、更快的存储介质和校验技能,实现了个位数毫秒级的稳定低延迟、百万级每分钟要求数,比较标准S3,性能提升10倍。

S3 One Zone采取单一可用区架构,将打算和存储资源支配在同一可用区,减少了跨可用区网络延迟。
它还支持基于Session Token的快速授权模式,以及分层索引,每个存储桶可支持数十万并发要求,肃清了S3著名的每个前缀下3500个要求的限定。

一项机器学习演习任务的测试比拟显示,在标准S3上,由于GPU涌现I/O等待,利用率会涌现波峰波谷;而在S3 One Zone上,GPU利用率保持在稳定的高水平,整体演习韶光从15天缩短到14天,节省了大量GPU资源。

S3 One Zone紧张面向对延迟敏感的交互式运用、快速数据注入、虚拟数据渲染、机器学习演习、快速数据处理等场景。

那么,对付大模型演习,我们该当选择FSx for Lustre还是S3 One Zone呢?从本钱上看,FSx for Lustre按TB收费,而S3 One Zone则与标准S3一样,按存储容量和API调用收费。
从功能上看,FSx for Lustre供应完全的POSIX语义实现,而S3 One Zone有两种利用办法:传统的***到本地,或利用Monport for S3将S3 Bucket映射到本地目录,但后者不是完全的POSIX实现,可能会涌现一些运用程序报错。

从带宽和延迟角度比较,FSx for Lustre供应亚毫秒级延迟和数百GB/s带宽,适宜分布式大规模演习数据集(TB/PB级);而S3 One Zone延迟小于10毫秒,带宽略低于FSx for Lustre,更适宜单机模型开拓调试、小规模演习数据集(GB级)以及对存储本钱敏感的大措辞模型演习。
详细来说,FSx for Lustre分为四个存储做事器规格等级,分别是125MB/s/TB、250MB/s/TB、500MB/s/TB和1000MB/s/TB,存储空间和带宽能够线性扩展。
例如,1000MB/s/TB等级在10TB时基线吞吐量为10GB/s,扩展到100TB时吞吐量为100GB/s,再扩展到1000TB时吞吐量为1000GB/s。

从易用性角度看,FSx for Lustre直接供应POSIX文件操作接口,而S3须要先***数据或利用流式读取办法。
不过,S3在多账号权限掌握方面更具上风,由于客户的数据和打算资源可能分散在不同账号,这时利用S3会更方便。

无论选择哪种存储方案,亚马逊都供应了多种高性能访问S3数据的办法。
在SageMaker平台上,可以利用FastFile模式进行流式读取;在EC2或EKS环境中,可利用Monport for S3;如果希望保持演习代码的高可移植性,可利用S3 Connector for PyTorch直接从代码中访问S3数据。

总的来说,亚马逊云科技为HPC和AI/ML事情负载供应了FSx for Lustre和S3 One Zone两种高性能存储办理方案,客户可根据不同的性能、本钱和易用性需求进行选择。
通过利用云存储的上风,客户能够充分发挥打算资源的能力,加速事情负载的实行,为创新注入新的动力。

下面是一些演讲现场的精彩瞬间:

演讲者诙谐地表示希望在演讲结束后有抽奖环节,以增加现场气氛的生动度。

亚马逊云科技为高性能打算和大模型演习供应了极致弹性和线性扩展的打算与存储能力,办理了存储瓶颈问题。

亚马逊云科技FSx for Lustre文件系统具有高度可扩展性,单个文件系统的吞吐能力可达数百GB/秒,数百万IOPS。

亚马逊云科技中国峰会2024:针对繁芜HPC事情负载,采取灵巧调度存储带宽的办法,优化本钱和性能。

亚马逊云科技中国峰会2024上,演讲者阐明了Amazon FSx for Lustre与Amazon S3的无缝集成,实现了数据在两者之间透明、双向传输,为客户供应了便利。

通过利用 FSx for Lustre,亚马逊云科技大幅优化了机器学习演习的性能,将演习韶光缩短了67%。

总结

亚马逊云科技高性能存储为 HPC 和 AI/ML 事情负载供应了强大的加速能力。
FSx for Lustre 是一款并行高性能文件系统,具有线性可扩展的吞吐量和存储容量,能够肃清存储瓶颈。
它与 S3 无缝集成,可透明地从 S3 获取数据,并将检讨点持久化到 S3。
另一方面,S3 Express One Zone 是一种新的高性能低延迟工具存储做事,相较于标准 S3 供应了十倍的性能提升,适用于延迟敏感的交互式运用、快速数据注入、虚拟数据渲染、机器学习等场景。

在选择 FSx for Lustre 还是 S3 Express One Zone 时,须要根据本钱、功能、带宽和延迟需求以及利用场景进行权衡。
FSx for Lustre 更适宜大规模分布式演习和 TB 或 PB 级数据集,供应完全的 POSIX 接口;而 S3 Express One Zone 则更适宜单机模型开拓、小规模集群演习和大措辞模型等场景,具有多账号权限掌握和数据共享的上风。
利用 S3 演习模型可采取传统***到本地的办法,或利用流式办法如 SageMaker Fast File Mode、Mount Point for S3 等,以保持代码可移植性。

总之,亚马逊云科技的高性能存储办理方案为 HPC 和 AI/ML 事情负载供应了卓越的性能和灵巧性,帮助客户加速事情负载、优化本钱并提高效率。

2024年5月29日,亚马逊云科技中国峰会在上海召开。
峰会期间,亚马逊环球副总裁、亚马逊云科技大中华区总裁储瑞松全面阐述了亚马逊云科技如何利用在算力、模型、以及运用层面丰富的产品和做事,成为企业构建和运用天生式 AI 的首选。
此外,活动还详细先容了亚马逊云科技秉承客户至尚的原则,通过与本地互助伙伴一起支持行业客户数字化转型和创新,供应安全、稳定、可信赖的做事,以及持续深耕本地、链接环球,助力客户在中国和环球化发展的道路上取获胜利。