镕铭微电子VPU 极致降本增效实践_成本_芯片

2024-08-02 05:36:18 AI简讯

文/蔡媛Amy

镕铭微电子VPU 极致降本增效实践_成本_芯片 AI简讯

编辑/LiveVideoStack

大家好，我是镕铭微电子办理方案架构团队卖力人的蔡媛 Amy，本次分享的题目是镕铭微电子VPU极致降本增效实践，紧张先容在生产实践中，如何利用镕铭VPU产品在规模化运用中帮助客户实现极致降本增效，给大家带来新的运用方案和启示。
我会从以下几个方面进行先容：

-01-

镕铭微电子公司及产品先容

NETINT是一家专注于新型智能存储和***/图像编解码办理方案的科技公司，在海内的上海、北京、济南，加拿大的温哥华和多伦多都设有研发中央。
NETINT自主设计的VPU可供应基于ASIC的超大规模、超高密度、超低延迟的***办理方案，我们的***转码器产品已被环球浩瀚顶级大公司所利用。

镕铭微电子的义务是为云和数据中央供应强大的算力，长期愿景是成为天下上最好的数据中央芯片公司。
我们的产品紧张包括***处理芯片VPU和软硬件结合的***处理办理方案，前者在功能上供应***编解码能力，赞助***编解码的AI处理能力以及2D图像引擎的处理能力，后者包括三种产品形态，第一种是VPU做事器板卡，第二种是搭载芯片的***处理一体机，第三种是基于***处理一体机的端到端***办理方案。

镕铭微电子是***处理芯片 VPU 定义者和***处理方案创新企业，镕铭微电子设计出了多款高度创新的芯片产品，被广泛运用于云数据中央、边缘打算公司及媒体内容供应商，最大程度地降落***处理和数据储存的本钱。
VPU产品技能位居环球第一，并且已经成功研发两代芯片，第一代产品已经在环球头部客户处大规模验证和运用支配，同时也是数据中央大芯片领域的创业公司中出货量最大的独角兽企业。

图中展示了两代产品，第一代是Logan芯片，对应Codensity T408单芯片产品和T432 4芯片产品，于2019年发布并量产。
同时具备U.2/AIC的形态，来适配兼容不同型号的做事器。
U.2形态的编解码卡，和2.5寸 NVMe SSD的形状一样，可以直策应用NVMe SSD的卡槽。
除外，大部分做事器都具备PCIe卡槽，可以利用AIC形态的编解码卡。

第二代是Quadra芯片，基于Quadra发布了T1A、T1U和T2A产品，在外洋的客户已有过万片的支配，这两代芯片无论是在运用性、稳定性还是在实际业务中都经由了客户规模化支配的验证。

-02-

镕铭微电子VPU增效降“本”实践

鉴于目前环球经济形势处于下行状态，我会重点先容“增效降本”部分。

NETINT VPU是面向数据中央和边缘打算设计的***/图像编解码处理芯片。
那么，常日对付面向数据中央的芯片，在大规模运用支配的时候，须要考虑的几个主要成分：包括性能、本钱、同构性、稳定性。
性能便是字面意思，我们须要关注峰值性能、均匀性能等。
比如人工智能芯片，我们会非常关注他的打算能力(吞吐量):常日关心的是32位浮点打算能力。
做推理预测的话也可以用8位整数，我们会关注INT8 的打算能力。
显存大小:当模型越大,或者演习时的批量越大时,所须要的GPU内存就越多。
对付CPU来说，我们关注芯片供应的核数，芯片的频率。
对付VPU 而言，由于紧张供应的是***/图像的编解码处理，以是性能上紧张是指芯片可以并发处理的编解码的路数、协同做***处理的AI打算能力、编码延迟水平(最大延迟/均匀延迟)等。

而本钱和我们本日谈论的降本增效是直接干系的，本钱包括TCO（整体拥有本钱）、人力本钱以及时间本钱。

图中列举了VPU系列产品性能，T408 吞吐支持8路1080P/30fps，功耗是所有产品中最低的，只有7W，而国产人工智能芯片的功耗大致在70w-100w，对付CPU，高配CPU的功耗大概是240w，比拟下来，T408功耗相称低，它支持H.264/H.265 转码。
T432是4芯片产品，相称于T408 4倍能力，相称于32路。

2022年发布的Quadra系列，其特点是性能相对付T408提升了4倍，单芯片支持32路1080P，T2产品是两芯片的Quadra，可以支持64路1080P30。
Quadra还支持8K/60fps单路的实时转码，T2相称于支持两路的1080P/60fps的实时转码。
Quadra的功耗是20w，在编解码标准上，Quadra增加了支持VP9的解码标准及AV1的编码标准，外洋的运用快于海内，比如META、Google，尤其是前者超过70%的流量走AV1。
海内头部公司目前更多以H.265标准为主。

图中展示的是Quadra关键的***处理单元，包括编码模块、解码模块、AI推理引擎、2D图像处理引擎，以及可用于音频处理的DSP模块。
芯片集成的AI 推理引擎，与***编/解码器集成于同一芯片上，这可以让用户在同一个芯片上实现一些繁芜的AI赞助编码，比如ROI赞助编码，窄带高清编码、在同一芯片上完成AI推理，编解码所有数据处理流程，这将极大地提升事情效率并显著减少延迟。

我们是环球首款基于可打算存储架构的VPU，专门为数据中央和边缘打算所设计，利用NVMe协议作为主机到硬件加速器的设备接口。
NVMe是非易失落性内存接口协议，旨在用于基于PCIe的存储设备，例如SSD（固态磁盘），它还可以扩展到支持可打算型存储。
这样的上风包括免驱动，能够避免许多与做事器的兼容性问题，同时达到更好的延迟和数据交流能力。

除了性能之外，大家还会非常关注编码的比殊效力，Quadra的比殊效力在快速档上能够达到Fast和Medium之间的水平，在慢速档能够达到H.265 Slow的水平。

行业中较好的H.265软件编码器，在Super Fast档位上，开到4个线程，8K分辨率时能够达到17fps，之后纵然线程数增加，其fps也无法随之提高，且CPU利用率也无法达到满载利用率。
以是要用软件编码器实现8K/60fps，须要在转码系统上实现比较繁芜的并发架构。
而利用Quadra硬件编码器，就能够实现单芯片8K/60fps实时转码，并且单线程达到92%以上的loading，这是VPU在高分辨率***处理上的极大上风。

在画质处理的比拟结果上，相较于Nvidia T4硬件编码器，在类似档位lookahead-4，相同的PSNR下能够节省23-25%的码率，rdo开到3时，可以进一步将码率节省提高30-31%。

另一个编解码的主要指标是延迟，Quadra的延迟比拟T408有了更高的提升，1080p的编码延迟大概是4ms，这是单路延迟，将路数提升到32路，延迟也只增加1-2ms，大概是5-6ms，对付互动型运用如云游戏、RTC等，其QoE及QoS参数极易受延迟影响。
图中可以看到Nvidia T4延迟大概是Quadra的两倍，H.264大概是三倍，达到15ms旁边，X.265大概是20多倍，靠近100ms，当然这都是开源的H.264及H.265，但纵然比拟行业内优化非常好的软件编码器，两者的差距也达到3-4倍。

最大延迟相差更明显，这是由于软件编码器的延迟颠簸相较于硬件编码器来说大很多。
下图显示Quadra的延迟颠簸基本处于稳定状态，而延迟稳定对付云游戏等场景非常主要，颠簸较大时会影响客户体验，码率和延迟不能溘然增大，显然Quadra能够更好知足需求。

性能和本钱息息相关，在打算本钱时须要考虑哪些成分？以直播场景为例，直播全体业务流程包括内容生产、内容处理、内容分发及内容播放，编解码卡位于内容处理环节，除了本身的打算本钱，其码率也会影响到内容分发的CDN本钱及打算/存储本钱。

打算本钱时须要考虑密度、折旧及功耗：

①密度：如一台32查究事器，单个做事器只能跑6路旁边的H.265 1080P30FPS转码，条件还是行业内较精良的软件编码器。
64个thread的做事器可以跑12路，128个thread能够跑24路。
对付T408而言，在一台机器插上24个U.2卡，能够实现整机跑200多路，密度是原来的20/30倍。

②折旧本钱：如一台64核(vCPU)做事器加上编解码卡后，整机本钱并不会上升很多，但其密度能够提升20倍旁边，这便降落单路折旧本钱。

③功耗本钱：功耗会影响机柜本钱支出，一个16A机柜能够容纳7台400-500w的机器，插上卡后，单个机柜能够容纳的机器数量并不会有明显变革，但其整机可运行的密度能够提升许多。

除了打算本钱外，还有分发本钱和存储本钱，影响两者的成分是比殊效力。
Quadra H.265在VITS2021SmallSet dataset 基准测试集上, 最高挡的rdo level的配置下相对fast挡位能够得到8.9%的码率节省，相对付medium挡位得到4.1%的码率节省。
对付直播冷流来说，利用VPU产品紧张是为了降落转码的打算本钱。
但对付热流而言，利用VPU高画质模式可以在带宽和存储本钱上得到更大的收益。

本钱还包括人力本钱，即接入所付出的人力代价，T408和Quadra都基于FFmpeg架构，为用户供应FFmpeg框架的lib，客户只需接入libavcodec的API即可整合现有的FFmpeg流程，无需对现有的架构做太大变更。
部分用户会基于NETINT供应的Libxcoder API。
在接入上和X 264/X265类似，并供应了极为灵巧的编码掌握，场景的定制参数。
此外，在规模化运维时，为用户供应了运维工具及线上debug工具，以便帮助用户快速排查问题。

-03-

镕铭微电子VPU规模化支配实践

我们是数据中央大芯片领域出货量最大的独角兽公司，接下来为大家先容大规模支配的干系实践。

规模化支配须要考虑两点，第一是同构性，如何将一张编解码卡与现有的根本举动步伐进行大略的兼容，并在现有的算力如现有的做事器根本上进行算力扩展，从而方便地接到系统簿上进行算力扩展。
第二是稳定性，也便是说在进行规模化支配时，硬件、固件/软件层的稳定性如何？

在兼容性上，我们采取的是NVMe协议，是免驱动的，一样平常来说，Windows、Linux、Android系统都会自带稳定高效的NVMe驱动程序，在装编解码卡时无需用户装驱动，我们基于NVMe 1.3的协议，能够向下兼容。
在系统支持上，我们能够较好兼容Windows、Linux、Android，U.2产品还支持热插拔。
规模化扩容方面，能够利用现有存储机型直接插上U.2的Quadra或T408，将一台只有几路的做事器扩展为支持200路或300路编解码卡的做事器。

而传统驱动须要自动定义其驱动程序，并存在对不同操作系统的兼容问题，尤其是Windows系统的兼容更为困难，在规模化支配时，会凸显稳定性干系的问题，如掉卡，无法识别卡等。
我们采取的NVMe接口及驱动能够极大程度避免此类问题的发生。

关于同构性，我们供应U.2和AIC形态的卡，可以进行选择而无需配件转换，U.2和NVMe SSD的形态及协议都同等，能够复用机型。

此外，我们的功耗非常低，单卡T408是7W，单卡的Quadra U.2是20W，一样平常情形下插上卡后，一个机柜原来是7个做事器，现在还是7个做事器，不须要改动机架，这样有利于机器的运维。

图中右侧是Quadra的AIC形态，我们同时了供应做事器整机方案，展台有7张卡的做事器样例。

算力扩展能力利用的是NVMe over fabric协议，通过高速的网卡实现做事器之间的高速数据通道，纵然做事器和卡不在一台机器上，也可以实现低延迟高数据带宽的连接和访问。

这是规模化落地的实例，左图是在外洋的24U.2，联合SuperMICRO供应的T408做事器整机。
右图是做事器利旧实例，利旧一样平常采取T408，其规模化稳定性支配已经非常成熟。

在大规模支配过程中，大家可能会考虑到硬件或固件稳定性，比如接入业务后会不会导致业务有损。

在硬件稳定性上，我们有Spike/Lt-loop/DCpower反复过万次的稳定性验证、超负载、过热保护等稳定性验证，进行了严格的跌落测试，做出掉卡率、坏卡率 SLA承诺以及RMA流程承诺，从而担保问题的闭环。

在固件稳定性上，我们经由了数万片线上规模化支配验证，对解码场景能够达到业界最好的兼容性支持，并且有超7w个test case支持固件升级。

-04-

Quadra硬件智能极速高清产品

大家该当非常熟习极速高清产品，如阿里的窄带高清，腾讯的极速高清等，我们的产品也是基于AI技能与图像处理技能，通过深度学习网络，对***画面进行感知，优化主不雅观体验，追求较好的人眼感想熏染，节省带宽。

而不同于其他极速高清产品，Quadra基于硬件芯片的AI推理引擎及编码做无缝合营，从而达到更好的处理效率和规模化运用的本钱上风。

图中比拟了Quadra的处理流程和传统处理流程

传统处理流程是在***输入后通过解码，到CPU进行处理，再给到CPU/GPU做推理运算等前处理，再给CPU做后处理，再给到硬件/软件做编码，全体流程实际上非常繁芜，延迟无法达到最好的效果，而且本钱较高。

Quadra AI Enhance流程都在卡内完成，在卡内解码，将数据推到AI推理引擎、编码器再输出***，相较于传统流程来说大略了许多，无需主机侧参与，利用Quadra本身的AI打算单元实现端到真个***质量优化。

我们专注于VMAF，提升人眼主不雅观效果。
图中是处理前后效果比拟，可以看到利用极速高清后的VMAF能够提升14%旁边，Quadra还具备极强的场景泛化能力。

在本钱方面，首先，云做事对极速高清的定价是普通媒体处理的4倍，本钱昂贵。
通过Quadra以及供应的极速高清开关可以实现25%的转码比例，在无额外本钱下支持极速高清，并且主不雅观效果提升明显，大概达到4K@60FPS、1080P@240FPS及720P@480FPS的极速高清性能。
我们希望帮助客户将历来本钱高企的AI增强***产品带入到规模运用中。

以上是本次的分享，感激！

▲扫描图中二维码或点击“阅读原文” ▲

查看更多

LiveVideoStackCon 2023上海站精彩话题