人工智能芯片杀出一匹黑马:Kneron_英特尔_芯片 智能问答

随着边缘打算越来越受欢迎,许多大公司都致力于开拓人工智能事情负载专用芯片。
值得把稳的是,谷歌和英特尔等大品牌分别凭借Coral的Edge TPU和Movidius Myriad X VPU在市场上站稳了脚跟。

现在,一个新玩家杀进了这个领域,并声称要与该行业的一些大公司竞争。
总部位于加州的初创公司Kneron最近发布了KL720 AI SoC,他们称该SoC在速率、能效和本钱方面优于市场上的任何其他SoC。
为了证明这是否言过实在,我们动手对这款芯片与谷歌和英特尔的设备进行了比较。

边缘打算Coral Edge TPU芯片

Coral是谷歌开拓边缘打算平台的一个鲜为人知的项目。
用该公司自己的话来说,“Coral是一个用于构建具有快速神经网络推理功能的智能设备的软硬件平台。

Coral的设备的核心是Edge TPU(张量处理单元)协处理器是 Google 专门为在边缘运行 AI 而打造的 ASIC,它体型小、能耗低,但性能出色,让您可以在边缘支配高精度 AI。
ASIC是为最前辈的神经网络设计的,速率快,功耗低,Edge TPU 可实现高品质 AI 在边缘的广泛支配。

Edge TPU 不仅仅是一种硬件办理方案,它将定制硬件、开源软件和最前辈的 AI 算法结合在一起,为边缘供应优质、易支配的 AI 办理方案。

TPU以2瓦的本钱供应了4瓦的最大速率,使其功率效率为2瓦。
在功能方面,Edge TPU能够实行深度前馈神经网络(DFF),如卷积神经网络(CNN),这使得它对付各种基于设备视觉的机器学习运用程序非常有用。

这个芯片唯一头大的地方是它的可访问性。
谷歌不会将这些芯片卖给设计师;相反,它须要通过Coral的加速器模块集成。
这是一个表面安装模块(10毫米x 15毫米),包括Edge TPU和所有须要的电源管理与一个PCIe Gen 2和USB 2.0接口。
因此,虽然这可能供应了集成的便利,但它使设计者无法利用Edge TPU作为独立设备来实现他们独特的设计。

Edge TPU 是对 CPU、GPU、FPGA 以及其他在边缘运行 AI 的 ASIC 办理方案的补充

英特尔Movidius Myriad X VPU

在Intel的阵营中,我们将着眼于Movidius Myriad X虚拟处理单元 (VPU)。

根据Intel的说法,VPU的事情办法是将高度并行的可编程打算与特定事情负载的硬件加速耦合在一个独特的架构中,使数据移动最小化。
通过这种办法,它们能够实现功率效率和打算性能的平衡,使设备具有深度神经网络和基于打算机视觉的运用。

它可用于无人机、智能相机、VR/AR 头盔等设备的深度学习及其他人工智能视觉运用加速。
这款设备是继上个月英特尔基于 Myriad 2 处理器的 Movidius Neural Compute Stick 之后发布的又一新产品。
Movidius 表示,Myriad X 将会在同样功耗条件下供应 Myriad 2 十倍的深度神经网络(DNN)性能。

Myriad X 的强大之处在于 Movidius 引入了被称之为神经打算引擎(Neural Compute Engine)的新构造,这是一种片上 DNN 加速器。
Movidius 称,在该组件的帮助下,Myriad X 可以在 Myriad X 理论打算能力 4+ TOPS 的根本上达到超过每秒万亿次(TOPS)的 DNN 峰值吞吐量。

英特尔表示,这种芯片的运行速率一样平常可达4级,在进行深度神经网络推断时,其性能可达1级。
这样做的代价是最小的TDP为1.5瓦,因此该芯片的总体性能为2.67TOPS /瓦,DNN推理性能为0.67TOPS /瓦。

此外,Myriad X 还有四个 C 编程 128 位 VLIW 向量处理器,来自 Myriad 2 的可配置 MIPI 通道,以及扩展的 2.5 MB 片上存储器,更多固定功能的图像/视觉加速器。
像 Myriad 2 中的一样,Myriad X 的向量单元是针对打算机视觉事情负载优化的专门 SHAVE 处理器。
Myriad X 同样也支持最新的 LPDDR4。
在随附的发布***中,Movidius 通过核心图展示了 Myriad X 功能。

Myriad X 的另一个新功能是 4K 硬件编码,支持 30 Hz (H.264/H.265) 和 60 Hz (M/JPEG) 的 4K 硬件编码。
在接口方面,Myriad X 支持 USB 3.1 和 PCIe 3.0,两者对付 Myriad VPU 系列都是新功能。
所有这统统都在 Myriad 2 一样的2W 的包络功率内完成,更准确地说是 1W。

显而易见,Myriad X 很多相同的 Myriad 2 功率的额外性能彷佛来自其新的 16 FFC TSMC 进程节点。
在从 28nm 平面工艺缩小到 16nm FinFET 的情形下,Movidius 能够将功率节省投入到上升时钟(upped clock)以及更多的 SHAVE 处理器、加速器、接口和内存中,所有这些都具有相似的封装尺寸。
虽然英特尔确实有自己的晶圆厂,Movidius 表示在英特尔 2016 年的收购之前,Myriad X 已在良好研发之中,并且 16nm FFC 是选择的节点。
16nm FFC 迭代发生于在 28nm HPM 和 HPC 成为 Myriad 2 的范例表示之后。

Kneron KL720 NPU

末了,本文的主角Kneron的KL720 AI SoC。

该芯片的核心是Kneron的神经处理单元(NPU)。
NPU是专门为边缘设备设计的,他们先容在小区域内可供应高打算性能和低功耗。

KL720的功率为每瓦0.9次,最高可达1.5次。
该芯片还可以处理1080P的4K静止图像和***,并供应面部识别的3D传感功能。

它还为自然措辞处理运用程序供应了新的音频识别工具。

VPU vs. TPU vs. NPU

当比较这三种人工智能芯片时,我们看到了很多相似之处和不同之处。

除了不同的人工智能处理器(TPU, VPU, NPU)之外,这些芯片的性能也不同。
虽然英特尔的芯片可以达到4 TOPS,但它减慢了运行DNN推断。
这使得谷歌的Edge TPU成为三款中最快的——详细来说,是英特尔的四倍。
在推理速率方面,Kneron的芯片也超过了英特尔的芯片,最多能增加50%旁边。

在能效方面,谷歌胜出。
Edge的TPU为2 TOPS / watt,而KL720的TPU为0.9 TOPS / watt,英特尔的TPU为.67TOPS / watt。

然而,谷歌失落败的地方在于可访问性。
由于你不能购买去作为一个独立设备的Edge TPU,设计师不能将TPU单独纳入他的设计中。
从这个意义上说,Kneron流传宣传自己是市场上最大的竞争对手彷佛胸有成竹,由于它供应了比其他独立芯片(即英特尔的Movidius Myriad X)更好的能效和速率。

总的来说,这三款设备都是非常令人印象深刻的,它们将有助于引领边缘打算的未来。