为什么英特尔® 至强® 处理器转向支持人工智能

为什么英特尔® 至强® 处理器转向人工智能

June 21, 2019

Kenton Williston

第二代智能英特尔至强可扩展处理器

人工智能无处不在。即使是像麦当劳这样通常与尖端技术无关联的公司也在投资人工智能，因为它希望借此为每位客户提供个性化的菜单。

这就是为什么第二代英特尔^® 至强^® 可扩展处理器（以前代号为 Cascade Lake）如此专注人工智能和机器学习的原因。具体来说，这些 CPU 采用了全新的英特尔^® Deep Learning Boost（英特尔^® DL Boost）功能，与上一代处理器相比，可将这些工作负载的性能提升高达 4 倍。

内在原理

英特尔 DL Boost 的核心是英特尔^® AVX-512 矢量神经网络指令（英特尔^® AVX-512 VNNI）。这四个新指令加速了卷积神经网络的内部循环。方式是什么？将三个指令压缩成一个操作（视频 1）。

视频 1。新指令通过组合以前单独的操作来提高性能。（来源：英特尔^®）

其他新功能包括支持英特尔^® 傲腾^™ 数据中心级持续型内存（可显著提高每个系统的可寻址 RAM 总量）以及针对边信道攻击的全新安全增强功能。此外，新芯片与上一代芯片完全兼容，更易于部署所有新功能。

计算机视觉，医疗成像

DL Boost 等功能为计算机视觉带来了明显的好处。第二代智能英特尔至强可扩展处理器可以在边缘执行实时推理，也可以在服务器后端处理更深入的分析。目标识别和分类、人脸识别、交通监控和数据分析都能以更快的速度在新硬件上运行。

这些处理器在医学成像方面也有优势。它们可以加速分析，提高准确性，甚至通过减少图像拍摄量来减少病人接触的辐射。

在这个领域，通常会使用 GPU，但这些解决方案面临着严重的内存限制。医疗图像的大小有的已超过 1GB，而且还会更大。如此大的文件会超出 GPU 卡的板载 VRAM 容量。

由于支持英特尔傲腾数据中心级持续型内存，全新的英特尔至强处理器就能克服这一限制。基于此全新架构的系统支持高达 4.5TB 的内存（1.5TB 的 DRAM + 3TB 的傲腾），因此能轻松处理大型图像。

当然，这些只是人工智能的几个用例。其他应用包括智能工厂、油气田、电网等领域。

快速入门

我们有多个现成的系统，可供想快速部署这些功能的开发人员选择。例如，Mercury Systems 在其 6U OpenVPX EnsembleSeries HDS6605 中使用了新 CPU（图 1）。此服务器搭载 22 核英特尔至强金牌 6238T 处理器（1.9GHz 主频、3.7GHz 睿频和 125W TDP）。

图 1. EnsembleSeries HDS6605 高度坚固耐用。（来源：Mercury）

HDS 6605 的独有特性之一是 Mercury 赋予产品的安全性和耐用性设计。例如，Mercury 将 CPU 的 LGA3647 插接口换为了焊接 BGA 接口。通过这一调整，Mercury 的产品就能采用更小的外形，但坚固耐用，性能也更高。

对于公司来说，在数据中心平台上提供最先进的功能并不罕见。但是，HDS6605 通过强化服务器设计的各个方面，将这些功能带到了几乎任何环境中。我们非常想知道开发人员将如何利用这种无处不在的人工智能和机器学习性能。

HDS6605 的目标工作负载包括图像识别、雷达处理和传感器融合。传感器融合是指将来自多个传感器的数据组合起来，如视觉光谱相机、红外相机、雷达和其他传感器组合。

引领人工智能的趋势

人工智能和机器学习的应用已经在快速增长。Mercury 期望将全新英特尔至强处理器的人工智能处理能力与其平台生命周期长的特性相结合，来加速这一趋势。

有了 Cascade Lake 在人工智能推理工作负载方面的性能改进，就能在事件发生时直接实时处理数据并做出决策，而不是事后在异地执行同样的分析。

第 2 代至强可扩展处理器支持人工智能和深度学习功能，有远见者可以利用这一点，在未来占得先机。从人脸和语音识别到使用人工智能诊断疾病，我们能做的改进非常多。

想要研究人工智能的开发人员应该了解一下英特尔^® Distribution of the OpenVINO^™ 工具套件。该套件支持使用 BigDL、Caffe、MXNet 和 TensorFlow 等创建的深度学习训练模型。当完成构建和训练后，开发人员可以将这些模型部署到第 2 代至强可扩展 CPU 上，从而利用 DL Boost 的推理优势。