​要我说,人工智能还得看英特尔

2023-12-23 08:33 来源:网络 点击:

要我说,人工智能还得看英特尔

2023 年 12 月 15 号,英特尔发布了第五代英特尔至强可扩展处理器(以下简称第五代至强),大幅度强化了在人工智能方面的表现,为此还特意请了二手玫瑰乐队来热场。对于了解人工智能行业或者了解 CPU 的人来说会耐人寻味,因为在人工智能领域中,GPU 往往才是那个起决定性作用的,英特尔作为 CPU 的代表,为什么会也强调人工智能的表现呢?

对于人工智能企业,通常会以服务器搭载的 GPU 来决定其性能。这是因为当下人工智能所使用的神经网络非常复杂,想要计算出一个完整且靠谱的结果,就需要将一个大任务划分成多个小任务,再同时执行,这种方法称作是并行计算。另一方面,由于多个任务同时执行,那就需要更多的节点加入到整个计算的过程中,也就是分布式计算,常见的分布式计算框架包括 MapReduce 和 Spark 等。

将上述两种计算方法综合在一起,再加上数据结构和软件优化,就是人工智能领域总是挂在嘴边的密集计算。GPU 具备大量的并行计算核心,可以同时处理多个数据并行任务。此外,GPU 对图像、视频等非传统数据结构的密集型任务处理效果更好。再加上 GPU 还有高效的内存访问模型(比如 HBM3 和 GDDR6),就让更多的人工智能企业只在乎 GPU 而忽略了 CPU 的重要性。

诚然,GPU 肯定是有 GPU 的好处,但事实上 CPU 亦是不可或缺,乃至至关重要的一环。让我们把麦克风交给英特尔,看看这位 CPU 老牌厂商是怎么做的。英特尔发布的第五代至强,单从平均性能上看,比第四代至强高出了 21%。

第五代至强更新了几个重要的方向,以加速人工智能密集计算。第一个就是高级矩阵扩展(英特尔 AMX),支持 INT8 和 BF16 这两种数据类型的深度学习训练和推理。INT8 是指使用 8 位二进制表示整数的数据格式。在人工智能领域,INT8 被广泛用于量化模型和低精度推理,以提高计算效率和减少存储需求。相比于更高位数的整数或浮点数,INT8 占用更少的内存空间,可以减少数据传输和存储的消耗。虽然 INT8 表示的数值范围较窄,但在许多人工智能应用中,精度要求相对较低,使用 INT8 可以在不显著降低模型性能的情况下大幅提高计算速度。

BF16 就更厉害了,这是一种浮点数格式,使用 16 位二进制表示浮点数。它在位数上比较接近于传统的半精度浮点数(16 位),但在指数部分和尾数部分的位分配上有所变化。BF16 在人工智能领域中用于深度学习模型的训练和推理,尤其是在使用混合精度计算(Mixed Precision)的情况下。相比于传统的单精度浮点数(32 位),BF16 可以在减少内存消耗的同时,保持对模型参数和计算结果的较高精度。它是一种平衡了计算性能和精度需求的浮点数格式。

那么回到刚才提到的,数据结构是构成密集计算的关键,支持更多种类的数据结构就会提高密集计算的效率。这是 CPU 在人工智能方面性能升级的核心之一。第五代至强第二点更新是寄存器的带宽以及加装了两个 FMA 单元。

寄存器(Register)是计算机体系结构中的一种存储器件,用于存储临时数据和指令操作数。寄存器位于 CPU 内部,是与 CPU 内部数据通路直接连接的高速存储器。与内存相比,寄存器具有更快的访问速度和更低的延迟。寄存器带宽越高,性能就越好。

FMA(Fused Multiply-Add)单元是一种计算单元,用于同时执行多个浮点数乘法和加法操作。它是现代 CPU 的一个重要部分,用于实现高性能的浮点数运算。FMA 单元可以用较低的延迟和更高的吞吐量进行浮点数乘加运算。FMA 单元可以在一次指令周期内执行一个乘加操作,利用了乘法和加法之间的数据依赖性。这种乘加操作常用于矩阵乘法、向量加权和神经网络的计算等任务中,可以加速复杂的数值计算。

说了这么多产品的技术那么回到性能层面,第五代至强相较于第四代至强在推理方面的性能提升了 42%,自然语言处理的性能提升了 23%,图像分类和目标检测性能提升了 24%,运行参数量在 200 亿以下的大语言模型时,能够实现词元处理时延低于 100ms。

英特尔努力给谁看?

我要是英特尔我肯定选择摆烂,因为 CPU 的工作方式是指令解码和执行,通过从内存中获取指令,并将其解码成可执行的操作。在拿到任务以后,分配给其他单元,比如算术逻辑单元、控制单元等。有点像是工地上的工头,分配工人们搬砖、砌墙。

CPU 的优点是极强的单线程执行能力、灵活、以及高可编程性。可这些优点在人工智能的密集计算中并不是很需要,这也是为什么我刚才说 " 如果我是英特尔,那我会开始摆烂 "。毕竟逆风局,打得太累了。可英特尔之所以继续加把劲,原因在于英特尔的战略规划。

这时候就要搬出这张图了。

英特尔产品规划图

这张图描述的是英特尔至强处理器产品的规划,从 2024 年开始,产品线会增加一倍,分别为 P-core 至强和 E-core 至强。P-core 指的就是高性能,E-core 指的就是低功耗。就从起名方式来看,也知道下一代至强 E-core 版有多么特殊。从 2017 年的第一代至强开始,其代号分别为天湖、喀斯喀特湖、库珀胡、冰湖、蓝宝石急流、翡翠急流、花岗岩急流,都是水相关的。而下一代至强 E-core 叫做 Sierra Forest。

Sierra 并不是英语,而是西班牙语,意思为山脉。比如 Sierra Nevada 就是内华达山脉的意思,那么 Sierra Forest 就是山地森林的意思。那我考考你,如果你是一个大型人工智能企业,你有很多预算,如果英特尔推出了下一代至强产品,你应该买更高性能的 P-core 版,还是更低能耗的 E-core 版?

这是一个很反直觉的事情,答案是 E-core。大规模客户往往已建立好服务器集群,服务器跟 3C 产品不一样,企业客户换代不需要频繁更新换代,但是会替换一些过时的服务器产品以填补人工智能领域的算力需求。这时候性价比更高的 E-core 给了大规模客户更多的选择空间,能用更少的预算达到相同的目标,而且大规模的服务器集群,维护成本是指数级上涨的,低能耗的产品就意味着运维成本更低。事实上,一台服务器从采购到报废,90% 的成本,甚至可以说 99% 的成本都是运维。

另外一点,第四代至强和第五代至强采用的制程都是 Intel7。说到这里补充一个冷知识,包括英特尔内部人员在内仍有很多人分不清,Intel7、Intel4、Intel3,代表的不是咱们说的 3 纳米、4 纳米和 7 纳米,而是英特尔独有的制程规划。Intel7 和 10 纳米差不多、Intel4 和 7 纳米差不多。从规划图中可以看到,下一代至强直接跳过了 Intel4,直接使用 Intel3。虽然现在还不清楚 Intel3 制程的具体参数,不过可以猜到,应该会比 2023 年所有高精尖芯片的性能都要强。

芯片制程越小,CPU 能耗就越低,这也正是当下所有人工智能,尤其是大型人工智能企业最需要的。再加上 E 核和 P 核的战略,可以明显看出英特尔在 2024 年主打一手专门针对人工智能企业强化销售,进而提高企业收入。

回到第五代至强,既然英特尔很清楚怎么提高人工智能时代下的销售额,那么首先就需要给市场打一针强心剂,或者说用产品来给企业定性。让英特尔的客户以及潜在客户明白,即使步入了人工智能领域,GPU 当道的局面,你照样得需要一颗 " 灯,等灯等灯 " 的 CPU。英特尔在 15 日发布会上强调无数次,说 2023 年是 AIPC 的元年,这可不是随口找个 slogan,综上所述,人家可是真的这么玩的。