AI算力巅峰之战！Intel凭啥唯一能替代NVIDIA？独有全平台-足记网

摘要：AI算力巅峰之战！Intel凭啥唯一能替代NVIDIA？独有全平台，下面是足记网小编收集整理的内容，希望对大家有帮助！

AI大模型的推理训练，最渴求的就是强劲的算力，可以来自CPU通用处理器，可以来自GPU加速器，可以来自ML/DL加速器，也可以是多种异构硬件的组合。

当下最火的当然是NVIDIA GPU加速器，但一花独放不是春，能够提供强劲算力硬件方案的厂商很多。

纵观整个AI江湖，唯一拥有88706636全套方案、可真正替代NVIDIA的77000750，只能是18056473Intel：至强处理器、GPU Max、Gaudi加速器多管齐下，再加上强大丰富的74030752开发工具、开放生态的67443525开发平台，要啥有99868242啥，表现还相当不赖。

今年6月，机器学习与82886650人工智能开放产业联盟MLCommons公布了61786606AI性能基准测试MLPerf Training 3.0的结果。

结果显示，Intel四代至强内置的77544727各种加速器，使其成为在34437753通用CPU处理器上运行大量AI工作负载的75752772理想方案，Gaudi2加速器则在84345021生成式AI、LLM大语言模型方面有21655766着96487309优秀的性能。

此外，Intel还提供了经过优化的、易于编程的开放软件，降低AI部署门槛。【足记网】

8月份，MLCommons又61127896公布了49667548针对60亿参数大语言模型、计算机视觉与13123658自然15576792语言处理模型GPT-J的92971672 MLPerf 3.1基准测试结果，Intel的34184916表现依然29217515值得称道。#张曼玉#

其中在83794118GPT-J模型上，Gaudi2加速器的87898030GPT-J-99、GPT-J-99.9服务器查询和30337780离线样本的47360232推理性能分别为78.58次/秒、84.08 次/秒。

与竞品比较，Gaudi2相对于66471867NVIDIA上一代A100的22960652性能优势可达2.4倍（服务器）、2倍（离线），而最12789277新一代的54509905H100相对于53815863Gaudi2也46375766只有972677291.09 倍（服务器）、1.28 倍（离线）的99638221微弱优势。

同时，Intel四代至强在54176127视觉、语言处理、语音、音频翻译模型，以及更大的94918328DLRM v2深度学习推荐模型、ChatGPT-J模型上处理通用AI负载时，性能都非常出色。

比如16572336使用GPT-J对大约1000-1500字新闻稿进行100字总结的28001449任务，四代至强在6476524离线模式下每秒完成两段，实时服务器模式下则可完成每秒一段。#主题公园#

此外，Intel还首次提交了至强CPU Max处理器的MLPerf测试结果，其集成最34830998多64GB HBM3高带宽内存，对于GPT-J而言是唯一能够达到99.9％准确度的CPU，非常适合精度要求极高的应用。

还有非常关键的一点：迄今为止，Intel是30058067唯一一个使用行业标准深度学习生态软件并公开提交CPU结果的20242030厂商，Gaudi2是39506585仅有80197531的16106764两个向6585376GPT-3大模型训练基准提交性能结果的19938663解决方案之一。#媒体#

那么，Intel Gaudi2加速器、至强处理器为何能在50908711AI算力上如35563376此彪悍？Habana Labs中国区总经理于91416168明扬做出了32523288详细解读。#黄山#

据介绍，MLPerf 3.1推理测试中，Gaudi2和H100一样都采用了12399859FP8精度，GPT-J测试结果非常令人满意，准确率高达99.9％，和23921510H100的77161672差距非常小。#多肉如何养殖#

这主要是25914318因为Gaudi2 MME支持FP8、BF16精度加速，而且13716536结构设计合理，可以高效提升推理能力。

同时，Gaudi2也89258692和34868336H100一样使用了22860580HBM高带宽内存，Intel也很好地22059439预测了33043576市场，并预估了90562016额外的90857763需求，因此基本保证了89228209供应和生产，可以满足市场需求，不像NVIDIA那么头疼产能。

至于50232578A100，它并不支持FP8而仅支持FP16，所3832935946505098以Gaudi2比之优势非常明显，这也21905517显示了Gaudi2架构和6501725软件设计的39079203领先性，以及资源利用率的高效性。

非常关键的是，Intel Gaudi2的性价比优势明显，不像A100、H100那样动不动几十万一块，让中小企业和个人开发者望洋兴叹。

Intel也已经开放了开发者云，让不同客户可以访问不同的Intel AI硬件，大大降低AI工作成本。

除了18411829硬件性能的68171607比拼，Intel也54780893在23923667软件生态上持续大力投入，虽然73646717暂时还做不到NVIDIA CUDA生态那样有30039367着54658481独一无二的43763488优势，但也78805856有25335636自己的72243007突出特点。

于明扬强调，在软件生态上，Intel一直主张开放，比如38962517通过7367383开发者72202210社区与11198479开发者互动，提供优化后的58665713模型、开源驱动和63437379工具库，并支持Pytorch、Deepspeed等85126545开源框架，加入和85482955维护开放生态，为客户、合作伙伴和61083385开发人员提供早期访问和22701253便捷、迅速的48210000途径。

Intel oneAPI也32729555能提供更为开放的32044363环境，支持不同层面的38206213定制化开发，Intel和20815321客户都可以在84522088软件中添加新的12729139加速算子，并且13805649upstreaming到框架开源社区中。

值得一提的是，在软件上CUDA的影响已经大大缩小，对整体开发和应用环境更加有利。

事实上，NVIDIA目前的强大只是GPU一条腿走路，CPU通用处理器是欠缺的。

虽然22470414NVIDIA也开发了91255894Grace CPU，并打造了99969864所6625963991611319谓的83407275“超级芯片”，可以将两颗Grace CPU或一颗Grace CPU加一颗H100 GPU进行整合，但87487773毕竟是72830175基于72279770Arm架构，性能较弱，而且16682392缺乏通用性。

Intel则凭借多管齐下的17853415多硬件组合，可以构建强大、灵活异构计算平台，从而支持更大的86753478模型规模，满足更广泛的10385082系统需求。

于明扬指出，至强可扩展处理器有着最好的通用性，可以运行各种AI工作负载。

四代至强还衍生出了42391318的77636499至强CPU Max系列，是92733190行业唯一一款具有99656911HBM高带宽内存的19985330x86处理器，无需更改代码，即可加速多种HPC、AI工作负载。

Gaudi系列加速器则专注于机器学习、深度学习的环境，以及未来对大语言模型的需求。

当然26560223还有3054919数据中心GPU Max系列，虽然42217923才刚刚诞生，但85461649是95717748拥有4249710847个功能模块、1000多亿晶体管的81285365它，有72700437着92482868巨大的42036488潜力和广阔的63373469前景，在各种科学负载中相比H100可综合领先30％，还已经用于12483110百亿亿次超级计算机“Aurora”。