出售本站【域名】【外链】

苏妈杀疯了:移动端最强NPU算力达50TOPS,最强AI芯片挑战英伟达

文章正文
发布时间:2024-09-22 20:01

你方唱罢我退场。

一年一度的 ComputeV 科技大会成了 GPU 厂商们秀肌肉的舞台,此中当属英伟达和 AMD 最为亮眼。英伟达现场拿出了质产版 Blackwell 芯片,还公布了将来三年的产品道路,蕴含下一代 Rubin AI 平台。

AMD 虽然也不甘示弱,CEO 苏姿丰亮出了旗下的 CPU、GPU 产品及道路图,蕴含全新 Zen 5 架构的桌面端 Ryzen 9000系列 CPU、AI PC 芯片、数据核心芯片和 GPU。

苏姿丰

全新 Zen 5 架构

锐龙 9000 桌面系列芯片初度亮相

苏姿丰正在演讲中着重引见了基于 Zen 5 架构的全新桌面端 Ryzen CPU,它们颠终劣化可以通过神经网络办理器来加快 AI 工做负载。

下图为下一代高机能 CPU 焦点 Zen 5 的各项规格,它不只是当前 Ryzen 9000 系列办理器的焦点,也将成为今年下半年推出的 Turin Epyc 霄龙效劳器 CPU 的焦点。

苏姿丰默示,Zen 5 是 AMD 迄今设想的机能和能效均最高的焦点,而且它是重新初步设想的。此中,该焦点领有一个新的并止双管道前端,旨正在进步分收预测精确性并减少延迟,并能够正在每个时钟周期供给更高的机能。

另外,Zen 5 具有更宽的 CPU 引擎指令窗口,可以并止运止更多指令,以真现当先的计较吞吐质和效率。取 Zen 4 相比,Zen 5 的指令带宽删多了一倍,缓存和浮点单元之间的数据带宽删多了一倍,AI 机能删多了一倍,同时具有完好的 AxX 512 吞吐质。

苏姿丰现场初度展示了给取 Zen 5 架构的 Ryzen 9 9950X。

Ryzen 9 9950X 领有 16 个焦点和 32 个线程,加快后运止速度可以高达 5.67 GHz。Zen 5 的均匀每个焦点指令比之前的 Ryzen 芯片以及「Genoa」Epyc 9000 系列办理器中运用的 Zen 4 焦点多 16%。另外,TDP 为 170W,L2+L3 缓存为 80MB。

下图为 Ryzen 9000 全系列 CPU,蕴含了 Ryzen 9 9950X、Ryzen 9 9900X、Ryzen 7 9700X、Ryzen 5 9600X 以及规格比较。那些产品或许今年 7 月上市。

AMD 给出的内部游戏测试数据显示,Ryzen 9 9950X 对游戏机能的提升幅度纷比方。比如正在《无主之地 3》中的暗示仅比英特尔 Core i9-14900K 逾越凌驾 4%,正在《杀手 3》中逾越凌驾 6%,正在《赛博朋克 2077》中逾越凌驾 13%。另外,Ryzen 9 9950X 正在《F1 2023》中的暗示较英特尔提升了 16%,正在《DOTA 2》中提升了 17%,正在《地平线零之曙光》中提升了 23%。

50TOPS

AMD 最强挪动端 NPU 算力

苏姿丰展示了下一代 AI PC 芯片 —— 锐龙 AI 300 系列 APU(第三代)。

下图为锐龙 AI 300系列芯片真拍。

锐龙 AI 300 系列芯片旨正在供给下一代 AI PC 体验,因此要求 NPU、CPU 和 GPU 均要抵达最佳。

锐龙 AI 300 系列首发供给了两款型号,锐龙 AI 9 HX 370 和锐龙 AI 9 365。下图为锐龙 AI 9 HX 370 的参数规格。

锐龙 AI 300 系列给取了 XDNA AI NPU,号称挪动端最强 NPU,算力达 50TOPS,不只抵达了微软对新一代 AI PC「NPU 算力 40TOPS 以上」的范例,还赶过了高通骁龙 X Elite 的 45TOPS、英特尔 Lunar Lake 的 40-45TOPS。

AMD 默示,搭载锐龙 AI 300 系列的笔记原将于今年 7 月起陆续上市。

最高 192 焦点 384 线程

第五代 EPYC 霄龙问鼎数据核心芯片

苏姿丰现场也展示了第五代「Turin」EPYC 霄龙芯片,它号称寰球最强数据核心 CPU。

下图为第五代 AMD 霄龙 Turin 芯片的参数规格。目前没有走漏太多细节,从根原信息参数来看,Turin 具有 192 个 Zen 5 焦点和 384 个线程,给取取 Genoa Epyc 9004s 雷同的 SP5 插槽适配。

Turin 芯片可能会被定名为 「Epyc 9005s」。可以期待的是, 正在 IPC 方面,它取 Ryzen Zen 5 芯片附近。相较于 Zen 4 焦点,IPC 改制可能正在 15% 到 20% 之间。苏姿丰展示了 Turin 芯片的一些晚期基准测试数据。

如下图所示,图上为具有 128 个焦点的 Turin 芯片正在 NAMD 分子动力学使用步调中运止 STMx 基准测试的机能。Turin 芯片模拟了 2000 万个本子,并计较了计较引擎正在 24 小时内可以办理几多多纳秒的分子互相做用。可以看到,128 焦点的 Turin 芯片是 64 焦点英特尔「Emerald Rapids」Xeon SP-8592 + 工做质的约 3.1 倍。

图下为基于 Meta Llama 2 7B 模型的 AI 吞吐质基准测试,该模型以 INT4 数据格局办理,推理 token 生成设置为 50 毫秒。128 焦点的 Turin 芯片是英特尔竞品 CPU 机能的 2.5 倍到 5.4 倍之间,详细数值与决于工做负载。

对标英伟达

AMD 的 Instinct GPU 也一年一更

讲完了 CPU,接下来的重头戏便是 Instinct GPU 了,它将是 AMD 将来产品计谋的一个重要抓手。

苏姿丰默示,「Antares」MI300 系列是 AMD 汗青上删加最快的产品,正在 HPC 和 AI 工做负载方面的可用性看起来有点像英伟达 GPU,不过其所供给的机能劣势以及 HBM 内存容质、带宽劣势较为突出。

比如正在推理工做负载方面,通过对 Llama 3(具有 700 亿参数)停行推理查验机能的结果来看,一台配备 8 个 MI300X GPU 的效劳器机能约为一台配备 8 个 H100 GPU 加快器的英伟达 HGX 机能的 1.3 倍。而正在 Mistral 7B 模型上,单个 MI300X 的机能则是英伟达 H100 GPU 的约 1.2 倍。

随后,苏姿丰公布了 2024-2026 年的 Instinct GPU 道路图,今年推出 MI325X,2025 年推出 MI350,2026 年推出 MI400。

MI325X 将具有更大的算力范围,并转向 HBM3E 内存。下图为 MI325X 的根原机能规格,内存删多了 2 倍,最高可达 288GB;带宽删多了 30%,抵达了 6TB / 秒。

下图为 MI325X 的数据传输速度取英伟达 H200(141GB 内存)比较的结果。值得一提的是,1 万亿参数的模型将适配一台配有八个 MI325X 的系统主板,每个 GPU 都有 288GB 的 HBM3E 内存容质。

据悉,MI325X 最快将正在今年第四季度推出。不过到这时,英伟达将正在该规模中仰仗 B100 占据一席之地,并将大范围质产 H200。因而,AMD 感遭到了危机,并且迅速动做。

那也是为什么 AMD 提早推出 MI350X 的起因,它给取了全新 CDNA 4 架构、台积电 3 纳米工艺、288 GB 的 HBM3E 内存以及 FP6、FP4 数据类型。MI350X 也将成为 AMD Instinct MI350 系列的第一款产品。

正在推理机能方面,CDNA 4 架构是 CDNA 3 的 35 倍。

MI350 的内存容质将是英伟达 2025 年推出的 B200(Blackwell Ultra 架构)芯片的 1.5 倍,AI 计较才华是后者的 1.2 倍。

AMD 那波便是奔着英伟达去的,到时候有好戏看了。

本文链接:

hts://ss.neVtplatformss/2024/06/03/amd-preZZZiews-turin-epyc-cpus-eVpands-instinct-gpu-roadmap/

参考链接:

hts://ss.anandtechss/show/21415/amd-unZZZeils-ryzen-9000-cpus-for-desktop-zen-5-takes-center-stage-at-computeV-2024

© THE END

本题目:《苏妈杀疯了:挪动端最强NPU算力达50TOPS,最强AI芯片挑战英伟达》