今日凌晨,在“AMD数据中心与人工智能技术首映会”上,AMD CEO苏姿丰介绍了数据中心APU(加速处理器)Instinct MI300的更多细节,以及第四代Epyc产品的更新内容。其中,最亮眼的莫过于最新发布的AMD Instinct MI 300X芯片,其集成的晶体管数量达到1530亿,并且拥有192GB的HBM 3(第三代高带宽内存),可处理的参数达到了400亿。
(资料图片仅供参考)
苏姿丰表示:“我们仍处于AI生命周期非常早的阶段,预计到2027年,数据中心AI加速器总潜在市场规模将增长5倍,从今年的300亿美元左右以超过50%的复合年增长率增长到2027年的1500亿美元以上。人工智能是塑造下一代计算的决定性技术,也是AMD最大、最具战略意义的长期增长机会。” 苏姿丰的这番话,被认为是AMD直面英伟达,欲通过“马拉松”,挑战后者在AI芯片领域的霸主地位,也向CPU领域的劲敌英特尔提出了挑战。
当前英伟达在AI芯片市场可以说是“如日中天”,每一位挑战者想要动摇其根基都并非易事。AMD作为英伟达的老对手,自然不会放任其独揽如此庞大且增速超快的市场,本次拿出的产品可以说是“性能炸裂”,并直接对标英伟达。
AMD Instinct MI 300X是一款专门面向生成式AI推出的加速器,可以加速ChatGPT等应用,用来对标英伟达的H100芯片。AMD Instinct MI 300X内部没有集成CPU内核,而是采用了8个GPU 芯粒(chiplet)加4个IO内存芯粒的设计,12个5nm芯粒封装在一起,使其集成的晶体管数量达到了1530亿,多于英伟达H100的800亿晶体管。
此外,这款芯片还集成了192GB的HBM 3,可以处理的参数高达400亿,可以加速大型语言模型和生成式AI计算,缓解内存压力。与英伟达的H100芯片相比,AMD Instinct MI 300X的HMB密度是前者的2.4倍,带宽则为前者的1.6倍,理论上可以运行比H100更大的模型。
AMD MI 300X 芯片与英伟达H100芯片性能对比图
苏姿丰还在现场演示了在单个MI300X芯片上运行拥有400亿个参数的Falcon-40B大型语言模型,让它写了一首关于旧金山的诗。据了解,AMD主要客户将在第三季度开始试用MI300X,第四季度开始全面生产。
同期推出的还有AMD Instinct MI300A,这是全球首款面向AI和HPC的APU,采用了5nm和6nm制程,集成24个Zen 4内核、CDNA3 GPU内核和128GBHBM3的设计,在13个芯粒上拥有1460亿颗晶体管,在设计上同时集成了CPU和GPU。与上一代的MI250相比,提高了8倍的性能和5倍的效率,可以将ChatGPT和DALL-E等超大型AI模型的训练时间从几个月减少到几周。
在数据中心CPU领域,AMD和英特尔一直争斗不断。本次AMD推出了对标英特尔的第四代EPYC。据苏姿丰介绍,新一代的AMD EPYC Genoa在云工作负载中的性能是英特尔同类处理器的1.8倍,在企业工作负载中的速度是英特尔处理器的1.9倍。
AMD第四代EPYC 9754与英特尔至强8490H的性能、密度和能效和对比
云原生产品Bergamo是一款高密度服务器CPU,苏姿丰表示,云原生处理器以吞吐量为导向,需要最高的性能、可扩展性、计算密度和能效,新发布的Bergamo便是云原生处理器市场的入口。据介绍,该芯片基于AMD的密度优化Zen 4c架构,全新的Zen 4C核心可以减少35%的面积,在每个CCD中可以提供的核心数量是Zen 4的两倍,在每个Socket中则能增加33%的核心。据悉,Bergamo提供了多达128个CPU内核,比AMD当前一代旗舰EPYC 9004 “Geona”芯片多32个内核。AMD希望Bergamo能与基于Arm架构的Ampere、Amazon等公司竞争,甚至与英特尔将在2024年推出的144核心的SierraForest正面较量。
AMD还展示了最新的缓存堆叠X芯片Genoa-X,该芯片基于AMD的标准Genoa平台,采用AMD 3D V-Cache技术,通过在每个CCD上垂直堆叠SRAM模块来提高可用的L3缓存,可提供多达96个内核和总计1.1GB的L3高速缓存,每个CCD上堆叠了一个64MB SRAM块。与英特尔最高规格的60核Sapphire Rapids至强相比,Genoa-X缓存将性能提升了2.2到2.9倍。
尽管本次AMD带来的新品各个性能爆炸,但业内对于本次AMD带来产品的反响却不是很好。
从当日资本市场表现看,AMD的“王炸”芯片并未得到投资者认可,截至当日收盘,AMD跌3.61%;而英伟达则涨3.90%,站稳万亿市值。赛迪顾问集成电路产业研究中心研究员邓楚翔向《中国电子报》记者表示,其原因可能有两点:一是,虽然本次AMD的MI 300X采用了更大的192GBHBM3,但英伟达的产品也在迭代,等未来MI300X正式发售时,英伟达可能已经推出了参数更强的产品,而且,由于当日未发布价格,采用192GB HBM3的MI300X成本可能并不会比预想得低,因此,等未来正式发售时与H100相比可能不会有显著的价格优势。二是,MI300X没有H100所拥有的用于加速Transformer大模型的引擎,这也意味着用同样数量的MI300X将花费更长的训练时间。邓楚翔认为,当前,用于AI训练的GPU供不应求,价格水涨船高,MI300X的推出无疑将利于市场的良性竞争,但短期来看,AMD的MI300X可能更多是作为客户买不到H100的“替代品”。
至顶智库执行主任兼首席分析师孙硕表示,从AMD本次公开的性能参数来看,MI300X在很多方面都优于英伟达的H100,但并不是性能越高,就越多人用。“这不是一个正向关系,新品推出都需要经过市场长时间的验证。”他说,“英伟达深耕GPU领域多年,所拥有的市场认可度和产品稳定性都是AMD所不具备的。另外在软件生态的建立和开发方面,同样需要不断积累,而且门槛较高,需要较长的时间完善。”
经过十几年积累,英伟达的CUDA已构建其他竞争对手短时间难以逾越的护城河。邓楚翔认为,AMD目前已经拥有一套完整的库和工具ROCm,可以用于其优化的AI软件堆栈,虽能完全兼容CUDA,为AMD提供了说服客户迁移的条件和理由,但兼容只属权宜之计,进一步建立属于自己的生态才能形成竞争优势。未来,ROCm需支持更多的操作系统,在AI领域开拓更广泛的框架,以此吸引更多的开发者进入生态。
作者丨许子皓 编辑丨张心怡
美编丨马利亚 监制丨连晓东
标签: