英伟达超越苹果成为全球最值钱的公司,而市场依旧对英伟达保持乐观。
与此同时,美国科技公司的服务器集群频频曝光。年关将至,巨头们开始展示自己的AI肌肉,试图在年底给投资者们一点甜头。
就在埃隆·马斯克xAI集群首次曝光后,小扎也迫不及待在Meta的业绩发布会上表示,Llama 4背后服务器集群的实力“比我见过的任何报道中其他人正在做的(规模)要大”。这番言论无疑是对埃隆·马斯克“地表最强的AI集群”的正面回应。
在科技巨头们开启算力竞赛时代,英伟达的GPU成为巨头们的“粮草”。本文就来看看英伟达的大客户们AI之战的囤粮情况。
01
巨头血拼H100
“前”地表最强——xAI
2023年7月14日,马斯克在个人推特账号宣布新公司定名为xAI,并于同日举行Twitter空间会议。新成立的xAI公司会与Twitter和特斯拉紧密合作 ,其中一个目标是打造能进行高阶逻辑推理的人工智能模型,并超越市面上其他模型。
四个月后,xAI宣布推出Grok,称此模型“*限度地造福全人类,并将是任何人的强大的研究助理。”
2024年9月xAI推出Colossus 100k H100 训练集群。马斯克在 X 上称,它是“世界上最强大的人工智能训练系统。此外,它的规模将在几个月内翻一番,达到 200k(50k H200x)。”
2024年10月,埃隆·马斯克的新项目 Colossus AI超级计算机*次被详细介绍。一则视频展示了其包含10万台GPU集群的内部结构。Colossus 的基本构建模块是 Supermicro 液冷机架。它由 8 台 4U 服务器组成,每台服务器配备 8 个 NVIDIA H100,每台机架总共有 64 个 GPU。8 台这样的 GPU 服务器加上一台Supermicro 冷却液分配单元 (CDU)和相关硬件构成了一个 GPU 计算机架。每个HGX H100之间都夹有1U歧管,为服务器提供所需的液体冷却。每个机架底部还有另一个Supermicro 4U单元,配备的是冗余泵系统和机架监控系统。
Meta:购买35万个H100
正如前文所说,在Colossus AI计算机视频流出后,埃隆·马斯克的“死对头”扎克伯格在Meta的业绩发布会上表示自己家的GPU比目前公开的数量都多。
年初,扎克伯格在Instagram上发表文章称,计划在今年年底前向芯片设计商英伟达购买35万个H100 GPU芯片。Meta首席科学家杨立昆(Yann LeCun)上个月在旧金山举行的一次活动中强调了GPU对于构建通用人工智能(AGI)的重要性。他说:“如果你认为AGI时代正在到来,你就必须购买更多的GPU。这是一场人工智能战争,而英伟达正在提供武器。”
据业内人士介绍,每个英伟达H100芯片售价为25000至30000美元。那么购买35万个H100的成本在87.5亿之间到105亿美元之间。如果按照每个服务器配备8个GPU的数据估算,Meta将建造超过4.3万台服务器;目前市场配备一台服务器的价格在27万美金左右,那么2024年Meta的在服务器的设备成本大概是118亿美元。此外,还要配备相应的存储、网络、供电、厂房等等其他设施;从成本结构来看(按服务器设备成本占比30%估算),如果Meta在2024年购买的35万个H100全部按时到货,且投入使用,那么Meta为H100搭建的数据中心投资预计超过350亿美元(还不包括后续运营成本)。显然扎克伯格希望用35万个H100芯片为Meta的Llama 4 带来更强的推理能力和更快的速度。
据估算10万个H100的算力峰值可以飙升到198/99 FP8/FP16 ExaFLOPS。来源:semianalysis,半导体产业纵横调研
微软:2023年*买主
根据Omdia Research的分析,2023年英伟达的H100大多供应给了大型云服务商。该机构估计,2023年H100*的买家就是微软和Meta,预计为15万个。
来到2024年,微软将AI芯片的囤货目标提到了180 万块,且将主要来自英伟达。business inside表示,到 2027 财年,微软预计将在 GPU 和数据中心上花费约 1000 亿美元。微软的AI芯片目标显然不全是H100,但这样的数字也足以见得微软对英伟达的“高需求”。
亚马逊 谷歌:一边买,一边造
相对于本文提到的其他三家公司,亚马逊和谷歌在购买GPU采购上相对低调。
事实上亚马逊在2023年7月就已经宣布推出基于H100 GPU的虚拟机实例EC2 P5。P5 实例可以组合成称为 UltraScale 的 GPU 集群,提供高达 20 百亿亿次浮点运算的总体性能。 每个 UltraScale 集群中可扩展多达 20,000 个 H100 GPU。用户可以部署可扩展到数十亿或数万亿个参数的 ML 模型。
同样在2023年,谷歌也推出了承载26,000 个英伟达H100 GPU 的 A3 超级计算机。A3 *可提供 26 ExaFlops 的处理能力,可显著减少训练大型机器学习模型的所需时间与成本。若用在 AI 推理,A3 的成效更为显著,若以 A2 的运算效能为基准,A3 *幅度可达到 30 倍。
作为云巨头,亚马逊和谷歌为何在H100的采购上有如此大的数量差距?
一个重要原因是,这两家巨头都在“悄悄”发力自研芯片。
亚马逊开发的AI专用芯片包括Inferentia和Trainium。据亚马逊方面表示,在亚马逊的促销日期间,该公司部署了80000个AI芯片实施云计算,以应对其平台上活动的激增。此外,AWS计算和网络副总裁戴维·布朗(David Brown)透露:“在某些情况下,该芯片性能相较英伟达可提高40%至50%,因此其成本应该是使用英伟达运行相同型号的一半。”
谷歌TPU 是定制设计的 AI 加速器,针对大型 AI 模型的训练和推理进行了优化。它们非常适合各种使用场景,例如聊天机器人、代码生成、媒体内容生成、合成语音、视觉服务、推荐引擎、个性化模型等等。Cloud TPU 能够针对各种 AI 工作负载(涵盖训练、微调和推理)进行经济高效的扩缩。Cloud TPU 提供了多种功能,可加速* AI 框架(包括 PyTorch、JAX 和 TensorFlow)上的工作负载。通过 Google Kubernetes Engine (GKE) 中的 Cloud TPU 集成,无缝编排大规模 AI 工作负载。利用动态工作负载调度程序同时安排所有需要的加速器,从而提高工作负载的可伸缩性。寻求最简单的 AI 模型开发方法的客户还可以在全托管式 AI 平台 Vertex AI 中利用 Cloud TPU。
02
背后赢家英伟达
英伟达在2023年为H100定下的销售目标是2024年出货150万至200万台。
根据英伟达财报,2024年第二季度营收实现翻倍,其中四个大客户的采购占比占英伟达300亿美元营业额的46%。出于竞争原因,对四家客户的身份进行匿名处理。在英伟达公布备受期待的季度投资者报告时提交的10-Q监管申报文件显示,四家客户贡献的营业额约为138亿美元。时长猜测。四家人工智能巨头可能就在亚马逊、Meta、微软、Alphabet、OpenAI或特斯拉+xAI之间产生。
微软、Alphabet(谷歌母公司)、亚马逊和Meta,四家公司第三季度在数据中心设备和其他固定资产上总共投入了590亿美元,创下了季度纪录。这意味着英伟达有望在本季度也交出一张漂亮的答卷。
除了以上巨头,苹果、OpenAI、中国互联网大厂都是英伟达的重要买家,基于这样的背景。华尔街分析师对英伟达的看法非常乐观,机构追踪的75位分析师中有67位将该股评为“买入”。他们还在继续提高预期,根据汇编的数据,过去三个月,他们对明年的利润预测提高了约10%。
2024年11月8日,英伟达市值突破3.6万亿美元,刷新了美股历史。在11月份,英伟达股价已经累计上涨了12%,2024年年初至今,该公司市值已经增长了两倍。
2024年11月8日英伟达市值03
AI改变芯片市场
11月1日,标普道琼斯指数公司公布,将英伟达纳入道琼斯工业平均指数,取代道指目前的芯片业成分股英特尔。这次调整标志着人工智能和高性能计算的重要性日益增强。英伟达作为AI GPU的*供应商,能够吸引更多投资者关注新兴技术,传统的半导体公司则面临较大压力,尤其是在数据处理、AI模型训练等高增长领域。
当然,这样的调整更说明AI正在引导市场投资风向。
上周巨头业绩后,各家投行陆续上调了明年整体资本开支。大摩从2700亿美金上调到3000亿美金。3000亿美金,作为对比先后完成6次登月的阿波罗登月计划共花费239.15亿美元;3000亿美金的数字可以在2023年非洲国家GDP排名中位列第4,仅低于埃及(3939亿美元)、南非(3777亿美元)、尼日利亚(3749亿美元)。
在人们感慨英伟达时代来临的时候,或许应该意识到AI时代真的来了。
AI成就了英伟达,AI时代并不会只属于英伟达。凯文凯利在《5000天后的世界》中预测:在未来的50年里,AI将成为可以与自动化和产业革命相提并论的,不,应该是影响更为深远的趋势。
一个新时代,将会由一个新玩家建造。
【本文由投资界合作伙伴微信公众号:半导体产业纵横授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。
新浪财经公众号
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)