编辑 | 言征
出品 | 51CTO技术栈(微信号 :blog51cto)
2025年开年 ,博通AI芯片的连续流接零租赁市市场角逐再度成为大洋彼岸的角逐话题。近日 ,天暴霸主英伟达的涨英自由收入增长速度开始放缓 ,相比之下过去30天博通等公司股价持续暴涨,伟达伟达微软业界很多人都在猜测率先打破英伟达垄断地位的将遭近于第二“英伟达”会是谁?云租赁市场又会发生怎样的变化?
12月25日,最新一期的平替BG2播客中 ,主持人比尔·格利(Bill Gurley)和布拉德·杰斯特纳(Brad Gerstner)再次同台 ,势不剩年剩并邀请了SemiAnalysis的够英创始人兼首席分析师迪伦·帕特尔(Dylan Patel) ,亿华云一起来讨论AI芯片、卡生半导体领域正在进行着的产过场此消彼长和开年AI巨无霸的最新动向。
播客中,现金三位讨论了芯片竞争中英伟达的博通众多对手 :AMD、Intel、连续流接零租赁市谷歌 、天暴亚马逊甚至包括曾扬言要打造自己芯片的OpenAI等内部的一些新进展,以及存储市场的利好利空和未来预测,比如他们预计内存市场的增速将会超过GPU(领先硅) 、源码库2026年微软和Meta的自由现金流将接近于0,这是马斯克带头大搞军备竞赛的结果 。
在开始讨论这个话题之前,三位还探讨了AI预训练的撞墙、合成数据生成,以及既然都在说“预训练已过时”但仍建造更大集群的悖论、推理时的计算等。
话不多说,这就为大家奉上精彩的观点。
微软在OpenAI模型上赚取50%到70%的毛利率。服务器租用这是他们从AI获得的利润分成或他们放弃的份额 。有15家不同的公司在那里提供Llama和阿里巴巴和DeepSeek和Mistral等不同模型的API推理 。如果我们只是部署lalama 7 B质量的模型,我们已经过度建设了 ,这甚至不是开玩笑 。对于实验室而言 ,你必须拥有最好的模型 ,建站模板否则你什么都不是。Nvidia最高的销售成本并不是台积电,这是人们没有意识到的,实际上主要是HBM内存。三星并没有大杀四方 ,因为低端正在遭受打击 ,高端又无法突破。AMD的GPU被认为更好的唯一原因 :芯片上的高防服务器HBM内存更多 。谷歌为一些英伟达可能没有那么关注的事情进行了工程设计 。所以实际上,芯片之间的互连在某些方面可能具有竞争力 ,甚至比英伟达更好 ,在其他方面则稍逊一筹,因为他们一直在与博通合作。博通非常适合制造NV交换机的竞争产品 ,许多人会认为这是英伟达在硬件方面相对于其他人的最大竞争优势之一 。在接下来的六个月里,源码下载谷歌TPU的购买会有所放缓,因为他们没有数据中心空间。以下是相关的内容整理,原文节选整理如下:
大模型进入推理价格战时代如同从Oracle进入到开发时代比尔:
快速提问。我们承诺会讨论这些替代方案。所以我们最终会到达那里 。但如果你回顾一下 ,我们已经多次使用互联网浪潮的比较,当所有的风险投资公司开始在互联网上发展时,他们都在Oracle和Sun上,五年后,他们不再在Oracle或Sun上。有些人认为他们从开发沙盒世界过渡到了优化世界 。这种情况会发生吗?这里有没有等价性?如果你能谈谈为什么后端如此陡峭和便宜 ,你知道的,比如你退一步,你知道,你只需要稍微后退一点就可以节省很多成本,这很疯狂。
迪伦:
是的,所以 ,今天 ,对吧 ?像o1非常昂贵 ,你退到4o,它就便宜多了,你跳到4o和mini,它非常便宜 ,为什么?因为现在我用4o和mini与Llama竞争,我与DeepSeek竞争 。我与mistral竞争 ,我与阿里巴巴竞争,我与许多公司竞争。
比尔:
这些是市场出清价格。 (出清价格是指 :通过竞争机制形成的价格 ,使得市场供需达到平衡。)
迪伦:
我认为是的。此外,对吧,还有一个问题是推理一个小模型相当容易 ,对吧?我可以在1个AMD GPU上运行lalama 70 b ,我可以在一个Nvidia GPU上运行lalama 70 b ,很快就会有像在亚马逊的新Trainium上运行一样 ,对吧?我可以在一个芯片上运行这个模型。这是一个非常容易的问题 ,我不会说非常容易的问题,仍然很难 。它比运行这个复杂的推理或这个非常大的模型要容易得多 ,对吧 ?因此,存在这种差异 ,对吧?还有就是 ,嘿 ,有15家不同的公司在那里提供Llama和阿里巴巴和DeepSeek和Mistral等不同模型的API推理,对吧 ?
布拉德:
我们在谈论Cerebras(芯片厂商)和Groq,还有你知道的,Fireworks和所有这些其他的。
迪伦:
是的 ,Fireworks一起。你知道的 ,所有这些不使用自己硬件的公司 。当然,Groq和Cerebras正在做自己的硬件并也在做这件事 ,但市场,这些,这里的利润率很差 ,对吧 ?
你知道的 ,我们之前有关于推理价格战的事情,当mistral发布了他们的mixed stra模型时,这在去年晚些时候是非常革命性的,因为它达到了一个在开源中不存在的性能水平 ,它使价格下降得如此之快,对吧 ?
迪伦:
因为每个人都在为API竞争。我作为API提供者能为你提供什么 ?为什么你不从mine切换到his,因为,嗯 ,没有 ,它相当通用,对吧?我仍然在同一个模型上获得相同的tokens ,所以这些家伙的利润率要低得多。所以微软在OpenAI模型上赚取50%到70%的毛利率。这是他们从AI获得的利润分成或他们放弃的份额,对吧?
或者,你知道的,Anthropic在他们最近一轮中 ,他们展示了70%的毛利率,但这是因为他们有这个模型 ,你退到这里,没有人使用这个模型 ,你知道的 ,从OpenAI或Anthropic使用这个模型的人要少得多,因为他们可以像取Llama的权重一样 ,放在自己的服务器上,或者反之亦然,去许多竞争的API提供者那里,其中一些是风险投资的,一些是 ,你知道的 ,而且在亏钱,对吧 ?所以这里存在所有这些竞争 。
所以你不仅在说我要退一步,这是一个更容易的问题 。我 ,因此 ,如果模型小10倍 ,它就像在顶尖模型运行时便宜15倍。在顶部的那之上,我还要去掉那个毛利率。所以它不是运行时便宜15倍 ,而是运行时便宜30倍。所以这就是 ,这就是像,好吧 ,一切都变成商品了吗?但这里有一个巨大的追逐空间,如果你在部署服务 ,这对你来说是很好的 。
为什么非得要做最好的模型?能赚钱吗?迪伦:
你必须拥有最好的模型 ,否则你什么都不是,如果你是实验室之一,对吧 ?因此,你会看到许多试图构建最好模型但失败的公司都在挣扎。
布拉德:
而且可以说,你不仅需要拥有最好的模型,你实际上真的需要有一个愿意为最好的模型买单的企业或消费者 。因为归根结底 ,最好的模型意味着有人愿意为你支付这些高利润率。而那要么是企业 ,要么是消费者 。所以我认为 ,你知道的 ,你很快就会缩小到只有少数人能够在这个市场上竞争。
迪伦:
在模型方面 ,是的 。我认为在谁愿意为这些模型买单方面,我认为更多的人会为最好的模型买单,对吧?
当我们内部使用模型时,对吧?我们有,我们有,我们有语言模型检查每一个监管文件和许可,以查看数据中心的东西并将其提取出来,告诉我们应该看哪里以及不应该看哪里。我们只是使用最好的模型,因为它非常便宜 ,对吧 ?就像我从中获得的数据 ,我从中获得的价值要高得多 。你们在用什么模型?我们现在实际上使用的是Anthropic,cloud three point。我看到了新的sonnet 。所以只是因为o1在某些方面更好,但不一定是监管文件和许可以及类似的事情 ,因为错误的成本要高得多,对吧?
同样对于开发者来说 ,对吧?如果我能提高一个在湾区年薪30万美元的开发者20% ,那将很多。如果我能用75或50个开发者完成一个团队100个开发者的同样工作,或者我能发布两倍多的代码,使用最昂贵的模型是如此值得的 ,因为o1很昂贵。相对于4o来说 ,它仍然非常便宜,对吧 ?
社会对智能的需求成本很高,对吧 ?这就是为什么智能工作是最高薪的工作,白领工作 ,对吧?或者如果能够降低智能的成本或增强智能,那么就会有一个很高的市场出清价格 ,这就是为什么我认为,哦 ,是的 ,o1很昂贵,人们总是会倾向于在一定水平上寻找最便宜的东西。但每次我们突破一个新的智能水平时 ,不仅仅是 ,哦 ,你知道的,如果我们能多做几项任务,我认为它可以完成的任务模式会大幅增长。
很少有人能使用GPT 2和3 ,对吧 ?当达到下一代的质量飞跃时 ,很多人可以使用GPT-4,能够使用它的人数,它可以完成的任务数量将会爆炸性增长,因此它可以增强的白领工作 ,提高生产力的数量将会增长 ,因此该tokens的市场出清价格将会非常有趣。
英伟达卡如果仅用来推理,显然是过度建设了比尔 :
非常有趣 。我可以提出另一种论点 ,即某人处于高容量状态,你知道的,这在取代大量客户服务电话或其他方面可能会倾向于绝对最小化支出,并最大化围绕这个东西构建的价值。数据库写入和读取等等。
迪伦:
所以 ,我喜欢的一个有趣的计算是 ,如果你取Nvidia出货量的四分之一 ,并假设它们都用于推理lalama 7 b,你可以给地球上每个人每分钟100个tokens,对吧 ?或者对不起,每秒100个tokens 。你可以给地球上每个人每秒100个tokens ,这很荒谬,你知道的 。所以 ,如果我们只是部署lalama 7 B质量的模型 ,我们已经过度建设了,这甚至不是开玩笑 。现在如果我们部署的东西可以增强工程师,提高生产力,并帮助我们更快地构建机器人或自动驾驶汽车或其他东西 ,那么这是一个非常不同的计算,对吧?因此 ,这就是整个事情 ,是的,小模型是存在的 ,但它们非常容易运行。
比尔 :
运行它们,这两者可能都是真的 ,对吧 ?
迪伦:
我们将有大量小模型在到处运行,但它们的计算成本非常低。是的。
布拉德 :
比尔和我之前讨论过这个问题,关于你曾经报道的硬盘 。但如果你看看内存市场,它一直是一个繁荣与萧条的市场。想法是你总是在接近峰值时出售这些东西。你知道的 ,你总是在低谷时购买它们。你不会在中间的任何地方拥有它们 。它们的市盈率非常低。我在谈论Hynix和Micron,当你考虑到推理时的计算时,似乎这些芯片所需的内存需求 ,Jensen已经谈了很多关于这一点,正在经历一个长期的上升趋势,对吧?因为如果他们进行这些传递 ,你知道的 ,你正在运行,就像你说的 ,10次或100次或1000次推理时推理,你只需要越来越多的内存,这就是上下文长度。
内存市场的增长速度或超过GPU布拉德 :
所以,谈一谈你对内存市场的看法 。
迪伦:
是的 ,所以 ,为了更好地设定舞台,推理模型输出成千上万个tokens 。 当我们查看变换器注意力时 ,对吧 ?变换器的圣杯就是它如何理解整个上下文,这会显著增长 。而Kv缓存,即跟踪这个上下文意味着什么的内存,是呈二次方增长的,对吧?因此 ,如果我从上下文长度10增加到100,这不仅仅是10倍,而是更多,对吧 ?所以你正确地看待它 。今天的推理模型,它们会思考10000个tokens,20000个tokens,当我们达到 ,嘿 ,复杂的推理会是什么样子?模型将达到思考数十万个tokens的程度 ,而这只是整个思维过程的一部分 ,或者可能是某种搜索 ,但它会思考很多 。而这个Kv缓存将会膨胀 。
比尔:
你是在说内存的增长速度可能会超过GPU 。
迪伦:
客观地说,当你查看Nvidia的销售成本时 ,他们最高的销售成本并不是台积电,这是人们没有意识到的,实际上主要是HBM内存 ,至少目前是这样 。
比尔 :
但没错,所以,所以有。
迪伦:
有三家内存公司,对吧?有三星 、SK hynix和Micron。Nvidia主要使用SK Hynix,这是内存市场整体的一个重大转变 ,因为历史上它一直是一个商品,对吧?也就是说,无论我从三星还是SK hynix还是Micron购买,它都是通用的 。
比尔:
或者可以互换。
迪伦:
是的 。甚至现在三星也受到了很大的打击,因为有一个中国内存制造商cxmt ,他们的内存不如三星的好,但它是低端内存 ,它是通用的 ,因此低端内存的价格已经大幅下降 。在HBM方面 ,三星几乎没有份额,对吧?尤其是在Nvidia。因此,这正在严重打击三星 ,尽管他们是世界上最大的内存制造商 ,哦,每个人总是说 ,如果你说内存 ,就像 ,是的。三星在技术上稍微领先一点 ,他们的利润率稍微好一点,他们正在大杀四方,对吧?但现在情况并非完全如此 ,因为在低端 ,他们受到了一点打击,而在高端 ,他们无法突破 ,或者他们一直在尝试 ,但一直在失败 。
迪伦 :
另一方面,你有像SK Hynix和Micron这样的公司,他们正在将大量产能从商品DRAM转换为HBM 。现在HBM仍然是通用的 ,对吧 ?在某人达到一定技术水平的情况下,他们可以互换Micron和Hynix ,对吧 ?所以在那个意义上它是通用的 ,对吧 ?在那个意义上它是一个商品。但因为推理需要更多的内存 ,而H-100到Blackwell的销售成本中 ,HBM的成本占比增长速度超过了领先硅的成本占比 。
你有这种大的转变或动态正在发生 。这不仅适用于Nvidia的GPU ,也适用于超大规模的GPU,对吧?或者像TPU、Amazon 、Trainium等加速器。
HBM市场的毛利率:并不高,英伟达很强势比尔:
SK的毛利率更高 ,内存公司也是如此 ,对吧?
布拉德:
如果你听Jensen(黄仁勋)的描述,你知道的,不是所有的内存都是一样的 ,对吧?所以不仅仅是产品今天更具差异化 ,产品中包含的软件更多,而且它还如何整合到整个系统中,对吧 ?回到供应链问题,听起来它都是商品 。只是在我看来,至少有一个问题是,它是否在结构上发生了变化?我们知道长期趋势是向上的。
比尔:
也许它足够差异化,以至于不再是商品。
迪伦:
它可能是。我想指出的另一件事是,有趣的是,HBM的毛利率并不出色。它们还不错,但并不出色,实际上普通的内存,像服务器内存这种高端内存,但不是HBM ,毛利率实际上比HBM更高。原因在于Nvidia对内存制造商施加了如此大的压力 ,对吧?他们希望HBM的内存一代比一代更快,但并不一定是像其他人那样用于服务器 。
AMD:很多巨头帮忙 ,但仍不足以叫板英伟达迪伦 :
现在这意味着什么,这意味着,嘿,即使三星可能达到了4级,对吧 ,或者他们之前达到的3级 ,他们也无法达到Hynix现在的水平 。竞争对手在做什么 ,对吧?AMD和亚马逊在说什么?AMD明确表示他们的GPU更好 ,因为他们提供了更多的内存,对吧?他们提供了更多的内存和更多的内存带宽 。这就是AMD的GPU被认为更好的唯一原因,芯片上的HBM内存 。
迪伦:
好的,这是在封装上 ,对吧?具体来说 ,是的 。然后当我们看亚马逊时 ,他们在reinvent上的一切 ,如果你真的和他们谈过 ,当他们宣布Trinum 2时,我们关于它的整个帖子和分析是 ,从供应链的角度来看 ,这看起来像是亚马逊Basics TPU,对吧 ?它还不错 ,对吧 ?但它真的很便宜,A&B ,它提供了市场上任何芯片每美元最多的HBM容量和最多的HBM内存带宽。因此,对于某些应用来说 ,使用它是有意义的 。所以这是一个真正的转变 ,嘿 ,我们可能无法像Nvidia那样设计 ,但我们可以在封装上放置更多的内存 。
现在 ,这只是问题的一个方面,你知道的,这是一个多方面的问题 。他们的网络能力远远不够好,他们的软件远远不够好 ,他们的计算单元也不够好 。他们,天哪,他们每美元的内存带宽更多。
比尔 :
好吧,这就是我们想在时间耗尽之前讨论的,就是谈谈这些替代方案 ,你刚刚开始这样做。所以尽管有所有令人惊叹的理由 ,似乎没有人会想与Nvidia争斗,但许多人正在尝试,对吧?我甚至听到有人谈论那些还没有尝试的,比如OpenAI一直在谈论他们自己的芯片 。这些其他参与者表现如何?你会如何评估 ?让我们从AMD开始,因为它是独立公司 ,然后我们再谈谈一些内部项目 。
迪伦:
是的,所以AMD在硅工程方面做得很好 ,对吧?从硅工程的角度来看,他们是有竞争力的 ,但你知道,kickton告诉我们 ,但这就像,你知道,从婴儿那里偷糖果一样。
比尔:
他们从这里开始,我认为在20年的时间里 ,这是相当令人惊叹的。
迪伦 :
所以AMD非常好,但他们缺少软件 。AMD不知道如何做软件,我认为他们上面的开发者很少。他们不会花钱为自己建造一个GPU集群 ,以便他们可以开发软件,对吧?这简直是疯狂的 ,对吧?
迪伦:
像Nvidia一样 ,你知道的,前500名超级计算机列表并不相关,因为大多数最大的超级计算机,比如Elon的X和微软等都不在上面。但Nvidia在前500名超级计算机列表上有多个超级计算机,他们完全内部使用它们来开发软件,无论是网络软件 、计算软件、推理软件 ,所有这些东西 ,你知道的 ,测试他们所做的所有更改 ,然后推出更新,你知道的,如果XAI因为软件不工作而生气,视频将在第二天或两天后推出更新 ,就像时钟一样 ,对吧 ?因为当你在训练模型时,总会有许多东西不断出错。
AMD不这样做,对吧 ?我不知道为什么他们不花钱买一个大型集群 ,另一件事是他们不知道如何进行系统级设计。他们一直生活在一个与Intel竞争的世界中 。所以如果我制造了一个比Intel更好的芯片,那么我就很棒 ,因为软件是x86 。
比尔:
它是X,我的意思是Nvidia并不隐瞒他们是一个系统公司,所以他们应该已经读过所有这些。
迪伦 :
是的 ,所以他们收购了这个系统公司Zt systems,但在那里,你知道的 ,整个机架规模架构,谷歌在2018年与GPU V3一起部署。
比尔:
有没有超大规模公司对AMD的成功如此感兴趣 ,以至于他们与AMD合作?
迪伦 :
所以超大规模公司都有自己的定制硅努力 ,但他们也在以不同的方式帮助AMD ,对吧 ?所以Meta和微软在软件方面帮助他们 ,对吧?帮助AMD的程度还不足以让AMD赶上或接近 。他们在AMD应该做什么方面帮助了很多 ,对吧 ?
迪伦:
所以其他人认识到的是 ,如果我拥有世界上最好的工程团队 ,那并不能告诉我问题是什么 ,对吧 ?问题有这个 、这个 、这个。它有这些权衡。AMD不知道软件开发,不知道模型开发,不知道推理,不知道推理经济学是什么样子。那么他们如何知道应该做出什么权衡 ?我是否应该在芯片上更用力地推动这个杠杆 ,这将使我不得不在其他方面退缩,或者我到底应该做什么,对吧?但超大规模公司在帮助,但帮助的程度还不足以让AMD与Nvidia处于同一时间线。
比尔:
AMD在明年的人工智能收入方面会有多成功?他们可能会在哪些方面取得成功?
迪伦:
是的,我认为他们与微软的成功会比今年少,他们与Meta的成功也会比今年少 。这是因为像他们塑造的方式那样,AMD的GPU实际上对中国的法规来说相当不错。但总体而言 ,我认为AMD会做得不错。他们将从市场中获利,只是不会像人们希望的那样大获成功 ,他们的总营收份额明年会下降。
比尔:
好的?
迪伦:
但他们仍然会做得很好 ,对吧 ?数十亿美元的收入不是微不足道的。
谷歌TPU:第二多AI负载的三大优点比尔:
让我们谈谈Google TPU 。你之前说过它拥有第二多的工作负载 ,似乎相差很大 ,它稳居第二位 。
迪伦:
是的,所以这就是整个系统和基础设施问题更加重要的地方 。
迪伦 :
每个单独的GPU本身并不那么令人印象深刻。对吧?它有不错的网络 ,有不错的架构等等 ,内存也还可以,对吧 ?就像它本身并不那么令人印象深刻,但当你说到 ,嘿 ,如果我花费X金额 ,那么我的系统会怎样?谷歌的TPU看起来很了不起 。所以谷歌为一些英伟达可能没有那么关注的事情进行了工程设计 。所以实际上,芯片之间的互连在某些方面可能具有竞争力,甚至比英伟达更好,在其他方面则稍逊一筹,因为他们一直在与博通合作,你知道,博通是网络领域的世界领导者 ,你知道 ,与他们一起制造芯片。自2018年以来 ,他们一直在扩大规模,对吧 ?
英伟达在谈论GB 200 NVL 72 GPU今天达到8000 ,对吧?虽然它不是一个交换机 ,而是一个点对点的连接,你知道,有一些技术上的细微差别。所以并不是说这些数字就是你应该关注的全部,但这很重要 。
迪伦 :
另一个方面是谷歌多年来一直在引入水冷技术,对吧 ?英伟达刚刚意识到这一代产品需要水冷 ,而谷歌引入了一种英伟达GPU所不具备的可靠性水平 。你知道,一个不为人知的秘密是去问人们GPU在云中或部署中的可靠性率是多少 。就像 ,哦天哪 ,它们的可靠性也就那样,但尤其是在最初 ,你必须拿出大约5%。
布拉德 :
如果它们在谷歌之外没有更商业化成功的话。
迪伦:
我认为谷歌保留了很多他们的软件 ,当他们应该将其开源时,因为,谁在乎呢 ?你知道,这是其中一个方面。你知道,DeepMind使用的很多软件根本无法在Google Cloud 2上使用。
比尔 :
即使是他们的Google Cloud产品相对于AWS也有这种偏见 。
迪伦:
第二,它的定价,嗯,它并不是那么过分 ,在标价上 ,就像GPU在Google Cloud上的标价也是过分的