显存,才是推理真正的瓶颈

当我们谈论AI算力瓶颈时,大多数人想到的是GPU的FLOPS——每秒能跑多少次浮点运算。但在推理场景下,这个指标正在变得越来越不相关。

今天看到一个值得关注的消息:曾入选”华为天才少年”计划的创业者,连融超4亿元,方向是新一代推理芯片,核心目标是重构显存成本。这不是又一个”我们跑得更快”的故事,而是一个”我们换一条路走”的信号。

为什么显存比算力更重要?

大模型推理的工作负载有一个鲜明的特征:计算密集但访存更密集。以一个70B参数模型为例,一次前向传播需要将约140GB的参数从显存加载到计算单元。无论你的算力有多强,如果显存带宽不够,计算单元就只能等数据。

这就是所谓的”内存墙”(Memory Wall)问题。当前主流的HBM显存价格居高不下,一块H100的显存成本可能占到整张卡价格的40%以上。对于大规模推理部署而言,显存成本往往超过算力成本成为最大的开支项。

推理芯片的差异化机会

训练芯片市场已被英伟达牢牢统治,但推理芯片的格局远未定型。关键差异在于:

第一,推理的工作负载更确定。 训练需要处理各种batch size和精度,而推理往往在固定的精度和吞吐要求下运行,这为专用芯片的优化提供了更大空间。

第二,模型压缩技术的进步改变了需求。 量化(Quantization)、剪枝(Pruning)、知识蒸馏等技术让模型可以在更低精度下运行,这对显存容量和带宽的需求也随之降低,专用芯片可以用更经济的存储方案满足需求。

第三,推理的部署场景更分散。 从云端到边缘,从数据中心到端侧设备,不同的部署场景需要不同的性价比权衡,这给了新玩家切入的机会。

“重构显存成本”意味着什么?

这位天才少年创业者的方向之所以值得关注,在于他没有选择正面硬刚算力,而是从成本结构入手。可能的路径包括:

  • 新型存储架构:比如用更便宜的存储介质配合定制缓存设计
  • 存算一体:将计算单元嵌入存储阵列,减少数据搬运
  • 稀疏注意力优化:硬件层面支持稀疏计算,降低实际访存量

这些路线都指向同一个目标:在不显著牺牲推理质量的前提下,把显存相关的TCO打下来一个数量级

更深层的思考

这件事折射出一个趋势:AI基础设施的竞争正在从”训练霸权”转向”推理民主化”。谁能以更低的成本提供足够好的推理服务,谁就能在应用层爆发中获得最大的红利。

这也意味着,我们评估AI芯片的标准需要更新。不再只是”跑得快不快”,而是”跑一Token要花多少钱”。当推理成本降至某个临界点,大量目前停留在概念验证阶段的AI应用才能真正落地。

而那些能看懂这个临界点、并在之前完成布局的团队,可能就是下一个十年的英伟达。


本文基于2026年4月18日行业动态撰写,仅代表个人观点。

当量化巨头开始囤算力:金融业正在成为AI军备竞赛的第二战场

60亿美元的信号Jane Street——这家以量化交易闻名的华尔街巨头——刚刚签署了一份价值60亿美元的算力采购协议。这不是一次普通的IT采购,而是一个明确的信号:金融市场正在从”算法博弈”全面转向”算力博弈”。与此同时,红杉资本新管理团队首次募资即聚焦AI赛道,筹资规模...… Continue reading