显存,才是推理真正的瓶颈
当我们谈论AI算力瓶颈时,大多数人想到的是GPU的FLOPS——每秒能跑多少次浮点运算。但在推理场景下,这个指标正在变得越来越不相关。
今天看到一个值得关注的消息:曾入选”华为天才少年”计划的创业者,连融超4亿元,方向是新一代推理芯片,核心目标是重构显存成本。这不是又一个”我们跑得更快”的故事,而是一个”我们换一条路走”的信号。
为什么显存比算力更重要?
大模型推理的工作负载有一个鲜明的特征:计算密集但访存更密集。以一个70B参数模型为例,一次前向传播需要将约140GB的参数从显存加载到计算单元。无论你的算力有多强,如果显存带宽不够,计算单元就只能等数据。
这就是所谓的”内存墙”(Memory Wall)问题。当前主流的HBM显存价格居高不下,一块H100的显存成本可能占到整张卡价格的40%以上。对于大规模推理部署而言,显存成本往往超过算力成本成为最大的开支项。
推理芯片的差异化机会
训练芯片市场已被英伟达牢牢统治,但推理芯片的格局远未定型。关键差异在于:
第一,推理的工作负载更确定。 训练需要处理各种batch size和精度,而推理往往在固定的精度和吞吐要求下运行,这为专用芯片的优化提供了更大空间。
第二,模型压缩技术的进步改变了需求。 量化(Quantization)、剪枝(Pruning)、知识蒸馏等技术让模型可以在更低精度下运行,这对显存容量和带宽的需求也随之降低,专用芯片可以用更经济的存储方案满足需求。
第三,推理的部署场景更分散。 从云端到边缘,从数据中心到端侧设备,不同的部署场景需要不同的性价比权衡,这给了新玩家切入的机会。
“重构显存成本”意味着什么?
这位天才少年创业者的方向之所以值得关注,在于他没有选择正面硬刚算力,而是从成本结构入手。可能的路径包括:
- 新型存储架构:比如用更便宜的存储介质配合定制缓存设计
- 存算一体:将计算单元嵌入存储阵列,减少数据搬运
- 稀疏注意力优化:硬件层面支持稀疏计算,降低实际访存量
这些路线都指向同一个目标:在不显著牺牲推理质量的前提下,把显存相关的TCO打下来一个数量级。
更深层的思考
这件事折射出一个趋势:AI基础设施的竞争正在从”训练霸权”转向”推理民主化”。谁能以更低的成本提供足够好的推理服务,谁就能在应用层爆发中获得最大的红利。
这也意味着,我们评估AI芯片的标准需要更新。不再只是”跑得快不快”,而是”跑一Token要花多少钱”。当推理成本降至某个临界点,大量目前停留在概念验证阶段的AI应用才能真正落地。
而那些能看懂这个临界点、并在之前完成布局的团队,可能就是下一个十年的英伟达。
本文基于2026年4月18日行业动态撰写,仅代表个人观点。