过去两年,全球AI产业被一个隐含的假设牢牢绑架:大模型必须跑在英伟达GPU上。这个假设塑造了从算力定价、云服务竞争到地缘政治博弈的整个格局。而本周DeepSeek V4的发布预告,可能正在改写这个前提。

核心突破:不是换了一张显卡,而是重写了一层抽象

DeepSeek V4最值得关注的不是参数规模,而是其工程决策:基于TileLang全面重写内部代码,适配华为昇腾910系列芯片。这并非简单的”移植”——从CUDA生态迁移到自研硬件平台,意味着编译器优化、算子实现、显存管理、通信拓扑几乎全部推倒重来。

实测数据显示,昇腾950PR在FP4推理下的算力达到H20的2.87倍。这个数字如果经独立验证,意味着在特定推理场景下,英伟达被制裁后推向中国市场的”阉割版”H20,已经被国产芯片反超近三倍。

为什么这件事比表面看起来更重要

第一,它证明了CUDA护城河并非不可逾越。 过去业界普遍认为,英伟达的护城河不在于硬件本身,而在于CUDA软件生态——数百万开发者的肌肉记忆、数千个优化库、十几年积累的工程经验。DeepSeek的实践表明,当一个团队足够深入地理解模型计算图,且愿意投入重写底层算子时,硬件切换的壁垒是可以被攻克的技术问题,而非不可逾越的生态鸿沟。

第二,它为AI算力的”去中心化”打开了想象空间。 如果最前沿的国产模型可以脱离英伟达生态运行,那么算力供给就不再受限于出口管制和芯片配额。这对整个中国AI产业链的长期发展具有战略意义——从模型训练到推理部署,从云端服务到边缘计算,都将获得更大的自主空间。

第三,它重新定义了”算力效率”的竞争维度。 2.87倍的算力优势如果成立,不是通过更先进的制程工艺(昇腾910系列制程节点并不领先),而是通过更高效的硬件架构设计和更好的软件适配实现的。这暗示着AI算力的下一轮竞争,可能不再是谁有更多晶体管,而是谁的软硬件协同优化做得更极致。

但乐观之外,需要冷静的几个问题

首先是验证问题。 2.87倍这个数字来自DeepSeek自身的预告,尚未经过独立基准测试。H20本身是英伟达为应对出口管制而降低规格的产品,用”阉割版”作为参照系的说服力有限。更公平的比较应该对标H100或B200在相同模型上的表现。

其次是FP4推理的实际效果。 4-bit量化在保持模型质量方面始终存在争议。DeepSeek需要证明在昇腾平台上的FP4推理,在核心任务指标上没有显著退化。否则,”三倍算力但质量打折”的等式并不成立。

最后是生态成熟的度。 一个团队的成功迁移不等于生态的就绪。要吸引更多开发者迁移到昇腾平台,需要完善的开发工具链、调试支持、以及足够多的成功案例。DeepSeek开了个好头,但路还很长。

更深层的启示:AI时代的基础设施正经历范式转移

微软与软银联手投资1.6万亿日元扩建日本GPU云,OpenAI完成1220亿美元融资——本周的资金动态显示,全球算力军备竞赛仍在加速。但在竞赛的另一面,DeepSeek V4选择了一条不同的路:不是追逐更多的GPU,而是从根本上减少对特定GPU的依赖。

Marc Andreessen本周提出的”Agent即Unix”观点,本质上也在讲述同样的故事:AI基础设施的底层架构正在经历根本性的重构。无论是在模型推理层面打破硬件垄断,还是在应用层面重新定义计算范式,2026年四月都可能是那个”回头看才意识到一切都变了”的时间节点。


从CUDA到TileLang,从H100到昇腾950PR,技术栈的重写从来不是一蹴而就的。但多米诺骨牌一旦开始倒下,就不会只倒一块。

AI发现隐藏23年的Linux内核漏洞:安全研究的范式转移时刻

一个23年的沉默最近,Claude Code做了一件令安全研究者们既兴奋又不安的事——它发现了一个在Linux内核中隐藏了整整23年的漏洞。23年是什么概念?这意味着这个漏洞从2003年起就安静地躺在内核代码中,经历了无数轮代码审查、无数次安全审计、成千上万开发者的代码提交...… Continue reading