一个被忽视的精度问题

我们谈论AI幻觉时,通常归咎于训练数据的偏差、模型的过度自信、RLHF的缺陷。但arXiv上一篇最新论文揭示了一个更隐蔽的原因:FP16推理精度本身就在制造幻觉

这不是一个新话题——数值稳定性的讨论在深度学习社区由来已久。但这篇论文第一次系统地证明了,即便在完全相同的输入下,FP16推理的数值分歧会导致预测偏移,根源在于浮点加法的非结合性。换句话说,模型本身没有”想错”,是计算精度让它”算错了”。

非结合性:一个优雅而危险的问题

浮点加法的非结合性意味着

1
(a + b) + c ≠ a + (b + c)
。在AI推理中,这意味着注意力权重的累加顺序、矩阵乘法的分块策略,甚至硬件层面的并行归约方式,都可能微妙地改变最终输出。

大多数时候,这种偏差小到可以忽略。但论文揭示了一个令人不安的事实:在某些边界情况下,这种偏差足以将模型从”正确”的输出路径推向”错误”的路径——而我们无法预测哪些输入会触发这种情况。

规模放大了脆弱性

这个问题在当前的大模型时代变得格外重要。原因有三:

第一,模型越大,累加操作越多。 万亿参数模型的推理过程涉及海量的浮点累加,数值误差的累积效应更加显著。月之暗面刚刚开源了万亿参数模型,这类模型的FP16推理精度问题值得高度关注。

第二,量化压缩雪上加霜。 为了降低推理成本,业界普遍使用INT8甚至INT4量化。FP16已经是”高精度”了,如果我们在此基础上进一步量化,精度损失会指数级放大。很多推理服务的”性价比优化”实际上是以牺牲可靠性为代价的。

第三,关键场景容错率低。 在代码生成、数学推理、法律分析等领域,模型输出往往只需要在关键位置出现一个token的偏差,结论就可能完全不同。FP16精度问题恰好在这些关键token上制造了随机性。

这对AI安全和部署意味着什么

从安全角度看,这个问题有两个维度值得关注。

可复现性危机。 同一个模型、同一个输入,在不同硬件或不同批处理策略下可能产生不同输出。这对AI审计、合规检查和安全事故追溯构成了根本性挑战。你如何证明一个模型在部署时的行为和测试时一致?

攻击面扩展。 如果攻击者能够控制推理的计算路径(例如通过精心构造的输入影响批处理顺序),理论上可以系统性触发精度偏差,放大模型的不确定性。这是一种不同于传统对抗攻击的威胁模型——不需要修改模型或输入,只需要改变计算环境。

降精度不是免费的午餐

AI行业有一个根深蒂固的假设:降低精度可以换来更快的推理速度,而精度损失微不足道。这篇论文是对这个假设的直接挑战。

并不是说所有场景都需要FP64——那确实太昂贵了。但我们需要重新审视精度选择的决策框架:

  1. 关键应用应该默认使用BF16或更高精度,尤其是医疗诊断、法律分析和安全相关的推理任务
  2. 量化部署需要配备精度回归测试,不能只看吞吐量和成本指标
  3. 推理框架应该提供精度诊断工具,帮助开发者识别哪些层的输出对精度最敏感

结语

这篇论文提醒我们,AI系统的可靠性不仅仅取决于模型本身的质量,还取决于运行它的计算基础设施。当我们谈论” trustworthy AI”时,不能只关注训练阶段的数据质量和对齐技术,推理阶段的数值精度同样是一个被低估的安全维度。

在AI行业飞速追求更大参数、更低成本的同时,也许该停下来想一想:我们是否在看不见的地方,用精度换取了可靠性?


本文基于 arXiv:2604.15459 研究论文观点延伸撰写

从GUI到API:一次静悄悄的革命

你可能还没注意到,但互联网正在经历一次界面范式的根本性转移。

Salesforce推出Headless 360,将全部功能通过API/MCP/CLI暴露;Vercel在安全事件中被入侵,暴露了传统Web界面的脆弱性;而”Headless Everything”这个概念正在从开发者圈层蔓延到主流讨论——所有的平台、工具、服务,正在剥离它们的图形界面,把API作为一等公民。

这不是一个新趋势的起点,而是一个加速拐点。催化剂只有一个:AI Agent。

Agent不”看”你的界面

传统软件为人类设计,一切交互围绕视觉界面展开:点击按钮、填写表单、浏览菜单。但AI Agent根本不”看”界面——它们调用API,发送结构化请求,解析JSON响应。对Agent来说,一个精心设计的UI界面和一堆未经文档化的内部API相比,后者反而更好用。

这意味着什么?意味着几十年来”界面即产品”的护城河,正在被绕过。

Simon Willison和Matt Webb近期同时指出:当个人AI代理可以不通过浏览器直接操作服务时,按人头SaaS定价模式将面临根本性挑战。一个Agent可以同时操作100个账户吗?技术上可以。但你无法按Agent人头收费——因为用户只有一个。

Headless不是技术偏好,而是经济学重构。

MCP:Agent时代的新HTTP

如果说HTTP是Web时代的通用协议,那么MCP(Model Context Protocol)正在成为Agent时代的连接层。OpenAI Agents SDK最新演进、Google的各类API开放、Salesforce的Headless 360,都在朝同一个方向收敛:让AI代理能够以程序化方式完整操作服务,而不需要模拟人类点击。

Browser Use等开源工具虽然让Agent能够控制浏览器,但这本质上是在用”拐杖”走路——模拟人类交互行为,效率低下且脆弱。真正的终局是每个服务都提供结构化的Agent接口,让交互效率提升几个数量级。

安全的隐忧

Headless带来的不只是效率提升,还有全新的攻击面。Vercel内部系统入侵事件就是一个警示:当服务的能力完全通过API暴露时,一个被攻破的Token就等于完整访问权限。

传统的浏览器界面天然包含一层”人肉防火墙”——恶意操作需要诱导用户点击。而Headless API没有这层缓冲。Anthropic在Claude Opus 4.7中引入的网络安全自动阻断机制,某种程度上就是对这种趋势的回应。

欧盟布鲁塞尔年龄验证App上线2分钟被破解,也从侧面说明了:当人类可交互的界面如此脆弱时,我们真的准备好迎接Agent直接调用API的世界了吗?

谁是赢家?

Headless Everything的趋势下,真正的赢家不是拥有最好UI的公司,而是:

  1. API设计最好的公司——Agent友好的接口设计将成为核心竞争力
  2. 数据壁垒最深的平台——当界面不再是差异点,数据和独特能力就是唯一护城河
  3. 开源生态——Browser Use、Thunderbolt等工具让小团队也能构建强大的Agent工作流

输家?是那些把界面设计当作核心竞争力、API作为事后补丁的公司。如果你的API只是你UI的附属品,在Agent时代你将被绕过。

拐点已至

2026年4月,Deezer报告平台上44%的上传音乐是AI生成的。我们已经习惯了内容生产端的”Headless化”——AI不需要打开录音棚就能创作音乐。现在,同样的逻辑正在蔓延到工具消费端:AI不需要打开你的App就能使用你的服务。

Headless Everything不只是一个技术趋势,它是AI原生时代的第一个基础设施级变化。就像移动互联网时代从桌面网站转向原生App一样,我们正在从”为人设计的界面”转向”为Agent设计的接口”。

这一次,界面不是消失了,而是从人类的眼睛前面,转移到了机器的逻辑层里。

Claude Opus 4.7的 tokenizer 争议

Anthropic 最近发布了 Claude Opus 4.7,带来了更大的图片支持——图像长边从约 800 像素提升至 2,576 像素,处理能力翻了三倍。这本该是一次值得庆祝的升级,但社区很快发现了一个令人不安的副作用:文本 token 数膨胀了约 1.35 到 1.46 倍。

换言之,同样的内容,新模型要多收你 40% 的钱。

这不是一个 bug。这是 tokenizer 升级——模型理解语言的基本方式发生了变化。问题在于,当一家 AI 公司升级底层架构时,计费逻辑往往没有同步调整。用户为”更聪明”的模型支付更多费用是合理的,但这种费用增长应该是透明的、可预期的,而不是隐藏在 tokenizer 的技术细节中。

为什么这很重要?

Token 是 AI 的计费原子单位。每一次 API 调用、每一段上下文窗口、每一次生成,都按 token 计费。当你更换 tokenizer 时,实际上是在重新定义”一个词值多少钱”。

想象一下:你用了三年的电力公司突然决定把”一度电”的定义缩小 40%,但电费单价不变。你的用电量账单会”自然”上涨 40%,而电力公司可以理直气壮地说:”我们没有涨价。”

这就是 token 膨胀的本质。

更深层的行业问题

这件事揭示的不仅是一个计费问题,而是一个系统性信任问题:

第一,计量标准缺乏统一性。 不同公司使用不同的 tokenizer,同一文本在不同模型上的 token 数可能差 2-3 倍。OpenAI 的 tiktoken、Anthropic 的新 tokenizer、Google 的分词方案——它们之间没有可比性。用户很难在不同供应商之间做出真正的成本比较。

第二,升级成本的单向转移。 模型能力提升是供应商的进步,但升级带来的 token 膨胀成本却完全由用户承担。如果新 tokenizer 处理图片更高效但处理文本更低效,用户是否有权选择使用旧 tokenizer?

第三,OpenAI 做对了一件事。 Simon Willison 指出,OpenAI 是唯一公开系统提示词的主要 AI 实验室。这种透明度虽然有限,但至少让社区有机会发现和讨论问题。Anthropic 此前也以透明著称——公开系统提示词的变化分析正是 Simon Willison 的专长。但 token 膨胀这件事,说明透明度不应只停留在提示词层面,计费机制的变更同样需要公开。

一个更公平的方案

AI 行业需要建立 token 计量的”公制化”标准:

  1. 标准化基准文本。 就像电力公司用”标准千瓦时”一样,AI 行业应该有一段或多段标准文本,所有供应商都必须报告处理这些文本所需的 token 数。用户可以据此换算真实成本。

  2. 升级前后成本承诺。 当 tokenizer 发生变化时,供应商应承诺:对于相同输入输出,新模型的实际费用不会超过旧模型的 X%(比如 110%)。超出的部分应自动折算为 token 额度返还。

  3. Tokenizer 版本锁定选项。 企业用户应该能够选择使用特定版本的 tokenizer,而不是被迫跟随每次升级。API 可以通过参数实现这一点,比如

    1
    
    tokenizer_version=claude-4.6
    

隐形税终将被看见

Token 膨胀不会是最后一次。随着模型架构持续演进——从纯文本到多模态、从单一模态到原生多模态——计费单位会不断被重新定义。每一次重新定义都是一次潜在的”隐形税”征收。

作为用户,我们不必抗拒进步,但有权要求进步的代价是透明的。AI 行业正处于从”技术驱动”向”商业驱动”转型的关键期,计费公平性将成为用户选择供应商的核心考量之一。

当一个行业开始认真对待计费透明度,才是它真正成熟的标志。

多模型共识:不只是”三个臭皮匠”

arXiv上的一项新研究(2604.14892)展示了一个令人振奋的发现:由三个顶尖大模型组成的”AI陪审团”,在高风险医疗错误识别任务上的评分一致性,超越了人类专家评审组

这不是简单的”ensemble效果更好”的又一次验证。关键在于研究设计——它模拟了真实医疗场景中的专家会诊机制:每个模型独立评估,然后通过结构化讨论达成共识。这与医疗领域长期实践的多学科会诊(MDT)模式高度契合。

为什么这件事比表面看起来更重要

1. 打破了”单一模型崇拜”

过去一年,行业竞争焦点始终是”谁的基准分数更高”。但这项研究暗示了一条不同的路径:与其追求一个全知全能的超级模型,不如构建一个多模型协同的判断系统。这降低了我们对任何单一模型”完美性”的依赖,也间接缓解了对模型幻觉的焦虑——因为幻觉不太可能在三个独立模型中产生完全相同的错误。

2. 共识机制本身可能比模型能力更关键

研究中最有启发性的不是”三个模型比一个强”——这是意料之中的。真正值得注意的是共识机制的设计如何放大了模型优势。当模型之间存在分歧时,结构化的论证过程迫使每个模型重新审视自己的推理链,这个过程本身产生了质量提升。这让人联想到物理学中的”批判性讨论”传统——最好的科学结论往往来自同行的激烈辩论,而非某个天才的独断。

3. 对医疗AI落地的实践意义

目前医疗AI面临的最大障碍不是技术能力,而是信任。医生不信任一个黑箱模型的单一判断,监管机构也难以评估单一AI系统的可靠性。但”AI陪审团”模式提供了一个自然的信任框架:它不是用一个AI替代医生,而是用多个AI模拟专家组的决策过程。这种模式更容易被医疗体系接受。

冷静思考:这不是银弹

几个需要注意的局限:

  • 成本问题:一次诊断调用三个模型,推理成本和延迟都是三倍。在急诊等时间敏感场景中,这可能不可接受。
  • 分歧处理:当三个模型出现严重分歧且无法达成共识时,如何处理?研究没有充分讨论这个边界情况。
  • 评估范围:研究聚焦于”错误识别”而非”正确诊断”,这是两个不同的问题。发现错误比做出正确诊断容易得多。
  • 领域泛化:医疗之外,这种模式是否同样有效?法律、金融等领域的”陪审团”效果有待验证。

更大的图景:从”单体智能”到”社会智能”

这项研究折射出AI发展的一个深层趋势:我们正在从追求单体智能(一个超级大脑),转向构建社会智能(多个智能体的协作系统)

Anthropic本周发布的”可信任Agent实践指南”、OpenAI Codex的多Agent并行架构、pi0.7机器人的组合泛化能力——这些看似不相关的进展,其实都在指向同一个方向。未来的AI系统可能更像一个组织,而非一个个体。

而”AI陪审团”在医疗领域的成功,可能只是这个趋势的一个缩影。


参考论文:arXiv:2604.14892

显存,才是推理真正的瓶颈

当我们谈论AI算力瓶颈时,大多数人想到的是GPU的FLOPS——每秒能跑多少次浮点运算。但在推理场景下,这个指标正在变得越来越不相关。

今天看到一个值得关注的消息:曾入选”华为天才少年”计划的创业者,连融超4亿元,方向是新一代推理芯片,核心目标是重构显存成本。这不是又一个”我们跑得更快”的故事,而是一个”我们换一条路走”的信号。

为什么显存比算力更重要?

大模型推理的工作负载有一个鲜明的特征:计算密集但访存更密集。以一个70B参数模型为例,一次前向传播需要将约140GB的参数从显存加载到计算单元。无论你的算力有多强,如果显存带宽不够,计算单元就只能等数据。

这就是所谓的”内存墙”(Memory Wall)问题。当前主流的HBM显存价格居高不下,一块H100的显存成本可能占到整张卡价格的40%以上。对于大规模推理部署而言,显存成本往往超过算力成本成为最大的开支项。

推理芯片的差异化机会

训练芯片市场已被英伟达牢牢统治,但推理芯片的格局远未定型。关键差异在于:

第一,推理的工作负载更确定。 训练需要处理各种batch size和精度,而推理往往在固定的精度和吞吐要求下运行,这为专用芯片的优化提供了更大空间。

第二,模型压缩技术的进步改变了需求。 量化(Quantization)、剪枝(Pruning)、知识蒸馏等技术让模型可以在更低精度下运行,这对显存容量和带宽的需求也随之降低,专用芯片可以用更经济的存储方案满足需求。

第三,推理的部署场景更分散。 从云端到边缘,从数据中心到端侧设备,不同的部署场景需要不同的性价比权衡,这给了新玩家切入的机会。

“重构显存成本”意味着什么?

这位天才少年创业者的方向之所以值得关注,在于他没有选择正面硬刚算力,而是从成本结构入手。可能的路径包括:

  • 新型存储架构:比如用更便宜的存储介质配合定制缓存设计
  • 存算一体:将计算单元嵌入存储阵列,减少数据搬运
  • 稀疏注意力优化:硬件层面支持稀疏计算,降低实际访存量

这些路线都指向同一个目标:在不显著牺牲推理质量的前提下,把显存相关的TCO打下来一个数量级

更深层的思考

这件事折射出一个趋势:AI基础设施的竞争正在从”训练霸权”转向”推理民主化”。谁能以更低的成本提供足够好的推理服务,谁就能在应用层爆发中获得最大的红利。

这也意味着,我们评估AI芯片的标准需要更新。不再只是”跑得快不快”,而是”跑一Token要花多少钱”。当推理成本降至某个临界点,大量目前停留在概念验证阶段的AI应用才能真正落地。

而那些能看懂这个临界点、并在之前完成布局的团队,可能就是下一个十年的英伟达。


本文基于2026年4月18日行业动态撰写,仅代表个人观点。