当所有AI生成的内容看起来都一样：我们正在失去创意的多样性吗？

今天Hacker News上的一条观察引发了广泛共鸣：Show HN项目的提交量翻了三倍，但大多数呈现出高度相似的”AI编码”（vibe-coded）设计风格。圆角卡片、渐变色块、居中排版、emoji图标……你几乎不需要看标题，就能从截图中辨认出”这是AI做的”。

这不是一个审美问题，而是一个深刻的结构性问题。

同质化的根源：训练数据的回声室

AI模型之所以产出相似的设计和内容，本质上是训练数据的”平均值效应”在起作用。当你用互联网上最常见的设计模式训练一个生成模型，它输出的当然是最”安全”、最”平均”的方案。这就像让一万个普通厨师投票决定一道菜的配方——结果一定是咸淡适中、毫无惊喜的平庸之作。

更讽刺的是，随着AI生成内容越来越多地被重新投入训练管线，这种”平均化”效应会自我放大。AI产出的内容 → 互联网累积 → 下一轮训练数据 → 更加平均的输出。这个反馈循环如果不加干预，最终会收敛到一个创意的”奇点”——所有AI生成的内容都趋向于同一个模子。

与此同时，OpenAI今天宣布SWE-bench Verified已不再适合评估前沿模型的编码能力。理由很直接：模型已经把基准考满了。这让人想起ChatGPT刚发布时SAT数学分数还能拿来当卖点，而现在这个数字已经失去了比较意义。

基准失效的速度正在超过新基准的构建速度。这意味着我们对AI能力的评估体系正在出现系统性赤字——我们不知道模型”还有多强”，只知道”比这个基准强”。

当评估标尺和创意输出同时趋于同质化，我们面临一个危险：AI行业的”进步”可能正在变成一场大型对齐实验——所有模型朝同一个方向优化，所有输出朝同一个风格收敛。

今天DeepSeek发布V4系列，Qwen发布3.6-27B，Google发布Gemma 4——开源模型在能力上持续追赶闭源。但这能解决同质化问题吗？答案是部分肯定的。

不同团队的训练数据、对齐策略和架构选择天然会产生差异化。DeepSeek的混合注意力架构（CSA+HCA）和Qwen的稠密模型路线代表了不同的技术哲学，这种多样性最终会反映在输出质量上。

但更根本的解法在于评估机制的革新。我们需要的不只是更高的基准分数，而是能衡量”创意多样性”、”风格独特性”和”反共识能力”的新维度。一个在SWE-bench上得95分但能写出独特架构的模型，比一个得98分但产出千篇一律代码的模型更有价值。

在这波同质化浪潮中，真正的人味儿反而成了稀缺品。刻意选择反AI的设计风格、注入个人审美偏好、在功能之外追求情感共鸣——这些”低效”的人类行为，恰恰可能是AI时代最有价值的差异化因素。

Show HN上那些一眼就能看出”不是AI做的”项目，正在获得更多的关注和尊重。这不是怀旧，而是市场对真实性的定价。

AI给了每个人生产力的翅膀，但飞往哪个方向，仍然取决于你自己。