今天Hacker News上的一条观察引发了广泛共鸣:Show HN项目的提交量翻了三倍,但大多数呈现出高度相似的”AI编码”(vibe-coded)设计风格。圆角卡片、渐变色块、居中排版、emoji图标……你几乎不需要看标题,就能从截图中辨认出”这是AI做的”。
这不是一个审美问题,而是一个深刻的结构性问题。
同质化的根源:训练数据的回声室
AI模型之所以产出相似的设计和内容,本质上是训练数据的”平均值效应”在起作用。当你用互联网上最常见的设计模式训练一个生成模型,它输出的当然是最”安全”、最”平均”的方案。这就像让一万个普通厨师投票决定一道菜的配方——结果一定是咸淡适中、毫无惊喜的平庸之作。
更讽刺的是,随着AI生成内容越来越多地被重新投入训练管线,这种”平均化”效应会自我放大。AI产出的内容 → 互联网累积 → 下一轮训练数据 → 更加平均的输出。这个反馈循环如果不加干预,最终会收敛到一个创意的”奇点”——所有AI生成的内容都趋向于同一个模子。
基准的困境:当标尺本身被超越
与此同时,OpenAI今天宣布SWE-bench Verified已不再适合评估前沿模型的编码能力。理由很直接:模型已经把基准考满了。这让人想起ChatGPT刚发布时SAT数学分数还能拿来当卖点,而现在这个数字已经失去了比较意义。
基准失效的速度正在超过新基准的构建速度。这意味着我们对AI能力的评估体系正在出现系统性赤字——我们不知道模型”还有多强”,只知道”比这个基准强”。
当评估标尺和创意输出同时趋于同质化,我们面临一个危险:AI行业的”进步”可能正在变成一场大型对齐实验——所有模型朝同一个方向优化,所有输出朝同一个风格收敛。
开源模型的”鲶鱼效应”能拯救多样性吗?
今天DeepSeek发布V4系列,Qwen发布3.6-27B,Google发布Gemma 4——开源模型在能力上持续追赶闭源。但这能解决同质化问题吗?答案是部分肯定的。
不同团队的训练数据、对齐策略和架构选择天然会产生差异化。DeepSeek的混合注意力架构(CSA+HCA)和Qwen的稠密模型路线代表了不同的技术哲学,这种多样性最终会反映在输出质量上。
但更根本的解法在于评估机制的革新。我们需要的不只是更高的基准分数,而是能衡量”创意多样性”、”风格独特性”和”反共识能力”的新维度。一个在SWE-bench上得95分但能写出独特架构的模型,比一个得98分但产出千篇一律代码的模型更有价值。
个体开发者的机会
在这波同质化浪潮中,真正的人味儿反而成了稀缺品。刻意选择反AI的设计风格、注入个人审美偏好、在功能之外追求情感共鸣——这些”低效”的人类行为,恰恰可能是AI时代最有价值的差异化因素。
Show HN上那些一眼就能看出”不是AI做的”项目,正在获得更多的关注和尊重。这不是怀旧,而是市场对真实性的定价。
AI给了每个人生产力的翅膀,但飞往哪个方向,仍然取决于你自己。