设计工具中的人工智能模型崩溃:为什么你的背景移除功能越来越差?

设计工具中的人工智能模型崩溃:为什么你的背景移除功能越来越差?

设计工具中的人工智能模型崩溃:为什么你的背景移除功能越来越差?
设计工具中的人工智能模型崩溃:为什么你的背景移除功能越来越差?

2025年8月:我用背景移除工具处理了一张客户的照片。照片边缘看起来像被啃过一样,就像有人用调到“醉酒”模式的电锯锯过一样。

又试拍了三张照片,还是有同样的奇怪瑕疵。

我重新打开了二月份的一个项目,把同一张照片重新上传到了同一个工具。结果八月份的结果比二月份还差。

同一张照片,同一工具,间隔六个月,结果却明显更差。

这就是模型崩溃——人工智能系统使用其他人工智能系统生成的合成数据进行训练。这不是理论上的,而是正在降低你现在使用的工具的性能。

模型崩溃的真正含义是什么?

当机器学习模型使用包含大量人工智能生成内容的数据集进行训练时,就会发生模型崩溃。每次训练迭代都会累积微小的误差和偏差,最终导致模型质量逐渐下降。

想象一下,先复印一份文件,再复印复印件,再复印复印件。到了第十代,文本几乎无法辨认,而且还引入了原本不存在的痕迹。

你的设计工具现在的情况就是这样。只不过,它用的不是复印机,而是机器学习模型,这些模型会根据自身的输出进行训练。(你的工具大概是第五代,也可能是第六代。)

发表在《自然》杂志上的一项研究表明,当人工智能模型使用合成数据进行训练时,输出质量会在五个训练周期内开始下降。到第30代时,手写数字会融合成一个模糊的形状。质量下降,多样性消失。

问题在于数学层面:人工智能系统会根据训练数据中的模式进行优化。当这些数据越来越多地包含其他人工智能输出——而这些输出本身又会根据退化的模式进行优化——这种反馈循环会加速退化。

而互联网,也就是大多数人工智能训练数据的来源,现在估计有50%到60%的内容是由人工智能生成的。(事实证明,让人工智能用内容淹没互联网是有后果的。谁能想到呢。)

你的背景移除工具?很可能是用包含人工智能生成背景或人工智能处理边缘的图像重新训练的。所以新版本是从人工智能的输出结果中学习的,而不是从人工评判的质量标准中学习的。

生产工具性能退化测试

我以一种偏执的方式验证了这一点:保存了10个旧项目的样本,包括它们的AI输出和日期。三个月后,用当前版本的工具运行了相同的输入数据,并进行了比较。

边缘质量更差。瑕疵更多。一致性更差。需要更多手动校正时间。

如果六个月后同样的输入却产生了更差的输出,说明你的工具性能下降了。你自己测试一下。(我的工具就是这样,你的可能也会。)

设计工作流程中性能下降的体现位置

背景移除工具

过去能够可靠处理复杂场景的背景移除 API 现在却会产生不稳定的结果。六个月前只需简单清理的头发边缘,现在却需要大量的人工处理。

算法忘记了它以前能够正确处理的场景。这不是漏洞。这是训练数据质量下降的结果,因为它包含了人工智能处理后本身就略有误差的边缘。

人工智能图像生成器

使用越来越多被人工智能艺术作品污染的数据集训练的图像生成工具,会呈现出特定的退化模式:

  • 手部手指数量不正确或存在解剖结构问题

  • 面部比例逐渐趋向于通用的“人工智能外观”。

  • 背景细节变得越来越抽象

  • 颜色关系感觉有点不对劲

为客户的演示文稿绘制了一幅插图。乍一看还不错,但总觉得哪里不对劲。比例不太对,颜色搭配也略显怪异。

客户拒绝了。只好委托一位插画师绘制。原本三天就能完成,结果花了八天。错过了他们的董事会会议。

那种“感觉不对劲但又说不出为什么”的感觉?那就是模型崩溃造成的微妙劣化,你无法用语言表达,但客户肯定能察觉到。

莱斯大学的研究人员发现,当图像生成模型使用自身的输出进行训练时,会累积故障和瑕疵。最终会导致:图像失真、手指变形、图案起皱。

文本和复制工具

人工智能写作助手出现同质化现象:无论语气如何设定,输出结果听起来都差不多。模型在越来越统一的合成文本上进行训练。

我曾用人工智能写作助手来撰写初稿字幕。它以前会给出各种不同语气的建议。现在听起来都千篇一律了。这就是人工智能训练自己写作的弊端——它失去了让文字生动有趣的独特之处。

如果你发现所有 AI 生成的草稿都像是出自同一个人之手,那并非你的错觉。

为什么工具制造商无法轻易解决这个问题

根本问题在于:人工智能公司需要海量的训练数据集。互联网曾经就是这样的数据集。但如今,互联网上大部分内容都是合成的。

在当今互联网上训练人工智能,就像学习那些从人工智能食谱中学习的人编写的食谱一样。最终,每个人​​都会做出同样错误的东西。

他们可以尝试过滤掉人工智能生成的内容,但祝他们好运:

检测结果不可靠:人工智能检测工具的误报率高达 15-20%。试想一下,用一个五分之一都会出错的工具来过滤数十亿张图像。(这就是为什么你的垃圾邮件文件夹会拦截你的真实邮件。)

规模过大使得内容管理变得不可能:人工审核数十亿张图片是不切实际的。除非你拥有一支判断力完美、耐心无限、且从不休息的实习生队伍。

混合内容无处不在:人工排版+AI插画+人工编辑=什么?“真正的人工内容”时代已经过去了。

经济激励机制倾向于数据量:更多的训练数据意味着“更好”的模型。但这会导致后续的崩溃,这对Future Quarter来说是个问题。(Future Quarter的问题清单越来越长了。)

研究人员估计,到2026年,超过90%的在线内容将由人工智能生成或受人工智能影响。人工智能公司正在利用自身产生的废气构建的互联网来训练其模型。

我的抠图工具五个月就失效了。明年可能三个月就失效了。然后一年就失效了。这种情况正在加速恶化。

构建具有人工智能韧性的设计系统(或者:如何停止默认信任人工智能)

由于人工智能工具的性能下降速度正在加快,以下是如何构建保持可靠性的工作流程:

实施多阶段质量检查

我再也不相信人工智能的输出结果了。永远不会。我现在的工作流程是:人工智能生成问题(2分钟),自动质量检查(1分钟),人工审核标记的问题(5-10分钟),人工完善(10-15分钟)。总共耗时18-28分钟,而以前只靠人工智能只需要5分钟。

我以前当天就能完成背景移除,现在我告诉客户需要三天时间。额外的质检时间并非可有可无——它决定了作品能否被客户接受,还是需要全部重做。(客户重做的成本远高于质检时间。我为此付出了惨痛的代价。)

版本锁定您的工具

我可是付出了惨痛的代价才学到这个教训。我之前用过一款背景移除工具,效果非常好。它一夜之间自动更新了。结果第二天早上起来,所有边缘都变得一团糟。我花了三个小时回滚版本,才找到之前那个能用的版本。

现在,每当我找到一个可用的工具版本,我都会将其冻结:记录版本号,如果可以的话保存安装程序,并记下日期和性能数据。升级前先进行测试。绝不自动升级。

2024年11月的更新版本性能可能不如2024年8月的版本。这种情况发生的频率比工具制造商承认的要高。

(没错,“不要升级到最新版本”违背了我们所学的一切。但是,调试工具在“改进”后反而变差的原因也同样违背了我们所学的一切。)

维护人工整理的参考资料库

我保存了一个文件夹,里面存放着我知道是人类创作的设计参考资料:来自已验证来源的真实产品截图、有记录的人类作者设计作品、2022 年之前的历史参考资料(在 AI 图像生成器足够好到可以污染事物之前)、有已知来源的直接客户作品。

现在搜索“现代仪表盘设计”,你会看到由人工智能生成的示例,而这些示例本身也是由人工智能训练的。反馈循环层层递进。

我精心整理的参考书库是我的安全保障。当人工智能给出通用输出时,我会将其与已知的可靠参考资料进行比对。这通常能准确地指出缺失的内容。

文档设计决策

我开始记录每一个设计选择。不是为了别人,而是为了我自己。比如,当我选择蓝色(#2E5C8A)作为行动号召按钮的颜色时,我会记下原因:测试表明蓝色比绿色转化率高出15%。日期、上下文,所有细节都会记录下来。

构建一个不受人工智能反馈循环污染的知识库。当人工智能建议使用绿色按钮时,我会指出我的笔记,上面显示蓝色按钮表现更好。

(一开始感觉有点小题大做,但当人工智能自信地推荐你已经证明行不通的东西时,你就会觉得它很聪明。)

实用检测策略

我开始用背景移除工具处理同一张图片三次。如果三次处理结果都不一样,那就说明工具出问题了。毛发和皮毛边缘最先出现问题——我现在每周都会检查一次。我会和六个月前的输出结果进行对比。当我手动修复超过20%的输出结果时,这个工具就失效了。

图像生成方面:我根据相同的提示生成五个变体,以查看它们的相似度。(过于相似则会导致图像重叠。)将图像放大到 200%,检查手部——手指数量错误或关节弯曲异常都是可靠的判断标准。我记录手动校正的时间。校正时间越长,图像质量就越差。

对于文本:如果每篇输出都使用了“深入研究”、“利用”和“整体性”这几个词,那就说明某些方面出了问题。我会进行查重,以发现重复内容。我会比较五代文本的语气。我会追踪自己重写了多少内容。如果全部都要重写,那我干脆自己写。

这对开发人员工作流程意味着什么

人工智能工具现在就像薛定谔的助手:在你实际检查输出结果之前,它们既有用又有缺陷。

如果您正在构建依赖于 AI API 的系统:

不要想当然地认为 API 稳定。每月都要进行测试。不同版本之间性能会下降,有时甚至同一版本内部性能也会下降。一次 API 更新就可能导致你发布的是一堆垃圾。

构建质量监控。记录质量指标。分数下降时发出警报。你需要在用户注意到之前发出预警。他们肯定会注意到。然后他们会抱怨。然后他们会离开。

制定人工回退方案。人工智能不应成为单一故障点。准备好人工审核。一个错误的 API 版本就可能导致整个流程崩溃。

对集成进行版本控制。如果某个 API 版本运行正常,就坚持使用它。切勿自动升级。更新的版本并不意味着更好。

对利益相关者进行培训。“人工智能让一切瞬间完成”的说法已经过时了。他们之前听说的“5分钟交付”?现在需要20分钟才能交付可交付成果。请据此调整预算。

现实检验

模型崩溃并非纸上谈兵,它现在已经影响到生产工具。

互联网上大部分内容都是合成的。每个用互联网数据重新训练的模型都会继承更多的污染。这只会加速污染,而不会改善污染。

测试你的工具。建立质量检查机制。不要默认信任人工智能。

人工智能性能的下降反而凸显了人类判断的价值。你识别性能下降的输出结果、理解问题所在并根据实际需求进行修复的能力——这些技能并不会消失。

下次你的背景移除工具出现奇怪的边缘时,相信你的直觉。这很可能是模型塌陷造成的。

同样的道理也适用于那些看起来“怪异”的插图或听起来千篇一律的文案。经过人工智能训练的人工智能会生成复印件的复印件。到了第十代,你就无法辨认文本了。

你们的工具大概是第五代,也可能是第六代了。它们并没有变得更好。

2026年1月20日

|