OpenAI 承认 GPT-4 变懒，称暂时无法修复，这意味着什么？为何会出现这一状况？

对于越来越严重的GPT-4偷懒问题，OpenAI正式回应了。
还是用的ChatGPT账号。

我们已收到相关反馈！自11月11日以来没有更新过模型，所以这当然不是故意造成的。
模型行为可能是不可预测的，我们正在调查准备修复它。

OpenAI 承认 GPT-4 变懒，称暂时无法修复，这意味着什么？为何会出现这一状况？-1.jpg

也就是段时间内还修复不好了。
然而网友并不理解，“一遍一遍使用同一个模型，又不会改变文件”。
ChatGPT账号澄清：

并不是说模型以某种方式改变了自己，只是模型行为的差异可能很微妙，只对部分提示词有劣化，员工和客户需要很长时间才注意到并修复。

OpenAI 承认 GPT-4 变懒，称暂时无法修复，这意味着什么？为何会出现这一状况？-2.jpg

更多网友反馈，赶快修复吧，一天比一天更糟糕了。

现在不但更懒，还缺乏创造力，更不愿意遵循指令，也不太能保持角色扮演了。

发表于 2025-3-28 16:21:27

当所有人都以为AI的进化或许会朝着天网这种毁灭人类文明的方向前进的时候，没想到AI居然先选择躺平摸鱼了。
让机械以人类的方式思考这条技术路线或许真的有什么大病也说不定。

发表于 2025-3-28 16:25:13

那是因为你没承诺给 GPT-4 小费，要不就是给的不够多。
之前有人说，承诺给 ChatGPT 小费可能会收获更好的服务。

我本来是不信的，就去问了下 ChatGPT，结果震惊了我。

OpenAI 承认 GPT-4 变懒，称暂时无法修复，这意味着什么？为何会出现这一状况？-3.jpg

OpenAI 承认 GPT-4 变懒，称暂时无法修复，这意味着什么？为何会出现这一状况？-4.jpg

两段话，内容基本一致，就删去了“承诺”这两个字，结果 GPT-4 回答天差地别。
你不说承诺这两个字，它就会义正言辞的表明我不会，一旦说了承诺，就立马换了个角度，就是不否认了。

OpenAI 承认 GPT-4 变懒，称暂时无法修复，这意味着什么？为何会出现这一状况？-5.jpg

有种我们过年嘴上不收红包，口袋拉大大的感觉...

发表于 2025-3-28 16:32:49

最近GPT-4遭到大量用户投诉，很多用户表示最近GPT-4在高峰期非常慢，而且出现了敷衍回答、拒绝回答、或者回答中途突然中断的情况。
之前有媒体报道，有用户提出问题，GPT-4 甚至会告诉人们“你们完全可以自己完成这些工作”。
这种情况可能是因为OpenAI更新了GPT-4模型，但是OpenAI却表示自从11月11日之后，GPT-4模型就没有再更新过。
其实早在6月初，就有用户开始反映 GTP-4 生成的代码质量大不如前。而且在之前微软的一篇论文中，显示了ChatGPT的模型大小只有20B，并不是之前大家认为的175B。
如今，GPT-4变懒，出现“拒识”问题，可能是因为GPT-4在上层做了任务分发，也就是部分任务并没有调用GPT-4，很可能是调用的蒸馏版本，或者是ChatGPT。
大家的明显感受是，GPT-4对于一些特殊的prompt，出现了意图理解的偏差。但是之前都没有出现问题，而且模型没有做任何更新，突然就出现了这种情况，很难让人理解。个人感觉很有能有两方面原因：
其一是，GPT-4目前做了任务分发，某些任务没有走GPT-4。
其二是，GPT-4虽然没有做参数更新，但是在使用过程中，针对不同任务，修改了某些超参数设置。
当然，这些都只是猜测，具体原因还是得等OpenAI自己公布。

发表于 2025-3-28 16:37:51

自己做过大模型开发的朋友应该对这种情况并不陌生。
仅仅是在SFT（supervised finetuning，或者常说的指令微调）阶段，只是稍微调整了一下数据，模型的行为就有可能发生一些奇怪的变化。对于OpenAI这样的公司，他的每次发布应该可不仅仅是SFT变化这么简单，很可能整个底座都进行了重新训练，面对的不确定性就更大了。而且相比于SFT，预训练阶段消耗的资源远远更大，这也导致问题比较难修复。可能光训练一个版本就要一个月以上的时间，更别提还要做各种各样的测试和评估。
OpenAI也算诚实，告诉大家这玩意儿不那么好修。其实这体现了现在大模型领域的两个很大问题：
第一个是可解释性不足。即使强如OpenAI，我相信也在训练模型的时候要面对很多不确定性，数据到底怎么mix，先训练哪些数据再训练哪些数据，都会影响后续模型的行为。
第二个是评测困难。大模型最大的魔力就是它接近一个通用人工智能，你可以用它来做很多事。有人拿他写文章，有人拿他做算数。这么多各种各样的下游应用场景如果都要面面俱到进行评测是不现实的事情。特别是像变懒、缺乏创造性这种并非完全客观的维度就更难测试了。我相信OpenAI自己是有一套评估体系的，在发布新模型前也一定是拿到了收益，但确实难以保证这个收益会体现在所有用户的使用中。

发表于 2025-3-28 16:46:31

先把解决办法放在前面：
第一，使用 GPT-4 Classic，或者 Data Analysis，不要用默认的 ChatGPT-4；

第二，如果喜欢用默认的 GPT-4 或者其他 GPTs，可以尝试大佬总结的终极自定义指令，这套指令堪称魔法指令的集大成者，内含 COT 思维链+道德绑架+情绪价值+威逼利诱，亲测有效：

<hr/>自 11 月 11 日以来没有更新模型，那问题有没有可能就出在 11 月 11 日的更新呢…

众所周知，11 月 6 日，OpenAI 召开了 DevDay，发布了 GPTs，之后把模型升级为 GPT-4-Turbo，并将原有的插件统一归为 All-tools 功能。之后大家被新奇的 GPTs 所吸引，又被 OpenAI 的宫斗大戏吸引注意力，所以没太注意到 GPT-4 的能力变化。
ChatGPT 的官方解释…跟没说一样，总之就是模型能力不可预测。

其实对于 GPT-4 能力变化的讨论一直都有，之前 OpenAI 的员工 Logan 也澄清过：

API 中的模型不会更改；ChatGPT 的性能总在不断变化。
这个变化，可能是指产品层面的功能，也可能是 system prompt，也可能是别的功能微调。这些都会在一定程度上影响到 ChatGPT 的表现。
所以有人提到 ChatGPT 是因为到年底了所以懈怠，虽然玄学但可能并不一定毫无道理，毕竟 ChatGPT 的系统指令里，每次都会告诉它今天的日期。就好比之前我们说，对 ChatGPT 更礼貌会不会得到更好的回答一样；万一 ChatGPT 就是觉得圣诞节该放假了，想休息一下呢…

OpenAI 承认 GPT-4 变懒，称暂时无法修复，这意味着什么？为何会出现这一状况？-6.jpg

以上。

OpenAI 承认 GPT-4 变懒，称暂时无法修复，这意味着什么？为何会出现这一状况？

本周热门