OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？

OpenAI 于4 月 15 日凌晨顺势推出了三款 GPT-4.1 系列模型，不过，只能通过 API 用，不会直接出现在 ChatGPT 里。
GPT-4.1：旗舰模型，在编码、指令遵循和长上下文理解方面表现最佳，适用于复杂任务。

GPT-4.1 mini：小型高效模型，在多个基准测试中超越 GPT-4o，同时将延迟降低近一半，成本降低 83%，适合需要高效性能的场景。

GPT-4.1 nano：OpenAl 首个超小型模型，速度最快、成本最低，拥有 100 万 token 上下文窗口，适用于低延迟任务如分类和自动补全。

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-1.jpg

尽管对 OpenAI 混乱的命名逻辑早有心理准备，但 GPT-4.1 还是遭到了网友的一致吐槽，就连 OpenAI 首席产品官 Kevin Weil 也自嘲：「这周我们的命名水平肯定也没啥进步」。

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-2.jpg

GPT-4.1 模型卡 https://platform.openai.com/docs/models/gpt-4.1

编程+长文本，GPT-4.1＞GPT-4.5？

技术才是硬道理，虽然命名饱受诟病，但 GPT-4.1 的实力还是有目共睹。

OpenAI 宣称 GPT-4.1 系列模型在多项基准测试中表现出色，堪称当前最强大的编程模型之一。

能够自主完成复杂编码任务

前端开发能力提升

减少多余代码修改

更好地遵循 diff 格式

工具调用更加一致稳定

OpenAI 更是将 GPT-4.1 比喻为「quasar」（类星体），暗示它像类星体一样在 AI 领域中具有强大的影响力和能量。

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-3.jpg

在真实软件工程能力的评估标准 SWE-bench Verified 基准测试中，GPT-4.1 得分 54.6%，较 GPT-4o 提升 21.4 个百分点，较 GPT-4.5 提升 26.6 个百分点。

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-4.jpg

GPT‑4.1 在 diff 格式方面经过专门训练，更能稳定输出修改片段，节省延迟与成本。此外，OpenAI 已将 GPT‑4.1 的输出 token 上限提升至 32768 tokens，便于应对全文件重写的需求。

在前端开发任务中，OpenAI 盲测结果显示，80%评估者偏爱 GPT-4.1 生成的网页。

发表于 2025-4-18 07:51:01

最大吸引力：低价，
目标对象： API调用（大概率是针对码爷）
竞争对标：Claude 3.5/3.6/3.7
可以视为低价版Claude 3.7，（应该会拉低Claude的批发价）

O家的GPT-4.1没有Thinking，看起来，更像来反制A社，踢翻Dario Amodei的饭碗。
Claude 3.7 Thinking的SWE已经到70%，GPT-4.1是55%。这就是为什么 O家这次没有在博客中提到友商的原因。
他们的o3可以期待一下，GPT-4.1付出的性价比，o3会加倍的赚回来。也许SWE会干到75-80%，而Claude 4（或其微调版）应该可以干到90% 。Claude 4下个月应该会发布，如果O家想占一个月SOTA的时间窗口，那赶紧把o3端上来。世界早就不是围着O家转了。
速度上来看，
A社＞鲸鱼＞O家＞G厂
Qwen，还没发力。鲸鱼活糙，但速度没的说。

现在竞争路线已经产生了结构化，
OpenAI 在APP端对抗谷歌，在API端对抗Anthropic。
Google的前端设计优化版本，也快上市了，价格可以期待。

发表于 2025-4-18 07:59:36

短的结论：4.1疑似半成品，mini倒反天罡 基本信息：

GPT 4.1
成本：58块每百万
速度：约145字每秒
平均长度：约3600字
平均耗时：25秒
GPT 4.1 mini
成本：11.6块每百万
速度：约187字每秒
平均长度：约4000字
平均耗时：23秒

测试方式：参见https://zhuanlan.zhihu.com/p/32834005000 这次测试基于4月题目，已经增加#34 & #35 2道Hard题，所以所有模型的分数相比3月有变动。

GPT 4.1

GPT4.1表现出最大特点是解题思路清晰，他好像真的懂。典型如#10水果热量，可以在最初就明确逻辑，要先凑大的再调整小的。此题大多数模型虽然答对，但其实没有这样“像人”的逻辑，都是硬凑。如#11也是，很清楚如何计算和区分岛屿。#23单词解密，几乎找到了解题关键。道理讲的头头是道。但执行就是另一回事了。#10凑不满目标热量，#11甚至连地块都数错。此种问题先前在GPT4o latest中也有，但4o的结果正确率反而要更高。此外还有如下优劣势： 优势：

与GPT4o相比，编程能力有少量改善。具体改善多少有待进一步测试。
总体能力与4o相当，但价格更便宜。

劣势：

不容忽视的指令遵循缺陷，GPT4.1多数情况会遵守指令，但同时多个约束指令时，会有概率不遵守其中一两项。如#30日记整理，得分不算低，但个别较为简单的约束，反而不遵守。#22连续计算就表现更明显，因为不遵守第一条计算规则，导致后续的计算全错。
不小的概率，出现死循环。在数学问题上表现尤盛，如#25算24点，GPT4.1没有技巧进行暴力求解，然后立刻陷入死循环。#28复杂计算，在处理一个算式时陷入死循环。犯的都是低级错误。此前这种问题只出现在一些主打轻量的9B/27B的中小体量模型上。

GPT 4.1 mini

更低成本，更高性能。只要GPT4.5 1/40的成本，速度也要快3倍。虽然极限成绩挤进被推理模型占领的区域，但其单题满分率是不高的，仅30%不到。与之相近的正牌推理模型，来自商汤的日日新6.0 Reason，满分率都有40%。此外，4.1 mini的稳定性也不算高，中位相差16%，超过半数题目3pass会得到3种答案。 优势：

较好的计算能力。基本上清楚自己在计算什么。主要丢分来自过多的四舍五入导致精度误差累计。
较好的指令遵循能力，badcase主要是无法区分一些误导性文本，以及对题目中隐含的需要二次推理的内容处置能力不足。
编程能力较4.1略好一些，但不稳定性依然很高。

劣势：

与4.1同样的死循环现象。有趣的是，4.1mini居然自己自己陷入了死循环，打算换个思路。然后这个过程也陷入死循环。盗梦空间了属于是。

总评： 4.1mini的表现无疑有些倒反天罡，但反复检查脚本，确认调用正确，并且在不同API平台也跑了半轮测试后，确认mini的成绩确实如此。只是不知道是不是OpenAI的源头存在某些错误，4.1和4.1mini的部署搞反了？而且4.1和4.1mini的tps，回答耗时，平均输出长度也相似，看不出mini在何处。此处暂且不做定论，有待笔者后续进一步研究。

发表于 2025-4-18 08:09:46

今天，OpenAI正式发布了新一代大模型GPT-4.1，涵盖 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 三款子模型，所有版本均需通过 API 接口调用。
笔者在这里看到了几个重要的特性。其他特性，全网都介绍的非常清楚了。

长文本理解：GPT-4.1 系列支持 100 万个 token 的上下文窗口，是 GPT-4o 的 8 倍。在 Long Context Evals 长文本测试中，GPT-4.1 系列的三个模型均能够在语料库的任何深度找到目标文本，即使在长达 100 万 tokens 的上下文中，也能准确地定位目标。
多模态处理：在视频 MME 基准测试中，GPT 4.1 对 30 到 60 分钟无字幕视频进行理解并回答多项选择题，取得 72% 的成绩，达到当前最佳水平，在视频内容理解上实现重大突破。此外，相较于 GPT-4o，新模型在图像 - 语音 - 文本实时转换延迟降低 63%，尤其在医疗影像标注、工业图纸协同编辑等专业场景中表现突出。
价格香：GPT-4.1: 输入 $2.00 / 输出 $8.00 (每百万Token)，官方称比GPT-4o的中位数查询成本低26%。GPT-4.1 mini: 输入 $0.40 / 输出 $1.60，在性能接近甚至超越GPT-4o的同时，成本和延迟大幅降低。GPT-4.1 nano: 输入 $0.10 / 输出 $0.40，成为OpenAI有史以来最便宜、最快速的模型，且同样支持1M上下文。

从我们的视角看，Open AI 为开发者和相关从业者提供，可靠且经济的基础设施。这就更缩小了比如google ,DS等开源模型以及需要部署的成本；考验大模型除了表现效果，技术参数；还有使用成本。

发表于 2025-4-18 08:18:12

虽然年初OpenAI发布了GPT-4.5，但是一方面GPT-4.5相比GPT-4o提升不明显，另外一方面GPT-4.5价格贵得离谱，所以GPT-4o依然是OpenAI的主力模型。今天，OpenAI正式发布了新一代大模型GPT-4.1，GPT-4.1在各个方面相都优于 GPT-4o，尤其在编程和指令理解方面有显著提升。而且GPT-4.1还支持更大的上下文窗口：100 万个 token，并具备更强的长文本理解能力。最重要的是，GPT-4.1比GPT-4o更便宜，所以GPT-4.1才真正是GPT-4o的下一代继任者。补充一点是，GPT-4.1是非推理模型，但和GPT-4o一样是多模态模型，而且GPT-4.1的世界知识更新至 2024 年 6 月。
GPT-4.1系列模型包括GPT-4.1、GPT‑4.1 mini以及GPT‑4.1 nano三个模型。最大号GPT-4.1在和GPT-4o同样推理延迟下性能更好；中号模型GPT‑4.1 mini大幅度超过GPT-4o mini，接近GPT-4o，但是推理延迟只有GPT-4o的一半；新推出的小号模型GPT‑4.1 nano是OpenAI目前最快、最便宜的模型，但性能也不弱，比如MMLU 得分为 80.1%，略次于GPT-4o mini。

来源赛博禅心

目前GPT-4.1仅通过API提供，按照OpenAI的说法，在 ChatGPT 中，许多关于指令理解、编程和智能能力的改进，已经逐步融合进了最新版的 GPT‑4o。所以，ChatGPT中暂时还只能用GPT‑4o。
此外，因为 GPT‑4.1 在许多关键能力上提供了更好的或相当的性能，同时成本和延迟更低，GPT‑4.5 Preview 将于 2025 年 7 月 14 日正式下线。这意味着GPT‑4.5这种更大规模模型的探索对于OpenAI是有点失败了。

虽然GPT-4.1超过了GPT-4o，但是GPT-4.1并不是SOTA，在推理任务上还是要差于o3-mini以及DeepSeek R1等推理模型。（可以等等o4吧！）

下面是GPT-4.1在编程、指令遵循、长上下文以及视觉理解上的具体表现。
编程

GPT‑4.1 在各种编程任务上相较于 GPT‑4o 有显著提升，包括具备agent能力地解决编程问题、前端开发、减少不必要的修改、更可靠地遵循 diff 格式、确保一致的工具调用方式等方面。
在用于衡量真实世界软件工程技能的SWE-bench Verified 基准测试中，GPT‑4.1 得分为 54.6%，相比 GPT‑4o 提升了 21.4 个百分点，相比 GPT‑4.5 提升了 26.6 个百分点。

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-5.jpg

在 Aider 的多语言 diff 基准测试中，GPT‑4.1 的得分是 GPT‑4o 的两倍以上，甚至比 GPT‑4.5 也高出 8 个百分点。这项评估不仅衡量模型在多种编程语言下的编码能力，也衡量其生成完整代码或 diff 格式变更的能力。

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-6.jpg

GPT‑4.1 在前端开发方面也较 GPT‑4o 有显著提升，能够创建功能更完善、视觉更美观的网页应用。在OpenAI的对比测试中，付费的用户有 80% 的时间更偏好 GPT‑4.1 所生成的网站。

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-7.jpg

而且GPT-4.1的编程能力也在各个真实场景上得到了验证。比如在 Windsurf 的内部编码基准测试中，GPT‑4.1 的得分比 GPT‑4o 高出 60%。在Qodo上测试模型基于PR生成高质量代码评审建议，GPT‑4.1 在 55% 的案例中提供了更优的建议。
指令遵循

GPT‑4.1 在指令遵循方面更加可靠，并且在多项指令遵循评估中取得了显著进步。OpenAI开发了一套内部评估体系，用于追踪模型在多个维度和关键类别下的指令遵循表现，涵盖以下几个主要类别：

格式遵循：要求模型以特定格式输出结果，如 XML、YAML、Markdown 等。
否定性指令：指定模型应避免的行为。（例如：“不要让用户联系客户支持”）
顺序指令：给出一系列模型必须按顺序执行的指令。（例如：“先询问用户姓名，再询问用户邮箱”）
内容要求：输出内容中必须包含某些特定信息。（例如：“在制定营养计划时，必须包含蛋白质含量”）
排序：要求模型以特定方式排列输出内容。（例如：“按人口数量对国家进行排序”）
过度自信控制：要求模型在信息不明确或请求不在特定范围内时说出“不知道”或类似表述。（例如：“如果你不知道答案，请提供支持联系邮箱”）

这些类别源于开发者的反馈，他们指出了这些指令遵循能力对实际应用的重要性。在每个类别下，这里又将提示词按“简单”、“中等”、“困难”分级。GPT‑4.1 尤其在困难提示中的表现相比 GPT‑4o 有了显著提升。

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-8.jpg

在衡量模型多轮指令遵循能力的MultiChallenge 基准测试上，GPT‑4.1 比 GPT‑4o 提高了 10.5 个百分点。

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-9.jpg

GPT‑4.1 在 IFEval 基准测试中的得分为 87.4%，而 GPT‑4o 为 81.0%。

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-10.jpg

长上下文

GPT-4o支持128K上下文，但是GPT‑4.1系列模型可以处理最多1M的上下文，而且在长上下文理解上更可靠。
在内部的“大海捞针”实验中，GPT‑4.1 成功率是100%，这就是说它在所有位置和所有上下文长度下都能准确地检索到“针”。

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-11.jpg

然而，实际场景中很少有任务像检索一个单一、明显的针那样简单。真实场景中，用户常常需要模型检索并理解多个信息片段，并且要理解这些片段之间的相互关系。为了评估这一能力，OpenAI开源了一个新的评估：OpenAI-MRCR，用来测试模型在上下文中查找并消歧义多个隐藏信息的能力。该评估由一系列用户与助手之间的多轮合成对话组成，用户要求写一篇关于某个主题的文章，例如“写一首关于貘的诗”或“写一篇关于岩石的博客”。然后，在上下文中插入两个、四个或八个相同的请求。模型必须检索与特定实例对应的响应（例如，“给我第三首关于貘的诗”）。
这个任务非常具有挑战性，因为这些请求与其余上下文有很强的相似性，模型很容易被微妙的差异误导，比如一篇关于貘的短篇小说而不是诗歌，或是关于青蛙的诗歌而不是貘的诗歌。这里，GPT‑4.1 在上下文长度达到 128K 时优于 GPT‑4o，并且即使在达到1M上下文时也能保持强大的性能。

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-12.jpg

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-13.jpg

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-14.jpg

在另外一个评估多跳长上下文推理的数据集Graphwalks上，GPT‑4.1 在这个基准测试中达到了 61.7% 的准确率，与 o1 的表现相当，并且大大超过了 GPT‑4o。

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-15.jpg

很多用户使用长上下文的应用场景需要在上下文中进行多个逻辑跳跃，例如在编写代码时在多个文件之间跳转，或在回答复杂的法律问题时交叉引用文档。而Graphwalks 设计为需要跨多个上下文位置进行推理，并且不能按顺序解决，所以能很好地评测这方面的能力。
视觉理解

GPT‑4.1 系列在图像理解方面表现也很好，其中GPT‑4.1 mini甚至在图像基准测试中超过了 GPT‑4o。

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-16.jpg

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-17.jpg

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-18.jpg

长上下文性能对于多模态应用场景也非常重要，例如处理长视频。在 Video-MME（无字幕长视频）基准测试中，模型根据30至60分钟长的无字幕视频回答多项选择题。GPT‑4.1 达到了最先进的性能，得分为72.0%，相比 GPT‑4o 的 65.3% 有了显著提升。

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-19.jpg

最后要说的是，GPT-4.1的API价格也更便宜，其中GPT‑4.1 比 GPT‑4o 便宜 26%，而 GPT‑4.1 nano 是我们迄今为止最便宜和最快的模型。

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-20.jpg

下面是GPT-4.1的实测：

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-21.jpg

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-22.jpg

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-23.jpg

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-24.jpg

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-25.jpg

这个错了，应该是35

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-26.jpg

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？-27.jpg

发表于 2025-4-18 08:29:03

现在知道大模型为什么算不对 9.11 和 9.8 了吧，OpenAI 教你学数学：4.1 > 4.5。

GPT-4.5 已经彻底沦为了 GPT-4.1 的陪衬。现在看来，也许 GPT-4.5 存在的意义就是比价，先拿出一个贵的离谱的模型，然后再发一个常规模型，告诉大家 GPT-4.1 的价格是 4.5 的零头，而且性能更好。（也有可能 GPT-4.1 是 GPT-4.5 蒸馏出来的，但那为啥不叫 GPT-4.5-turbo 呢？）
而且吧…性能真的足够好吗？按照部分测试的分数来看，创意写作比不过 DeepSeek R1[1]：

编程似乎打不过 DeepSeek V3-0324[2]：

所以你看 OpenAI 发布会上放出的成绩是那么的和谐，毕竟只跟自己比，超越自我。

如果放在 OpenAI 领先的时候，自己跟自己比叫突破上限，现在，GPT 上限打不过 Gemini 2.5 Pro，编程打不过 Claude，开源跟不上 DeepSeek 和 Qwen，折腾的 4.5 和 4.1 都没啥意思。
你说 GPT-4.1 的优势是价格？但 GPT 什么时候沦落到要打价格战了？Claude 3.7 Sonnet 也很贵，没影响人家的评价吧。而且目前来看，即便是 GPT-4.1 mini 和 nano 也没能突破 Gemini 的帕累托曲线[3]：

如果是免费的 Quasar 我给 8 分，如果是 $8 的 GPT-4.1 我只能说为啥不用 Claude 3.5。从匿名参加 LMArena 排行榜，到匿名发布 OpenRouter API，OpenAI 在搞 hype 炒作上总有新点子。反观 DeepSeek，啥也不懂，就会一言不合开源，死板无趣。
这么一说我突然理解为啥首发是 Quasar API，而不是上竞技场了。一方面竞技场现在被 Gemini 2.5 Pro 霸榜了，可能突破不了；另一方面，Llama 4 刚刚在竞技场翻车了，GPT-4.1 也不敢在竞技场上刷分。
讲道理我之前没少吹 OpenAI，当时我经常说一句话，「大模型产业就是赢者通吃」，大家只会关注当下最领先的模型。但 GPT-4.1 这表现我感觉就是废了。
大家期待的要么是能力突破上限，要么是足够有特色。虽然 GPT-4o 的作图很惊艳，全局记忆功能也有点意思，但从模型上讲，用户有着丰富的选择，GPT 并没有绝对的吸引力。
以上。

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？

本周热门