OpenAI 最新发布的 GPT-4.1 系列模型，性能体验如何？

OpenAI于2025年推出GPT-4.1系列，包含标准版、Mini和Nano版本，主打性能优化与多模态能力。相较于前代GPT-4o和GPT-4 Turbo，如何看待本次更新分化为不同规模模型的考虑？
参考链接：https://openai.com/index/gpt-4-1/

发表于 2025-4-18 09:23:56

两个观察：OpenAI开始重视API业务了，面向开发者的GPT 4.1和面向普通用户聊天的GPT 4o开始分叉。
GPT 4.1标志着OpenAI思路变了，从原来一心只想做to C业务到现在也开始重视开发者和to B了。新发布的GPT 4.1系列模型只能通过API访问，ChatGPT上暂时用不了。

之前OpenAI有什么新功能都是优先ChatGPT的app，完全面向消费者的思路，API是第二优先级。比如GPT 4o的图像生成至今没有开放API，比如o1 Pro延迟了3个月才放出API，Deep Research用的底层模型o3至今也没有放出API。
OpenAI估计是看到Anthropic主打to B，营收一年增长1100%，所以也开始战略转移，重视API业务了。

发布会上，OpenAI专门请来了windsurf的CEO，宣布windsurf上GPT 4.1免费使用1周。这也是故意为之，对标cursor+Claude，做windsurf + GPT。
从商业战略角度看得出来OpenAI是刻意抬高API权重。
第二个观察，那就是聊天和开发者对于模型的需求并不是完全一样的。
对于面向用户的聊天，格式、内容详略、语气都很重要。但面向开发者，处理Agent流程的工具调用、代码修改，需要的是快准狠，不要废话。
过去是一个模型既用来聊天，又可以放在API里面做数据清洗、Agent。但是水土不服的情况很明显——Claude 3.6 Sonnet在代码上广受好评，但是日常聊天的时候太过简洁，很不舒服。
所以从这个角度去理解——GPT 4.1是专门针对开发者所需，强化指令遵循、代码能力、做题能力的模型。面向个人用户的GPT 4o则要针对聊天场景进行优化，GPT 4.1并不是完全取代GPT 4o的关系。
之前GPT 4.1以Quasar alpha和Optimus alpha的名义内测，在OpenRouter上调用量直接就飙升到了第一名。虽然说内测的时候免费，但这么大的调用量，说明开发者还是认可的。

从定价来说，GPT 4.1是输入2美元，输出8美元；GPT 4.1 mini是0.4 / 1.6美元；GPT 4.1 nano是0.1 / 0.4美元。这价格其实是非常有竞争力的。
mini和nano这两个级别的模型，也补足了OpenAI在低价位段模型布局不足的短板。之前只有GPT 4o mini一个模型，现在1美元附近，有3个模型可以使用了。

发表于 2025-4-18 09:34:53

我觉得不太用关心。主要就是多了一个ux vibe coding 类似于DS的V3324，这个模型应该是去反制Claude 3.7的，Claude在开发者中API调用率很高。
我大概可以想到的是GPT-4.1出低价，打Claude 3.7，o3出高价套取利润，把Claude3.7 / 3.7T夹在中间。 GPT-4.1这糊一脸的名字，也透着Claude 3.7的中二气息。（我一开始的猜测应该是错的，GPT-4.1应该又是一个4系的微调版，和Sonnet一样，一模调三代，缝缝补补又一代。） 2/8美元的价格，是我猜测的Claude 3.7原本应该达到的价格，这个低价是合理的，是Dario自己说的，同模价格每年降一半。所以，Claude 3.7可能也会跟进降价。
实际上，我想4.1和o3的关系，就是3.7/3.7T的关系。为了不被人骂，刻意把两者分开。
我想o3主要是去割ChatGPT APP用户的韭菜，毕竟这帮人已经套死在ChatGPT上了，天下愚蠢的事很多，最蠢的是韭菜已经跑到你刀下了，你不去割。但如果发现o3就是4.1这种10刀不到的低价模型做的，ChatGPT就别混了。——&#34;Altman先生，不总是那么坦诚&#34;，算是他的最佳注脚了。

OpenAI 现在还是要靠full o3了，这是品牌价值所在。

Google Gemini 2.5 Pro 顶在毋庸置疑的榜首，
full o3要抓紧时间推出，在Google密密麻麻的&#34;下一个微调版&#34;到来前，
如果o3非常昂贵，gemini next finetune 会教OpenAI做人。
Sam Altman预期用量会爆发，会发生么？
既要打Google，又要打Anthropic可真的累。

发表于 2025-4-18 09:44:12

萨姆·奥特曼：我们将优化命名规则
两个月后，陆续有
gpt4.5
gpt4o(0326)
gpt4.1
gpt4.1mini
gpt4.1nano
o3 full
o4mini
o4mini-high
奥特曼不等式：4.1＞4.5
关键这哥们自己都绷不住了

发表于 2025-4-18 09:57:29

白嫖！GPT 4.1凌晨上线，卷王Cursor火速接入，反手就给免费开放了

就在今天凌晨一点
OpenAI 正式通过 API 形式发布了全新的 GPT-4.1 系列模型。

这次发布的GPT-4.1 系列包含包括三个不同定位的版本：

GPT-4.1：高性能旗舰模型，支持100k超长上下文，性能全面超越 GPT-4o。
GPT-4.1 mini：性能接近 GPT-4o，但更快更省钱。
GPT-4.1 nano：极致轻量，速度最快、成本最低，适合轻量任务和对延迟敏感的场景。

而且，就在 GPT-4.1 发布不到一个小时，Cursor就官宣接入了 GPT-4.1，而且还完全免费！

Cursor 真的是卷王之王，第一时间接入 + 免费开放。
不仅卷，还财大气粗，新用户注册有14天的免费pro，而且还可以通过各种方式来无限续杯。明明一个月才20美刀的订阅费，但是可以直接用各种高级模型，Cursor太有钱了。
在Cursor中启用GPT-4.1也很方便：点击File - Preference - Cursor Settings，选择Models，找到 gpt-4.1勾选上即可

不过，目前Cursor只接入了 gpt-4.1，还没有接入 4.1-mini 和 4.1-nano 模型。
简单生成个代码试一下，让GPT-4.1运行20个弹性小球：
提示词如下（来自 https://github.com/KCORES/kcores-llm-arena ）：

Write a Python program that shows 20 balls bouncing inside a spinning heptagon:
- All balls have the same radius.
- All balls have a number on it from 1 to 20.
- All balls drop from the heptagon center when starting.
- Colors are: #f8b862, #f6ad49, #f39800, #f08300, #ec6d51, #ee7948, #ed6d3d, #ec6800, #ec6800, #ee7800, #eb6238, #ea5506, #ea5506, #eb6101, #e49e61, #e45e32, #e17b34, #dd7a56, #db8449, #d66a35
- The balls should be affected by gravity and friction, and they must bounce off the rotating walls realistically. There should also be collisions between balls.
- The material of all the balls determines that their impact bounce height will not exceed the radius of the heptagon, but higher than ball radius.
- All balls rotate with friction, the numbers on the ball can be used to indicate the spin of the ball.
- The heptagon is spinning around its center, and the speed of spinning is 360 degrees per 5 seconds.
- The heptagon size should be large enough to contain all the balls.
- Do not use the pygame library; implement collision detection algorithms and collision response etc. by yourself. The following Python libraries are allowed: tkinter, math, numpy, dataclasses, typing, sys.
- All codes should be put in a single Python file.

复制代码

结果如下，效果还是非常好的

本来还想用Cursor生成个复杂的多文件项目，不过用gpt-1的Agent实测下来总是生成失败，不能调用工具，也不能自动Apply（偶尔能成功），用gpt-4o测试了一下也是类似的情况。
但使用Claude就完全没问题，猜测可能是因为Cursor没有专门针对gpt优化的原因，所以目前最强的编程模型还是Claude。
根据官网的介绍，gpt-4.1在SWE-bench上面取得了很好的结果，是OpenAI系列模型中代码能力最强的。不过这里并没有和Claude等模型进行横向对比，不好评价。

<hr/>@杰一学长AI编程

发表于 2025-4-18 10:08:43

4.5 下一个版本是 4.1，Altman 你比大小是 GPT 教的吧?
GPT-4.1 和 GPT-4.5 哪个大恐成为新测试题.
GPT-4.1 被证实就是 OpenRouter 上的 Quasar Alpha, OpenAI 都沦落到要上马甲了.
<hr/>OpenAI 要是正常命名的话差不多是 GPT-4.7, 可以恶心一下 Anthropic 的 Claude 3.7.
现在的问题就是 GPT 打不过 Gemini 2.5 也打不过 Claude 3.5.
再沿着这个命名, 那么 GPT4 = Claude 3 = Gemini 2 这个等式要刻入其他人脑子里了.
<hr/>至于低价, 这个低价比的是自家的 150 刀的离谱价格, 最低档没法用的 nano 版本都要 1M 三块钱.
作为主打 Coding 的模型, nano 版本无论是价格还是性能都不如代码强化后的 DeepSeek V324.
看来 4月还找不到能吹的模型.
<hr/>Coding 能力应该是今年的大模型争斗重点, 文学能力基本上达到普通人的辨别临界点了, 除非有显著突破, 否则用户侧感知不会有什么提升.
看看 qwen 和 deepseek 能不能端点真正 Amazing 的模型上来.

OpenAI 最新发布的 GPT-4.1 系列模型，性能体验如何？

本周热门