OpenAI 最新发布的 GPT-4.1 系列模型,性能体验如何?

OpenAI于2025年推出GPT-4.1系列,包含标准版、Mini和Nano版本,主打性能优化与多模态能力。相较于前代GPT-4o和GPT-4 Turbo,如何看待本次更新分化为不同规模模型的考虑?
参考链接:https://openai.com/index/gpt-4-1/

OpenAI 最新发布的 GPT-4.1 系列模型,性能体验如何?-1.jpg
收藏者
0
被浏览
106

5 个回答

兰若 LV

发表于 前天 09:23

两个观察:OpenAI开始重视API业务了,面向开发者的GPT 4.1和面向普通用户聊天的GPT 4o开始分叉。
GPT 4.1标志着OpenAI思路变了,从原来一心只想做to C业务到现在也开始重视开发者和to B了。新发布的GPT 4.1系列模型只能通过API访问,ChatGPT上暂时用不了。

OpenAI 最新发布的 GPT-4.1 系列模型,性能体验如何?-1.jpg

之前OpenAI有什么新功能都是优先ChatGPT的app,完全面向消费者的思路,API是第二优先级。比如GPT 4o的图像生成至今没有开放API,比如o1 Pro延迟了3个月才放出API,Deep Research用的底层模型o3至今也没有放出API。
OpenAI估计是看到Anthropic主打to B,营收一年增长1100%,所以也开始战略转移,重视API业务了。

OpenAI 最新发布的 GPT-4.1 系列模型,性能体验如何?-2.jpg

发布会上,OpenAI专门请来了windsurf的CEO,宣布windsurf上GPT 4.1免费使用1周。这也是故意为之,对标cursor+Claude,做windsurf + GPT。
从商业战略角度看得出来OpenAI是刻意抬高API权重。
第二个观察,那就是聊天和开发者对于模型的需求并不是完全一样的
对于面向用户的聊天,格式、内容详略、语气都很重要。但面向开发者,处理Agent流程的工具调用、代码修改,需要的是快准狠,不要废话。
过去是一个模型既用来聊天,又可以放在API里面做数据清洗、Agent。但是水土不服的情况很明显——Claude 3.6 Sonnet在代码上广受好评,但是日常聊天的时候太过简洁,很不舒服。
所以从这个角度去理解——GPT 4.1是专门针对开发者所需,强化指令遵循、代码能力、做题能力的模型。面向个人用户的GPT 4o则要针对聊天场景进行优化,GPT 4.1并不是完全取代GPT 4o的关系。
之前GPT 4.1以Quasar alpha和Optimus alpha的名义内测,在OpenRouter上调用量直接就飙升到了第一名。虽然说内测的时候免费,但这么大的调用量,说明开发者还是认可的。

OpenAI 最新发布的 GPT-4.1 系列模型,性能体验如何?-3.jpg

从定价来说,GPT 4.1是输入2美元,输出8美元;GPT 4.1 mini是0.4 / 1.6美元;GPT 4.1 nano是0.1 / 0.4美元。这价格其实是非常有竞争力的。
mini和nano这两个级别的模型,也补足了OpenAI在低价位段模型布局不足的短板。之前只有GPT 4o mini一个模型,现在1美元附近,有3个模型可以使用了。

OpenAI 最新发布的 GPT-4.1 系列模型,性能体验如何?-4.jpg

漏网之鱼 LV

发表于 前天 09:34

我觉得不太用关心。主要就是多了一个ux vibe coding 类似于DS的V3324,这个模型应该是去反制Claude 3.7的,Claude在开发者中API调用率很高。
我大概可以想到的是GPT-4.1出低价,打Claude 3.7,o3出高价套取利润,把Claude3.7 / 3.7T夹在中间。 GPT-4.1这糊一脸的名字,也透着Claude 3.7的中二气息。 (我一开始的猜测应该是错的,GPT-4.1应该又是一个4系的微调版,和Sonnet一样,一模调三代,缝缝补补又一代。) 2/8美元的价格,是我猜测的Claude 3.7原本应该达到的价格,这个低价是合理的,是Dario自己说的,同模价格每年降一半。 所以,Claude 3.7可能也会跟进降价。
实际上,我想4.1和o3的关系,就是3.7/3.7T的关系。 为了不被人骂,刻意把两者分开。
我想o3主要是去割ChatGPT APP用户的韭菜,毕竟这帮人已经套死在ChatGPT上了,天下愚蠢的事很多,最蠢的是韭菜已经跑到你刀下了,你不去割。但如果发现o3就是4.1这种10刀不到的低价模型做的,ChatGPT就别混了。——"Altman先生,不总是那么坦诚",算是他的最佳注脚了。

OpenAI 现在还是要靠full o3了,这是品牌价值所在。

Google Gemini 2.5 Pro 顶在毋庸置疑的榜首,
full o3要抓紧时间推出,在Google密密麻麻的"下一个微调版"到来前,
如果o3非常昂贵,gemini next finetune 会教OpenAI做人。
Sam Altman预期用量会爆发,会发生么?
既要打Google,又要打Anthropic可真的累。

Javabloger LV

发表于 前天 09:44

萨姆·奥特曼:我们将优化命名规则
两个月后,陆续有
gpt4.5
gpt4o(0326)
gpt4.1
gpt4.1mini
gpt4.1nano
o3 full
o4mini
o4mini-high
奥特曼不等式:4.1>4.5
关键这哥们自己都绷不住了

OpenAI 最新发布的 GPT-4.1 系列模型,性能体验如何?-1.jpg

流风回雪 LV

发表于 前天 09:57

白嫖!GPT 4.1凌晨上线,卷王Cursor火速接入,反手就给免费开放了


就在今天凌晨一点
OpenAI 正式通过 API 形式发布了全新的 GPT-4.1 系列模型。

OpenAI 最新发布的 GPT-4.1 系列模型,性能体验如何?-1.jpg

这次发布的GPT-4.1 系列包含包括三个不同定位的版本:

  • GPT-4.1:高性能旗舰模型,支持100k超长上下文,性能全面超越 GPT-4o。
  • GPT-4.1 mini:性能接近 GPT-4o,但更快更省钱。
  • GPT-4.1 nano:极致轻量,速度最快、成本最低,适合轻量任务和对延迟敏感的场景。
而且,就在 GPT-4.1 发布不到一个小时,Cursor就官宣接入了 GPT-4.1,而且还完全免费!

OpenAI 最新发布的 GPT-4.1 系列模型,性能体验如何?-2.jpg

Cursor 真的是卷王之王,第一时间接入 + 免费开放。
不仅卷,还财大气粗,新用户注册有14天的免费pro,而且还可以通过各种方式来无限续杯。明明一个月才20美刀的订阅费,但是可以直接用各种高级模型,Cursor太有钱了。
在Cursor中启用GPT-4.1也很方便:点击File - Preference - Cursor Settings,选择Models,找到 gpt-4.1勾选上即可

OpenAI 最新发布的 GPT-4.1 系列模型,性能体验如何?-3.jpg

不过,目前Cursor只接入了 gpt-4.1,还没有接入 4.1-mini 和 4.1-nano 模型。
简单生成个代码试一下,让GPT-4.1运行20个弹性小球:
提示词如下(来自 https://github.com/KCORES/kcores-llm-arena ):
  1. Write a Python program that shows 20 balls bouncing inside a spinning heptagon:
  2. - All balls have the same radius.
  3. - All balls have a number on it from 1 to 20.
  4. - All balls drop from the heptagon center when starting.
  5. - Colors are: #f8b862, #f6ad49, #f39800, #f08300, #ec6d51, #ee7948, #ed6d3d, #ec6800, #ec6800, #ee7800, #eb6238, #ea5506, #ea5506, #eb6101, #e49e61, #e45e32, #e17b34, #dd7a56, #db8449, #d66a35
  6. - The balls should be affected by gravity and friction, and they must bounce off the rotating walls realistically. There should also be collisions between balls.
  7. - The material of all the balls determines that their impact bounce height will not exceed the radius of the heptagon, but higher than ball radius.
  8. - All balls rotate with friction, the numbers on the ball can be used to indicate the spin of the ball.
  9. - The heptagon is spinning around its center, and the speed of spinning is 360 degrees per 5 seconds.
  10. - The heptagon size should be large enough to contain all the balls.
  11. - Do not use the pygame library; implement collision detection algorithms and collision response etc. by yourself. The following Python libraries are allowed: tkinter, math, numpy, dataclasses, typing, sys.
  12. - All codes should be put in a single Python file.
复制代码
结果如下,效果还是非常好的

OpenAI 最新发布的 GPT-4.1 系列模型,性能体验如何?-4.jpg


本来还想用Cursor生成个复杂的多文件项目,不过用gpt-1的Agent实测下来总是生成失败,不能调用工具,也不能自动Apply(偶尔能成功),用gpt-4o测试了一下也是类似的情况。
但使用Claude就完全没问题,猜测可能是因为Cursor没有专门针对gpt优化的原因,所以目前最强的编程模型还是Claude。
根据官网的介绍,gpt-4.1在SWE-bench上面取得了很好的结果,是OpenAI系列模型中代码能力最强的。不过这里并没有和Claude等模型进行横向对比,不好评价。

OpenAI 最新发布的 GPT-4.1 系列模型,性能体验如何?-5.jpg

<hr/>@杰一学长AI编程

梦貘 LV

发表于 前天 10:08

4.5 下一个版本是 4.1,Altman 你比大小是 GPT 教的吧?
GPT-4.1 和 GPT-4.5 哪个大恐成为新测试题.
GPT-4.1 被证实就是 OpenRouter 上的 Quasar Alpha, OpenAI 都沦落到要上马甲了.
<hr/>OpenAI 要是正常命名的话差不多是 GPT-4.7, 可以恶心一下 Anthropic 的 Claude 3.7.
现在的问题就是 GPT 打不过 Gemini 2.5 也打不过 Claude 3.5.
再沿着这个命名, 那么 GPT4 = Claude 3 = Gemini 2 这个等式要刻入其他人脑子里了.
<hr/>至于低价, 这个低价比的是自家的 150 刀的离谱价格, 最低档没法用的 nano 版本都要 1M 三块钱.
作为主打 Coding 的模型, nano 版本无论是价格还是性能都不如代码强化后的 DeepSeek V324.
看来 4月还找不到能吹的模型.
<hr/>Coding 能力应该是今年的大模型争斗重点, 文学能力基本上达到普通人的辨别临界点了, 除非有显著突破, 否则用户侧感知不会有什么提升.
看看 qwen 和 deepseek 能不能端点真正 Amazing 的模型上来.

您需要登录后才可以回帖 登录 | 立即注册