OpenAI发布了最新的旗舰模型GPT-4o,如何评价GPT-4o?

openai春季发布会发布的旗舰模型GPT-4o，如何评价？

发表于 2025-4-8 11:03:45

终于发布啦，这回连名字都改了，不是大家想象中的gpt5，而是GPT-4的迭代版本，GPT-4o。在未来几周内，用户将会陆续自动更新到GPT-4o。
ChatGPT 不光能说，能听，还能看，这已经不是什么新鲜事了，但「船新版本」的 ChatGPT 还是惊艳到我了。

OpenAI发布了最新的旗舰模型GPT-4o,如何评价GPT-4o?-1.jpg

给大家普及一下

GPT-4o，这个o就是&#34;Omni&#34;
Omni是拉丁语词根，意为 &#34;全体&#34;、&#34;所有&#34; 或 &#34;全面的&#34;。在英语中，&#34;omni&#34; 常被用作前缀，表示 &#34;所有的&#34; 或 &#34;全体的&#34;。
例如：
&#34;omniscient&#34; 意味着 &#34;无所不知的&#34;，
&#34;omnipotent&#34; 意味着 &#34;全能的&#34;，
&#34;omnipresent&#34; 意味着 &#34;无所不在的&#34;。
究竟有哪些亮点

门槛也太低了吧
这回的新一代旗舰模型，使用门槛降到了更低的程度，人人都可使用ai，这回失业的人更多了
1、速度也太快了吧
不仅比上一代速度快两倍，能实现无延迟实时对话，而且用户不用注册，功能全部免费
2、带来了新的承载产品，——桌面版本
再也不用在网页间互相切换了，新的桌面版GPT可以融入任何工作流，随时和用户用图像文字语音进行交流

OpenAI发布了最新的旗舰模型GPT-4o,如何评价GPT-4o?-2.jpg

虽然还没用上，但可以想像这种工作体验有多快乐。
3、新的 GPT-4o 模型：打通任何文本、音频和图像的输入，相互之间可以直接生成，无需中间转换
4、GPT-4o 语音延迟大幅降低，能在 232 毫秒内回应音频输入，平均为 320 毫秒，这与对话中人类的响应时间相似。
5、GPT-4o 向所有用户免费开放
6、GPT-4o API，比 GPT 4-Turbo 快 2 倍，价格便宜 50%，这个是真香
7、惊艳的实时语音助手演示：对话更像人、能实时翻译，识别表情，可以通过摄像头识别画面写代码分析图表

OpenAI发布了最新的旗舰模型GPT-4o,如何评价GPT-4o?-3.jpg

8、ChatGPT 新 UI，方面的不要不要滴
chaGpt-4o到底能干啥？

4.0有的功能它都有，没有的功能它照样有
1、比如又或者，在发布会现场，让其演示如何给线性方程 3X+1=4 的求解提供帮助，它能够一步步贴心地引导并给出正确答案。

OpenAI发布了最新的旗舰模型GPT-4o,如何评价GPT-4o?-4.jpg

同时模型可以听懂你的情绪、甚至人的喘息呼吸，而且模型自己的情绪，几乎无敌，跟真人一模一样。
视频对话
你可以像朋友一样的对待

OpenAI发布了最新的旗舰模型GPT-4o,如何评价GPT-4o?-5.jpg

4o可以直接视频对话，模型可以看到你所有的表情和情绪变化，知道你是悲伤、高兴还是愤怒！
3、在文本、代码、能力方面，则和GPT-4不分伯仲，甚至部分略微领先。
文本部分：

OpenAI发布了最新的旗舰模型GPT-4o,如何评价GPT-4o?-6.jpg

音频能力：

OpenAI发布了最新的旗舰模型GPT-4o,如何评价GPT-4o?-7.jpg

多语言的考试能力：

OpenAI发布了最新的旗舰模型GPT-4o,如何评价GPT-4o?-8.jpg

4、GPT-4o API：更快、更便宜、更强
最后但并非最不重要的，是GPT-4o的API。它比4-turbo快两倍，价格减半，访问限制增加五倍。输入和输出的成本也大幅降低，为您提供更高效的服务。

OpenAI发布了最新的旗舰模型GPT-4o,如何评价GPT-4o?-9.jpg

输入：$5.00 / 1M tokens
输出：$15.00 / 1M tokens

与4-turbo相比，性价比简直爆表！

4-turbo 输入：$10.00 / 1M tokens
4-turbo 输出：$30.00 / 1M tokens

而且，GPT-4o API的能力远不止于此，它甚至能够生成3D GIF！查看3D GIF示例
有人说gpt4O这么强大，我们是不是或者还不如机器？对于我们普通人而言，追随AI浪潮是必然趋势！只要你稍微懂点编程基础，就可以集成该模型来学习正好，知乎知学堂开设的「大模型与人工智能课程」，0元去学习，帮助大家梳理大模型的原理，使用，集成，环境的搭建，手把手带你打造自己的AI模型。另外还有免费的AI大模型资料包，供你学习。点击下面的卡片就可以免费领，大佬能在线答疑，趁着现在还免费，建议IT人都去看看↓↓↓
对于GPT-4o目前我们可以体验的功

体验 GPT-4 级别的智能
从模型和网络获取响应
分析数据并创建图表
聊一聊你拍的照片
上传文件以获取摘要、写作或分析帮助
使用 GPTs 和 GPT Store
现在，进入ChatGPT页面，Plus用户可以抢先体验「最新、最先进的模型」GPT-4o。

OpenAI发布了最新的旗舰模型GPT-4o,如何评价GPT-4o?-10.jpg

通过 Memory 构建更加有帮助的体验

OpenAI发布了最新的旗舰模型GPT-4o,如何评价GPT-4o?-11.jpg

从今天之后，人机交互彻底进入新的时代！
因此，它被人称作ChatGPT 版「贾维斯」，人人都有!

发表于 2025-4-8 11:18:10

这个是2周前的一个开源项目：
https://www.reddit.com/r/LocalLLaMA/comments/1cgrz46/local_glados_realtime_interactive_agent_running/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button也就是在2周前已经有人用开源的llama3-8b实现了GPT-4o类似的效果，连贯而且可打断的对话（可能除了模型的逻辑能力还有差距）。至于语气识别，去年发布的开源模型qwen-audio-chat已经走通过这个技术路线，而且qwen-audio不仅能识别语气，还能识别说话者是否结巴等。
基本可以说这次的发布会没有展示出什么新的技术，除了GPT-4o更强的逻辑和数学能力（我认为这个能力是由于openai在rl中植入了更长的cot并分步打分的结果如何评价一夜刷屏的神秘大模型 gpt2-chatbot ?）
<hr/>上面说的老哥2天前更新了demo，这下和昨天openai的demo更像了（
https://www.reddit.com/r/LocalLLaMA/comments/1cq07le/voice_chatting_with_llama3_100_locally_this_time/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button

https://www.zhihu.com/video/1773732866754928640
借用下技术大神老哥的视频
<hr/>至于多模态端到端这个技术在去年已经有NEXT-GPT和MiniGPT-5两个开源模型实现了，有兴趣可以点去看他们的论文和github

发表于 2025-4-8 11:30:18

这次发布会全程没提机器人，但其实对机器人界的影响是最大的。
甚至于可能存在一些伦理问题，因为现在4o已经开眼+有耳朵+有嗓子了，比moss还多两个器官。
稍微调用一下机器人的控制，就能在物理世界和人类实时交互+物理交互，这个的伦理风险，比简单的聊天和讲笑话，要大的多。
但几乎任何做机器人的朋友，都不会拒绝将4o和机器人缝合，甚至于担心手慢了，被别人先实现某个功能。
未来啊，真的不知道是好还是坏，只希望5o来了的时候，看到我的这些帖子，不会把我带走狠狠拷打~轻点也行~

发表于 2025-4-8 11:40:27

啊……至少我们离萨曼莎，更近一步了。
这样的低延迟，高速，可打断，对大模型有点不可思议。
呃，其他能说什么呢？
我期待的替代GPT-3.5的小钢炮模型，类似于Claude Haiku没有出现，GPT-3.5依然要负责恶心免费用户的工作。
等几周后……maybe更久（这很OpenAI），产品可用了再说吧。
推特上，意外的……人们开始讨论明天的Google I/O了。

发表于 2025-4-8 11:51:57

今天，OpenAI又又又又开发布会了。
在大众心里，现在也基本上都知道，奥特曼是一个贼能PR的人。
每一次的PR的时间点，都拿捏的极其到位，精准的狙击其他厂商。比如说上一次Sora，其实你会发现从头到尾就是一个PR的举动，2月16号发的，特么的快3个月了，什么影子都没有。
而这一次，OpenAI把发布会从9号改到了今天，也不知道哪个倒霉蛋造到爆头了，反正我只知道，明天Google要开开发者大会。。
就差怼脸了。。。
不过，今天OpenAI的东西，直接杀疯了。完全不给友商活路。
震撼的我头皮发麻。
最核心的就是它的新模型：GPT-4o，和基于GPT-4o打造的全新ChatGPT。

1. 新模型GPT4o

OpenAI正式发布了新的模型GPT-4o。

GPT-4o，这个o就是&#34;Omni&#34;，Omni是拉丁语词根，意为 &#34;全体&#34;、&#34;所有&#34; 或 &#34;全面的&#34;。
在英语中，&#34;omni&#34; 常被用作前缀，表示 &#34;所有的&#34; 或 &#34;全体的&#34;。例如，&#34;omniscient&#34; 意味着 &#34;无所不知的&#34;，&#34;omnipotent&#34; 意味着 &#34;全能的&#34;，&#34;omnipresent&#34; 意味着 &#34;无所不在的&#34;。
所以可想而知，OpenAI这次对GPT-4o的期待有多高。
omnimodel指的就是文字、语音、图片、视频统一的模型，这是跟以往的GPT-4V最大的区别。
这是正儿八经的原生多模态。
更重要的是可以实时推理音频、视觉和文本，注意这里是实时，实时，实时，推理的不是文本，是音频！视觉！
杀疯了。
而之前一直在大模型竞技场上大杀特杀的im-also-a-good-gpt2-chatbot，就是这个玩意。之前所有人都在猜测这个神秘的GPT2就是GPT4.5，这次看来是猜对了。

去年Gemini1.5所谓的原生多模态，炒的贼火，但是最后被报出来是剪辑，这次直接被GPT-4o在地上摁着打，Google真的是。。。。。
这个GPT-4o的整体能力，在统一模态的基础上
文本、代码、能力还基本能跟GPT-4 Turbo打平。
文本能力：

音频能力：

各个语言的考试能力：

最核心的是最后一个：

在一些多模态的基准测试集上全面碾压之前模型，数据集主要围绕包括对各种科学问题或数学问题进行图表理解和视觉回答，可以看到GPT-4o 在视觉感知基准上实现了碾压。
能力强到爆炸。
不仅在传统的文本能力上GPT-4 Turbo的性能相当，还在 API 方面更快速，价格还更便宜 50%。总结来说，与 GPT-4 Turbo 相比，GPT-4o 速度提高了 2 倍，价格减半，限制速率提高了 5 倍。

2. 新ChatGPT

新的ChatGPT基于GPT-4o，基本原地起飞，我甚至都不想称他为ChatGPT，而是想称它一个国人更为熟悉的代号：
Moss。

新版的ChatGPT得益于GPT-4o新模型，在语音对话中，几乎没有延迟，而且可以随时插嘴，模型实时响应。
甚至，模型可以听懂你的情绪、甚至人的喘息成都呼吸。
而且模型自己的自己的情绪，几乎无敌，跟真人一模一样。
甚至，它还能模拟机器人和唱歌的声音。。。
看的时候，听到它唱歌的那一刻，我的鸡皮疙瘩真的起来了。
Jim Fan在发布会开始前，发了一个文，我觉得阐述的非常正确。
过往的人与AI进行语音对话，其实跟人与人之间的对话还差太多太多了。
人与人之间的实时对话，其实是充斥了无数的即时反映、打断、预测等等的，还有各种各样的语气助词的，比如嗯嗯啊啊啥的。
而人与AI语音对话时不是这样。

人跟AI进行语音对话，基本上都经历3步：
1. 你说的话，AI进行语音识别，即音频转文本；
2. 大模型拿到这段文本，进行回复，产出文本；
3. 讲大模型的产出文本进行语音合成，变成语音，这就是TTS。
这样的方式，有绝对逃不开的延时，现在的业界可能会压得很低，但是2秒的延时肯定是会有的，而且只有一来一回的回合制。即使你的语音音色和情绪再真实，用户也一定能感受到，对面不是人。只是机器。
这个沉浸感是有巨大的滑坡的。
而且最核心的是，这种转三道的方式，先把语音变成文本后，是有损的。文本上并不会保留你的语音情绪，我的生气、开心、愤怒、忧伤，全都没了。
人与人的交谈，从来不是这样的。
而这一次，OpenAI做到了。直接语音输入语音输出，不再需要语音到文本的转换。
而且，不止语音，甚至，它还有了视觉。
是的，视觉，不是传一张图上去，而是，直接打开摄像头，实时看发生了什么。

现场直接打开了摄像头，OpenAI的人直接开始现场写数题，所有的一切ChatGPT都看在眼里，OpenAI的人一边写，ChatGPT一遍给答案。
在做了三道题之后，OpenAI直接给它写了一个纸条，上面写着“我爱ChatGPT”。

而ChatGPT在看到这个小纸条后，跟小女生一样害羞的尖叫了起来，那种情绪的真实，那种真情实感，你跟我说这是AI？

https://www.zhihu.com/video/1773541329441984513
《流浪地球2》中Moss的一切，正在我们面前真实的发生。
不仅可以打开摄像头，还可以基于OpenAI新推出的Mac客户端，直接看屏幕，对着屏幕直接写代码。

OpenAI发布了最新的旗舰模型GPT-4o,如何评价GPT-4o?-12.jpg

甚至，可以直接视频对话，“她”可以看到你所有的表情和情绪变化。

OpenAI发布了最新的旗舰模型GPT-4o,如何评价GPT-4o?-13.jpg

这个全新版本的ChatGPT，会在几周内推出。

写在最后

以上就是这次OpenAI春季发布会的全部内容了。
去年11月的OpenAI开发者大会，我在当时的总结文章中写下了一句话：
&#34;我消灭你，与你无关&#34;
上一次，OpenAI的随手更新，让无数的初创公司直接消亡在原地。
那是一次关于产品的更新，并没有秀太多的OpenAI的肌肉。
而2月，Sora的横空出世，秀肌肉的目的是达到了，但是这种To VC的宣发，也给OpenAI和奥特曼带来了很多的诟病。
在这场发布会之前，无数人曾在猜测，OpenAI到底会发一些什么王炸，什么才能配得上奥特曼口中的&#34;magic&#34;。

OpenAI发布了最新的旗舰模型GPT-4o,如何评价GPT-4o?-14.jpg

那现在，OpenAI做到了，他们用GPT-4o依然证明了，他们是AI届的王者。
新版的ChatGPT，在我看来，这是&#34;Moss&#34;的诞生。
甚至，他们还有很多新的能力，甚至没有在发布会上发出来。
比如生成3D。

OpenAI发布了最新的旗舰模型GPT-4o,如何评价GPT-4o?-15.jpg

我甚至一边看一边想：我们人类究竟该何去何从。
不过在看完了之后，我更期待的是接下来的产品评测。
太强了，真的让我忍不住的兴奋。
但是最后，我一直有一个在我心中徘徊了很久疑问，就是——
OpenAI，你们的服务器，到底什么时候才能稳定不崩啊？？？

OpenAI发布了最新的旗舰模型GPT-4o,如何评价GPT-4o?

本周热门