如何评价今天Open AI刚发布的GPT-4o?

发表于 2025-4-8 12:49:32

昨天体验了一把，丝滑无比啊
这不刚刚通过输入问题，瞬间能给出答案

发布会上，也让gpt4o猜测人们的心情

GPT4o不仅能够分析照片拍摄的背景，还能准确判断对他是企业高管，初步猜测是Open AI有人物库，能够识别名人照片。

除了语音交互，GPT-4o还具备强大的多模态交互能力。
通过视觉和语音的结合，GPT-4o能够解析图形报表、实时检查代码、进行视频通话等，帮助用户解决各种实际问题。

桌面版本
1.整个桌面版本GPT，使用太方便了。option + 空格，直接唤醒，完全不需要再切换界面。

2.桌面版同时支持：文件读取、图像识别、APP内部截屏、摄像头识别、语音识别。太棒了。
GPT-4o模型的应用场景

1、智能客服与语音助手——识别你的情感能力

2、提供工作辅助

3、健康咨询
4、帮助你书籍文档
比如给GPT4o上传了一个音频，然后要求GPT-4o识别有多少个说话的人以及推理对话发生的事情。

5、可以帮助你代码生成
在编程辅助方面，GPT-4o的实时交互能力得到了显著提升，为用户提供了更加便捷、高效的编程体验。
6、像口语陪练、数学陪练、一对一教学、个性化学习、AI作业批改、备课、定制教育规划等都可以融入GPT。
有人说AI已经高度接近人类，再配上一个接近人类的机器人身体，几乎可以以假乱真。想想以后人口减少也不是什么大不了的事，反正有机器人可以聊天、陪伴、做家务、养老。面对AI，我们普通人如何抓住AI这个风口?
我的答案入局AI，利用AI来创作自己的核心竞争力才是王道，正好知乎知学堂和AGI课堂联合推出的免费公开课——「程序员的AI大模型进阶之旅」，由几位业内大佬主讲，手把手带你学习到用AI解决业务问题的核心方法，让你快速了解大模型底层原理，培养你独立学习gpt4o的训练能力，关键还有AI大礼包免费领取，点击下方即可↓↓
如何使用

目前ChatGPT可以免费不注册使用，而对于没有开通plus的用户来说，也可以免费体验部分的GPT4o的功能。
当然，如果想体验全部功能可能需要开通Plus了

GPT-4o的推出无疑给现有的AI产品，如苹果的 Siri 和 Google的 Gemini，带来了巨大的挑战。其更自然的人机交互体验和情感识别能力，可能会吸引大量用户转向使用GPT-4o。
作为对比，目前国内的人工智能助手例如小布AI、百度文心一言等也推出了类似的对话通话功能
从此，21世纪进入AI发展中时代，科幻电影成为现实不远了～

发表于 2025-4-8 13:00:46

我是先看了Google I/O 2024才写这个回答的，因为昨天就传言OpenAI是故意在Google I/O大会之前发布自己的新内容的。
所以我觉得这可能是一个狙击，还是那种定点狙击，摆明了要搞你。
然后我确实在Google I/0的发布会上看到了跟GPT-4o非常类似的新内容，就是下面这个。

https://www.zhihu.com/video/1773941199058923520
我们回想一下GPT0-4o的主要内容：
第一是多模态，可以同时接受文本、图片、视频、音频的输入。
第二是超低的延迟，几乎可以可以做到真人级别的反应速度，甚至还要快。
无独有偶，Google的这次打出的牌也类似，就是原声的多模态以及超长上下文。

可以说，原生多模态+超长上下文+极低的延时成为了很多家AI厂子未来的方向，因为大家都看到了这种特性的组合可能是未来AGI的实现形式之一。

https://www.zhihu.com/video/1773943583672201216
因为GPT-4o所说的多模态，其实就是眼睛+耳朵+嘴，眼睛看到什么理解什么这是计算机视觉所做的，耳朵可以听到东西理解东西，这是AI在音频上的研究方向；至于嘴，那就是表达了，用声音来进行表达。
这里面的每个东西拿出来，都是AI研究的一个大方向，并且由于去年的大模型大爆发，也正向的促进了这几个方向最前沿的发展。
比如说最简单的大语言模型，也就是ChatGPT 3.5，只可以输入和输出文字，不能用来处理其他类型的文件。suno 生成音乐很厉害，但是并不能处理图像。
可以看到，其他家在做的都是在某个或者某几个领域里面做到极致，因为说实话，细分方向的极致就已经很厉害了。
但是问题是，这样的AI并不像人，而是像一个拥有50条胳膊的人，2000倍听力敏锐度的人，会说世界上所有语言的人。
这不是，这是具有能力超能力的怪物。
因为人是会犯错误的，因为现实的世界非常的复杂且多变，如果一个人不犯错，那只能说明这个世界除了问题，你可以看到OpenAI他们的目的是去做一个真正的人，能看能听能说能写，但是并不呆板。
不知道你有没有注意到Google的那个演示视频，它本质就是一个问答机器人，你问它什么，它回答什么，特别是那个问它眼睛在哪里，那个演示的人特意的去眼睛停留的地方晃了一下。
怎么说呢，给我的感觉就是刻意。
而OpenAI的发布会永远都是现场展示，看起来很潦草的去展示，展示的人会有打错字的回撤动作，输出回答的AI也会有错误的情况。

https://www.zhihu.com/video/1773947652159442944
拿OpenAI发布的视频跟谷歌的一比，只能说Google还停留在你问我答的回合制对话上，而OpenAI已经在训练真人的层面上了。
这差的不是技术实力，我觉得是一种vision，或者说愿景。
谷歌发布的很多特性，其实都是基于Google已有内容的更新，比如更新的Google Gemini，说实话，它那个Gemini Pro我用了不到十次就弃用了，因为智能程度实在有点低；别的就是跟Google Photo结合的应用，可以更快的智能检索图片等等。
这些创新固然好，但是如果真正的比拼智能程度的话，谷歌貌似已经被甩的挺开了。
因为免费的大模型，我用Qwen、Kimi，也不会选择用Google的Gemini。

发表于 2025-4-8 13:11:42

我们的产品强依赖 GPT，看到成本砍半还是很惊喜的，实测了一整天，总结了一些小结论希望对其它创业团队有帮助

逻辑推理能力不如 gpt4-turbo，如果之前用4才能勉强应对的场景就不要想着切4o了，效果一般
速度比声称的两倍还要快，不考虑成本的话可以完全替代3.5
由于有免费口子，代理商很快能把成本进一步压缩，想大额上量的可以再hold一下

总体来说略感失望，原先觉得至少gpt4同样效果的能便宜，好一点也是推理能力更强更快，结果是个3.5加强版，只不过额外做了很多上层应用能做的更好的事。
希望不是到瓶颈了，明天再测一波google的

发表于 2025-4-8 13:25:51

谢邀，今天刚实践了GPT-4o，个人感觉还是变化比较大的。
这里我以三个方面带你了解并实践GPT-4o，非GPT-4用户也可使用。
一、4o与4的区别

1. 发布时间

GPT-4: 2023年
GPT-4o: 2024年5月14日

2. 架构

GPT-4: Transformer-based
GPT-4o: Transformer-based

3.文本处理能力

GPT-4: 强大的文本生成能力
GPT-4o: 强大的文本生成能力，支持多轮对话

4.图像处理能力

GPT-4: 不支持
GPT-4o: 支持图像输入，理解图表能力增强

5.语言处理能力

GPT-4: 不支持
GPT-4o: 支持语音输入，语音对话更流畅

6.安全性

GPT-4: 相对较低
GPT-4o: 安全性大幅提升，采用基于规则的奖励模型

7.编程能力

GPT-4: 较弱
GPT-4o: 编程能力大幅提升，借鉴了OpenAI的CodeX模型

8.免费服务

GPT-4: 否
GPT-4o: 是，免费提供给所有用户使用

这里贴出一份图片比较版

二、扩展功能

OpenAI 一直在努力改进用户通过语音与 ChatGPT 交流的体验，力求让对话更加逼真。然而，早期版本由于响应延迟，影响了对话的流畅性和沉浸感。GPT-4o 引入了全新的技术，大幅提升了响应速度。穆里·穆拉蒂指出，新版本能够迅速回应用户的提问，带来更自然的对话体验。

此外，GPT-4o 还扩展了其功能，除了文字、图片和语音处理外，还支持 AI 视频通话。通过视频，GPT-4o 能识别用户的表情和情绪变化，并解答各种问题，如在线解数学题，甚至可以和用户一起逗狗。

在发布会上，OpenAI 展示了 GPT-4o 的语音对话能力，演示了其快速响应和文本转语音的功能，对话显得更加真实自然。
GPT-4o 还能根据要求调整语气和声音，比如看到写着“我爱ChatGPT”的纸条时，会模仿小女生害羞地尖叫。发布会还展示了其唱歌和指导数学题解的能力，能够帮助用户求解简单的方程。

此外，OpenAI 还推出了桌面版 ChatGPT 和新的用户界面。穆里·穆拉蒂表示：“虽然这些模型越来越复杂，但我们希望用户与 AI 的互动变得更加自然和轻松，使用户可以专注于与模型的协作，而不必费心于操作界面。”
三、普通用户使用流程

我发现还是有一部分小伙伴不知道如何切换到4o的版本，这里给大家做个演示。

大家今天进入GPT页面后，会收到这个试用的邀请，点击立即试用后进入对话页面即可。 ps：如果没有收到这个邀请，可能是灰度测试阶段，稍等一段时间再进入看看。

2. 直接在对话框进行对话，会发现已经自动切换到4o版本。

此外，影子还测试了 GPT-4o 的速度，结果显示它相比于 GPT-3.5 确实有了显著的提升。GPT-4o 不仅响应速度更快，还新增了联网功能，使得其在处理和获取实时信息方面更加便捷和高效。用户现在可以通过 GPT-4o 获取最新的资讯，解决更复杂的问题。

然而，需要注意的是，普通用户每天使用 GPT-4o 的次数是有限制的。超出这个限制后，使用将受到限制。这意味着用户需要合理安排与 GPT-4o 的互动，确保在有限的使用次数内最大化利用其强大的功能和服务。

这一限制虽然存在，但 GPT-4o 的性能提升和新增功能依然为用户带来了更优质的体验。无论是日常信息查询、复杂问题解答，还是通过联网功能获取最新资讯，GPT-4o 都展现出了强大的能力。用户在使用时需注意次数限制，合理规划与 GPT-4o 的互动，才能充分体验其带来的便利和高效服务。
本文完。
关注我，带你快速了解AI领域的知识 @程序员影子

<hr/>影子目前致力于帮助小白快速入门AI，提高工作效率。

在影子这里，如果你是小白，你可以学习到AI的入门玩法，帮助你解决一些工作上的重复性问题；如果你有基础，影子可以给你提供进阶的知识，让你的AI应用能力更进一步。

同时，影子也花费了几个月沉淀了关于AI的相关资料，这里全部免费送给大家：

程序员影子：赚到啦！满满的AI学习资源，AI学习资料分享！
影子的梦想是帮助更多编程小白入门AI，而在即将到来的AIG时代，只会淘汰不会使用AI的人，希望能有更多的人可以在影子这里学习到AI应用的能力，在未来的AI时代中，不被淘汰。

最后，欢迎大家与影子一起共同成长，如果本文对你有所帮助，记得给我点个赞，万分感谢！ @程序员影子

发表于 2025-4-8 13:40:26

正面
①依然是最好的模型。（仅基于*benchmark的评价，每个人都会有自己的产品偏好，如果你喜欢长文本，细腻的个性，有穿透性的文笔，那OpenAI不适合你。）
②多模态能力狂飙，对图片识别的能力，有了令人发指的进步。他们真的花了很多钱买标注数据。
③语音对话，展现出了初阶AGI的曙光。

负面
①有点失望，初期胃口被掉得太高。
②依然是GPT-4的产品。
③Google明天将推出类似的多模态语音产品，O家没有超然性。（超级多模态只有O家和G家）

分析:
①GPT-4o是比老GPT-4更小模型，但用了更好的数据，换句话说，模型内部更紧实了。小模型高智力这在现在并不奇怪，模型的本质是数据。未来数据的筛选,搭配会更苛刻。
②只有更小的模型，才能速度更快，价格更低。

个人观点:
我期待Google Gemini家族，还有Gemini的产品落地，完善他们的独立APP，而不是跟煞笔的手机助手绑定。——之前，有一点可以肯定，如果Gemini的免费模型会超过GPT-3.5。
我个人选择是: Anthropic＞Gemini＞OpenAI

我把动态想法里的文字转过来了。想法里有图片，这里就不贴了。

如何评价今天Open AI刚发布的GPT-4o?

本周热门