如何评价今天Open AI刚发布的GPT-4o?

如何评价今天Open AI刚发布的GPT-4o?
收藏者
0
被浏览
104

5 个回答

神父C LV

发表于 2025-4-8 12:49:32

昨天体验了一把,丝滑无比啊
这不刚刚通过输入问题,瞬间能给出答案

如何评价今天Open AI刚发布的GPT-4o?-1.jpg

发布会上,也让gpt4o猜测人们的心情

如何评价今天Open AI刚发布的GPT-4o?-2.jpg

GPT4o不仅能够分析照片拍摄的背景,还能准确判断对他是企业高管,初步猜测是Open AI有人物库,能够识别名人照片。

如何评价今天Open AI刚发布的GPT-4o?-3.jpg

除了语音交互,GPT-4o还具备强大的多模态交互能力。
通过视觉和语音的结合,GPT-4o能够解析图形报表、实时检查代码、进行视频通话等,帮助用户解决各种实际问题。

如何评价今天Open AI刚发布的GPT-4o?-4.jpg

桌面版本
1.整个桌面版本GPT,使用太方便了。option + 空格,直接唤醒,完全不需要再切换界面。

如何评价今天Open AI刚发布的GPT-4o?-5.jpg

2.桌面版同时支持:文件读取、图像识别、APP内部截屏、摄像头识别、语音识别。太棒了。
GPT-4o模型的应用场景

1、智能客服与语音助手——识别你的情感能力

如何评价今天Open AI刚发布的GPT-4o?-6.jpg

2、提供工作辅助

如何评价今天Open AI刚发布的GPT-4o?-7.jpg

3、健康咨询
4、帮助你书籍文档
比如给GPT4o上传了一个音频,然后要求GPT-4o识别有多少个说话的人以及推理对话发生的事情。

如何评价今天Open AI刚发布的GPT-4o?-8.jpg

5、可以帮助你代码生成
在编程辅助方面,GPT-4o的实时交互能力得到了显著提升,为用户提供了更加便捷、高效的编程体验。
6、像口语陪练、 数学陪练、 一对一教学、个性化学习、AI作业批改、备课、定制教育规划等都可以融入GPT。
有人说AI已经高度接近人类,再配上一个接近人类的机器人身体,几乎可以以假乱真。想想以后人口减少也不是什么大不了的事,反正有机器人可以聊天、陪伴、做家务、养老。面对AI,我们普通人如何抓住AI这个风口?
我的答案入局AI,利用AI来创作自己的核心竞争力才是王道,正好知乎知学堂和AGI课堂联合推出的免费公开课——「程序员的AI大模型进阶之旅」,由几位业内大佬主讲,手把手带你学习到用AI解决业务问题的核心方法,让你快速了解大模型底层原理,培养你独立学习gpt4o的训练能力,关键还有AI大礼包免费领取,点击下方即可↓↓
如何使用


如何评价今天Open AI刚发布的GPT-4o?-9.jpg

目前ChatGPT可以免费不注册使用,而对于没有开通plus的用户来说,也可以免费体验部分的GPT4o的功能。
当然,如果想体验全部功能可能需要开通Plus了

如何评价今天Open AI刚发布的GPT-4o?-10.jpg

GPT-4o的推出无疑给现有的AI产品,如苹果的 Siri 和 Google的 Gemini,带来了巨大的挑战。其更自然的人机交互体验和情感识别能力,可能会吸引大量用户转向使用GPT-4o。
作为对比,目前国内的人工智能助手例如小布AI、百度文心一言等也推出了类似的对话通话功能
从此,21世纪进入AI发展中时代,科幻电影成为现实不远了~

哈欠 LV

发表于 2025-4-8 13:00:46

我是先看了Google I/O 2024才写这个回答的,因为昨天就传言OpenAI是故意在Google I/O大会之前发布自己的新内容的。
所以我觉得这可能是一个狙击,还是那种定点狙击,摆明了要搞你。
然后我确实在Google I/0的发布会上看到了跟GPT-4o非常类似的新内容,就是下面这个。
如何评价今天Open AI刚发布的GPT-4o?-1.jpg


https://www.zhihu.com/video/1773941199058923520
我们回想一下GPT0-4o的主要内容:
第一是多模态,可以同时接受文本、图片、视频、音频的输入。
第二是超低的延迟,几乎可以可以做到真人级别的反应速度,甚至还要快。
无独有偶,Google的这次打出的牌也类似,就是原声的多模态以及超长上下文。

如何评价今天Open AI刚发布的GPT-4o?-2.jpg

可以说,原生多模态+超长上下文+极低的延时成为了很多家AI厂子未来的方向,因为大家都看到了这种特性的组合可能是未来AGI的实现形式之一。
如何评价今天Open AI刚发布的GPT-4o?-3.jpg


https://www.zhihu.com/video/1773943583672201216
因为GPT-4o所说的多模态,其实就是眼睛+耳朵+嘴,眼睛看到什么理解什么这是计算机视觉所做的,耳朵可以听到东西理解东西,这是AI在音频上的研究方向;至于嘴,那就是表达了,用声音来进行表达。
这里面的每个东西拿出来,都是AI研究的一个大方向,并且由于去年的大模型大爆发,也正向的促进了这几个方向最前沿的发展。
比如说最简单的大语言模型,也就是ChatGPT 3.5,只可以输入和输出文字,不能用来处理其他类型的文件。suno 生成音乐很厉害,但是并不能处理图像。
可以看到,其他家在做的都是在某个或者某几个领域里面做到极致,因为说实话,细分方向的极致就已经很厉害了。
但是问题是,这样的AI并不像人,而是像一个拥有50条胳膊的人,2000倍听力敏锐度的人,会说世界上所有语言的人。
这不是,这是具有能力超能力的怪物。
因为人是会犯错误的,因为现实的世界非常的复杂且多变,如果一个人不犯错,那只能说明这个世界除了问题,你可以看到OpenAI他们的目的是去做一个真正的人,能看能听能说能写,但是并不呆板。
不知道你有没有注意到Google的那个演示视频,它本质就是一个问答机器人,你问它什么,它回答什么,特别是那个问它眼睛在哪里,那个演示的人特意的去眼睛停留的地方晃了一下。
怎么说呢,给我的感觉就是刻意。
而OpenAI的发布会永远都是现场展示,看起来很潦草的去展示,展示的人会有打错字的回撤动作,输出回答的AI也会有错误的情况。
如何评价今天Open AI刚发布的GPT-4o?-4.jpg


https://www.zhihu.com/video/1773947652159442944
拿OpenAI发布的视频跟谷歌的一比,只能说Google还停留在你问我答的回合制对话上,而OpenAI已经在训练真人的层面上了。
这差的不是技术实力,我觉得是一种vision,或者说愿景。
谷歌发布的很多特性,其实都是基于Google已有内容的更新,比如更新的Google Gemini,说实话,它那个Gemini Pro我用了不到十次就弃用了,因为智能程度实在有点低;别的就是跟Google Photo结合的应用,可以更快的智能检索图片等等。
这些创新固然好,但是如果真正的比拼智能程度的话,谷歌貌似已经被甩的挺开了。
因为免费的大模型,我用Qwen、Kimi,也不会选择用Google的Gemini。

cwpeng LV

发表于 2025-4-8 13:11:42

我们的产品强依赖 GPT,看到成本砍半还是很惊喜的,实测了一整天,总结了一些小结论希望对其它创业团队有帮助

  • 逻辑推理能力不如 gpt4-turbo,如果之前用4才能勉强应对的场景就不要想着切4o了,效果一般
  • 速度比声称的两倍还要快,不考虑成本的话可以完全替代3.5
  • 由于有免费口子,代理商很快能把成本进一步压缩,想大额上量的可以再hold一下
总体来说略感失望,原先觉得至少gpt4同样效果的能便宜,好一点也是推理能力更强更快,结果是个3.5加强版,只不过额外做了很多上层应用能做的更好的事。
希望不是到瓶颈了,明天再测一波google的

神父C LV

发表于 2025-4-8 13:25:51

谢邀,今天刚实践了GPT-4o,个人感觉还是变化比较大的。
这里我以三个方面带你了解并实践GPT-4o,非GPT-4用户也可使用。
一、4o与4的区别

1. 发布时间

  • GPT-4: 2023年
  • GPT-4o: 2024年5月14日
2. 架构

  • GPT-4: Transformer-based
  • GPT-4o: Transformer-based
3.文本处理能力

  • GPT-4: 强大的文本生成能力
  • GPT-4o: 强大的文本生成能力,支持多轮对话
4.图像处理能力

  • GPT-4: 不支持
  • GPT-4o: 支持图像输入,理解图表能力增强
5.语言处理能力

  • GPT-4: 不支持
  • GPT-4o: 支持语音输入,语音对话更流畅
6.安全性

  • GPT-4: 相对较低
  • GPT-4o: 安全性大幅提升,采用基于规则的奖励模型
7.编程能力

  • GPT-4: 较弱
  • GPT-4o: 编程能力大幅提升,借鉴了OpenAI的CodeX模型
8.免费服务

  • GPT-4: 否
  • GPT-4o: 是,免费提供给所有用户使用
这里贴出一份图片比较版


如何评价今天Open AI刚发布的GPT-4o?-1.jpg

二、扩展功能

OpenAI 一直在努力改进用户通过语音与 ChatGPT 交流的体验,力求让对话更加逼真。然而,早期版本由于响应延迟,影响了对话的流畅性和沉浸感。GPT-4o 引入了全新的技术,大幅提升了响应速度。穆里·穆拉蒂指出,新版本能够迅速回应用户的提问,带来更自然的对话体验。

此外,GPT-4o 还扩展了其功能,除了文字、图片和语音处理外,还支持 AI 视频通话。通过视频,GPT-4o 能识别用户的表情和情绪变化,并解答各种问题,如在线解数学题,甚至可以和用户一起逗狗。

在发布会上,OpenAI 展示了 GPT-4o 的语音对话能力,演示了其快速响应和文本转语音的功能,对话显得更加真实自然。
GPT-4o 还能根据要求调整语气和声音,比如看到写着“我爱ChatGPT”的纸条时,会模仿小女生害羞地尖叫。发布会还展示了其唱歌和指导数学题解的能力,能够帮助用户求解简单的方程。


如何评价今天Open AI刚发布的GPT-4o?-2.jpg


此外,OpenAI 还推出了桌面版 ChatGPT 和新的用户界面。穆里·穆拉蒂表示:“虽然这些模型越来越复杂,但我们希望用户与 AI 的互动变得更加自然和轻松,使用户可以专注于与模型的协作,而不必费心于操作界面。”
三、普通用户使用流程

我发现还是有一部分小伙伴不知道如何切换到4o的版本,这里给大家做个演示。

  • 大家今天进入GPT页面后,会收到这个试用的邀请,点击立即试用后进入对话页面即可。  ps:如果没有收到这个邀请,可能是灰度测试阶段,稍等一段时间再进入看看。

如何评价今天Open AI刚发布的GPT-4o?-3.jpg


2. 直接在对话框进行对话,会发现已经自动切换到4o版本。


如何评价今天Open AI刚发布的GPT-4o?-4.jpg


此外,影子还测试了 GPT-4o 的速度,结果显示它相比于 GPT-3.5 确实有了显著的提升。GPT-4o 不仅响应速度更快,还新增了联网功能,使得其在处理和获取实时信息方面更加便捷和高效。用户现在可以通过 GPT-4o 获取最新的资讯,解决更复杂的问题。

然而,需要注意的是,普通用户每天使用 GPT-4o 的次数是有限制的。超出这个限制后,使用将受到限制。这意味着用户需要合理安排与 GPT-4o 的互动,确保在有限的使用次数内最大化利用其强大的功能和服务。


如何评价今天Open AI刚发布的GPT-4o?-5.jpg


这一限制虽然存在,但 GPT-4o 的性能提升和新增功能依然为用户带来了更优质的体验。无论是日常信息查询、复杂问题解答,还是通过联网功能获取最新资讯,GPT-4o 都展现出了强大的能力。用户在使用时需注意次数限制,合理规划与 GPT-4o 的互动,才能充分体验其带来的便利和高效服务。
本文完。
关注我,带你快速了解AI领域的知识 @程序员影子

<hr/>影子目前致力于帮助小白快速入门AI,提高工作效率。

在影子这里,如果你是小白,你可以学习到AI的入门玩法,帮助你解决一些工作上的重复性问题;如果你有基础,影子可以给你提供进阶的知识,让你的AI应用能力更进一步。

同时,影子也花费了几个月沉淀了关于AI的相关资料,这里全部免费送给大家:

程序员影子:赚到啦!满满的AI学习资源,AI学习资料分享!
影子的梦想是帮助更多编程小白入门AI,而在即将到来的AIG时代,只会淘汰不会使用AI的人,希望能有更多的人可以在影子这里学习到AI应用的能力,在未来的AI时代中,不被淘汰。

最后,欢迎大家与影子一起共同成长,如果本文对你有所帮助,记得给我点个赞,万分感谢! @程序员影子

urizen LV

发表于 2025-4-8 13:40:26

正面
①依然是最好的模型。(仅基于*benchmark的评价,每个人都会有自己的产品偏好,如果你喜欢长文本,细腻的个性,有穿透性的文笔,那OpenAI不适合你。)
②多模态能力狂飙,对图片识别的能力,有了令人发指的进步。他们真的花了很多钱买标注数据。
③语音对话,展现出了初阶AGI的曙光。

负面
①有点失望,初期胃口被掉得太高。
②依然是GPT-4的产品。
③Google明天将推出类似的多模态语音产品,O家没有超然性。 (超级多模态只有O家和G家)

分析:
①GPT-4o是比老GPT-4更小模型,但用了更好的数据,换句话说,模型内部更紧实了。小模型高智力这在现在并不奇怪,模型的本质是数据。未来数据的筛选,搭配会更苛刻。
②只有更小的模型,才能速度更快,价格更低。

个人观点:
我期待Google Gemini家族,还有Gemini的产品落地,完善他们的独立APP,而不是跟煞笔的手机助手绑定。——之前,有一点可以肯定,如果Gemini的免费模型会超过GPT-3.5。
我个人选择是: Anthropic>Gemini>OpenAI


我把动态想法里的文字转过来了。想法里有图片,这里就不贴了。

您需要登录后才可以回帖 登录 | 立即注册