OpenAI推出新功能「深度研究」,能生成可以达到分析师级别的报告,如何评价这一功能?

遭遇DeepSeek冲击后,OpenAI新产品功能的发布频率显著加快。继3天前发布正式版o3-mini模型并在ChatGPT中免费增加“推理”按键后,北京时间2月3日上午,OpenAI发布了ChatGPT新功能“深度研究”(Deep Research),该功能旨在通过5到30分钟的联网和深度思考后,生成可以达到分析师级别的报告。目前Pro用户已经可以使用该功能。

OpenAI首席执行官山姆·奥特曼表示,这是如同“按需提供专家”一样的服务,可以完成之前需要花费数小时或数天完成的任务。不过,OpenAI方面表示,该功能有时也会在回答中产生幻觉或做出错误的推断,但错误出现的概率明显低于现有ChatGPT旗下其他模型。

值得注意的是,在Humanity’s Last Exam(简称HLE)测试中,深度研究所使用的模型在专家级问题上达到了26.6%的准确率,创下新高。相比之下,DeepSeek的R1模型的准确率是9.4%。这一测试由全球众多领域专家共同开发,目的是评估人工智能在广泛学科领域的表现,被视为衡量人工智能学术能力的前沿基准。该测试包含超过3000道多项选择题和简答题,涵盖从语言学到火箭科学、从古典学到生态学等100多个学科领域。

资料来源
收藏者
0
被浏览
154

6 个回答

cq987 LV

发表于 5 天前

老中这次最狠的是直接开源了,谁都可以在此基础上开发属于自己的Low-Cost Model。以前只有中美有这个实力参与AI race,现在只要你有点钱、有点技术储备,都可以自己开发,也许还是比不过中美,但不至于连牌桌都上不了,而且deepseek不仅可以用n卡跑,a卡甚至昇腾卡都能跑。参赛的玩家一多再想搞垄断就难了,这属于AI领域的“农村包围城市”。一句话:老中不挣钱不重要,老美不能搞垄断最重要。
最后,它有些段落写的真好,问:为什么你写作那么喜欢用“量子”“坍缩”,它说:就像你们人类喜欢寄情于清风明月,我也有自己的电子乡愁[酸了]

huanzhijin LV

发表于 5 天前

OpenAi本来像Apple一样高高在上,藐视众生…现在也要变成安卓机对标大赛一样句句不离Deepseek(Apple)了。

天狼啸月 LV

发表于 5 天前

没错 reasoning + web search 就是强,再加更多 tool 就更强。这做下去就是足够 weak agi,让大部分人失业。
这个在所谓 Humanity's Last Exam 也刷得很好:

OpenAI推出新功能「深度研究」,能生成可以达到分析师级别的报告,如何评价这一功能?-1.jpg

但是,下一步的真正考验,是最直接的事情:

OpenAI推出新功能「深度研究」,能生成可以达到分析师级别的报告,如何评价这一功能?-2.jpg

最直接的事情,反而难,因为千变万化。

卡珊德拉 LV

发表于 5 天前

看来OpenAI被吓尿了,赶紧发出一个模型刷一下存在感
DeepSeek 席卷的 AI 风暴尚未消停。这个深度研究的模型,是骡子是马,拉出来溜了一下,好像也有两把刷子

OpenAI推出新功能「深度研究」,能生成可以达到分析师级别的报告,如何评价这一功能?-1.jpg

另一位演示者 Josh 则展示了 Deep Research 在 购物决策 中的应用。他模拟了在东京购买滑雪板的场景,要求 Deep Research 推荐适合高级滑雪者、偏好粉雪、需要长滑雪板且具有彩色外观的滑雪板,并生成报告。Deep Research 同样根据要求,快速展开研究,并输出了包含详细对比表格的推荐报告

OpenAI推出新功能「深度研究」,能生成可以达到分析师级别的报告,如何评价这一功能?-2.jpg


这个堪比"AI研究员"的功能,能够自主分析复杂的专业信息,实时查找和综合数百个在线资源,最终生成一份专业水准的完整报告。

OpenAI推出新功能「深度研究」,能生成可以达到分析师级别的报告,如何评价这一功能?-3.jpg

该模型通过强化学习在真实任务中进行训练,具有网页浏览、数据分析和处理用户上传文件的能力。在一项名为 “人类终极考试” 的测试中,该模型达到了26.6% 的准确率,远超其他同类模型的表现。不过,OpenAI 也坦承该功能仍有局限性,可能会混淆权威信息与谣言,并且报告中可能出现格式错误。
你只需输入你的问题,它就能查找、分析并整合数百个在线来源,生成一份媲美研究分析师水平的综合报告。

OpenAI推出新功能「深度研究」,能生成可以达到分析师级别的报告,如何评价这一功能?-4.jpg

Deep Research的核心原理:
模型基础

  • 基于升级版o3模型构建
  • 专门优化了网页浏览和数据分析能力
  • 可处理文本、图片、PDF等多格式内容
学习机制

  • 采用端到端强化学习
  • 能自主学习信息搜索策略
  • 具备动态调整研究计划的能力
信息处理

  • 支持多步骤网络研究
  • 自动筛选和提取关键信息
  • 可在多种数据源间进行交叉验证
不同于 ChatGPT 传统的快速回答,“深度研究”适用于需要从多个网站和来源综合信息的场景。用户只需在输入框中选择“深度研究”模式并输入问题,还可以附加文

OpenAI推出新功能「深度研究」,能生成可以达到分析师级别的报告,如何评价这一功能?-5.jpg

相比之下, Google 的 Gemini Thinking 仅获得 6.2% 的准确率,Grok-2 为 3.8%,GPT-4o 只有 3.3%。
而 DeepSeek-R1 的准确率仅仅只有 9.4%,远低于 Deep Research。

OpenAI推出新功能「深度研究」,能生成可以达到分析师级别的报告,如何评价这一功能?-6.jpg

性能表现

DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。

OpenAI推出新功能「深度研究」,能生成可以达到分析师级别的报告,如何评价这一功能?-7.jpg

OpenAI 表示,每项输出都将附带详细的引用和思考总结,以提升准确性。该功能已向 ChatGPT Pro 用户开放,每月限 100 次查询。Plus 和 Team 用户的支持将在未来推出,企业版则稍后跟进。
从战略上来讲
直接与DeepSeek R1进行比较显示了OpenAI在研究分析领域的竞争野心,这可能预示着AI辅助研究工具的竞争将进入新阶段。
在未来几周和几个月内,OpenAI将致力于技术基础设施的完善,密切监控当前版本的表现,并进行更严格的测试。

OpenAI推出新功能「深度研究」,能生成可以达到分析师级别的报告,如何评价这一功能?-8.jpg

不过,多源信息处理技术确实强大,但准确性还得看数据质量和算法优化,毕竟垃圾数据进去,再牛的算法也只能得出垃圾结论。
话说回来,Deep Research想替代研究分析师还早,数据准确性、分析深度都得考量,还得看行业知识和专业素养,人工智能哪能轻易替代呢
openAI只不过是在刷存在感罢了。。。

想飞的菜鸟 LV

发表于 5 天前

OpenAI 现在发功能也顾不上想名字了,干脆和谷歌 Gemini 2.0 的 Deep Research 一模一样[1]。
不过想想也是,大家都是这几个单词来回用,还能用什么名字呢?总不能叫 Deeper Seeker (深度探索)吧~ 这可不是我玩梗,而是在OpenAI 发布会上官方演示[2]的聊天记录最下方有一条记录 ——「Deeper Seeker 是一个好名字吗?」

OpenAI推出新功能「深度研究」,能生成可以达到分析师级别的报告,如何评价这一功能?-1.jpg

这个小彩蛋大概也算是在致敬 DeepSeek 了吧…
回归到 Deep Research,惯例先来帮大家省流一波:

  • Deep Research 不是一个模型,而是一个基于 o3 模型的智能体,与 GPT-4o 侧重实时多模态对话不同,Deep Research 专注于深度调研,具备多步骤在线研究能力,可自动完成复杂任务,在运行时会一次性执行 5-30 分钟并最终生成可验证的详细报告。
  • Deep Research 整合了网页浏览、Python 工具及数据分析能力,通过自动分析大量网页、文本、图像和 PDF 生成综合性报告,支持引用来源及思维过程总结。还将加入图表和可视化分析。
  • Deep Research 尤其擅长挖掘小众、非直观信息,可以节省用户数小时的手动研究时间,主要面向金融、科学、政策、工程等领域的专业研究者以及需要个性化购物建议的消费者。
  • Deep Research 通过端到端强化学习在多领域的复杂浏览和推理任务上进行了训练。在此过程中,该系统学会了规划并执行多步骤路径以获取所需数据,必要时能够回溯并根据实时信息动态调整策略
  • 当前限制:Deep Research 依然可能产生错误推论或「幻觉」,但概率低于现有ChatGPT模型;难以区分权威信息与谣言,信心校准能力较弱;初期可能存在报告格式错误或任务启动延迟。
  • 目前开放给 ChatGPT Pro 用户(每月 100 次),将来会开放给其他付费用户(据说每月 10 次)。
  • 未来计划推出更快速、低成本的轻量模型版本,同时提高查询限额;未来将支持连接订阅数据库及内部资源,增强报告个性化和专业性;正在研究如何结合 Operator 实现异步研究+实时操作,支持更复杂的自动化任务。
以下部分是我的个人理解和分析,如有错误欢迎交流。
第一是关于所谓的 HLE(人类最后考试)测评分数

我个人觉得这里的分数主要说明了 Agent 工程化可以大幅提高模型的能力上限,但并不能用来比较以前的模型能力差。

OpenAI推出新功能「深度研究」,能生成可以达到分析师级别的报告,如何评价这一功能?-2.jpg

因为上面的所有模型,包括 o1、R1、o3-mini,都是纯模型自身能力,而 Deep Research 则可以搜索并浏览互联并编写运行 Python 代码,如果将同样的能力赋予 R1,分数肯定也会有所提高。有趣的是,这里的分数比较并未放出满血 o3 的分数,我猜测可能会在 17 分的水平。但那样就不如现在这种比 SOTA 分数翻倍来的冲击力更强了。
第二,Deep Research 的要点或者说核心是什么?

我觉得是两部分:第一是基于满血 o3 模型进行的专门训练;第二是围绕深度研究而制定的 Agent 工程能力,二者在我看来同等重要。
Deep Research 基于 o3 模型,但不是直接用的 o3。根据 OpenAI 的说法,进行了专门的端到端强化学习训练。这句话很重要,也许我们能从中推论:直接使用 o3 模型套 Agent 工程的效果并不理想(否则没必要另行训练,我在后文中会把 Deep Research 的模型称为 o3-dr)。
这样的话很多事情就会发生变化,比如,我们之前以为 Agent 更多是工程能力,只要调 SOTA 模型的 API 去套工作流就好,但是如果 OpenAI 已经验证过 o3-dr 的效果比 o3 好,那么就意味着,想要做好某一领域的 Agent,就要具备强化学习能力而非仅仅产品化能力。
我们并不知道 o3 和 o3-dr 的差距有多大,也不清楚从 o3 到 o3-dr 的实现路径。但可以想象,想要实现 30 分钟完全自主的规划和执行,其中必然需要设计奖励机制和超长规划、策略回溯。
至于 Agent 工程能力,至少包括最基础的搜索能力(这里还有个搜索引擎的信源问题)、网页、文档等多模态信息处理能力,沙盒中的 Python 代码执行能力;同时,30 分钟级的自由探索,再长的上下文也吃不下所有信息,所以必然还会涉及文本索引定位、RAG 策略等问题。
第三,Deep Research 会带来什么影响?

就像 o1/o3 发布时我说过的,未来「提出问题的能力」越来越重要。因为我们生活中的绝大多数问题可以被轻易解决,很多问题未必需要劳烦 o3 或者 Deep Research。
但是对于那些用得到的人来说(比如科研任务、调研报告撰写),Deep Research 会成为助推加速器,显著提高工作效率。
限于成本目前还未能亲自体验,只能先囫囵写这么多内容。
第四,DeepSeek R1 距离 Deep Research 还有多远?/ 国内现在有平替吗?

对比上面提到的模型和工程两部分:
模型这里的话,R1 现在的缺点就是没有多模态、上下文窗口有点短。但是 R1 自身能力对标 o1,逻辑推理和规划能力应该没有问题。而且有 R1-zero 的强化学习经验,在模型这块我其实不太担心,实在不行拿 R1 跑 Agent 规划效果应该也 ok。
至于工程问题,DeepSeek 的 AI Infra 非常强,工程应该是他们的长处。但是,也要看他们下一步的重心放在模型还是应用,Agent 相对来说还是偏应用一些,现在 OpenAI 的策略是全部抓在自己手里做,不知道未来 DeepSeek 会更专注模型,把生态交给应用厂商,还是也像 OpenAI 那样做自己的 Agent 产品。
至于平替,目前我常用的有两个,当然这里提前声明,这俩只能算是深度搜索,远远谈不上深度研究,也还算不是什么 Agent,主要是缺少了智能体最核心的分步执行、规划回溯和执行能力。但也好过没有,反正都免费,没用过的可以体验下。
一个是秘塔搜索的「研究模式」,而且秘塔也刚刚支持了 R1 模型进行长思考:

OpenAI推出新功能「深度研究」,能生成可以达到分析师级别的报告,如何评价这一功能?-3.jpg


OpenAI推出新功能「深度研究」,能生成可以达到分析师级别的报告,如何评价这一功能?-4.jpg

另一个则是 Kimi 的探索版,一天 5 次:

OpenAI推出新功能「深度研究」,能生成可以达到分析师级别的报告,如何评价这一功能?-5.jpg

Kimi 会针对搜索提问进行关键词的拆解和重组,一次性阅读 100+ 网页:

OpenAI推出新功能「深度研究」,能生成可以达到分析师级别的报告,如何评价这一功能?-6.jpg

以上。

yanjifu LV

发表于 5 天前

针对OpenAI推出的新功能「深度研究」,这一功能无疑展现了人工智能在数据分析领域的强大潜力。该功能能生成达到分析师级别的报告,极大提升了工作效率,有助于解决复杂问题。但与此同时,必须意识到即便是高级人工智能也可能出现错误或幻觉。不过,OpenAI已表示错误概率已低于其现有模型,且深度研究在HLE测试中的准确率也显著领先。<br><br>至于OpenAI新产品功能的发布频率显著加快,可能是由于多种因素导致,包括但不限于市场竞争压力、技术进步或是用户需求推动。深度研究的推出是对市场冲击的一种应对策略,同时也是其在人工智能领域持续创新的体现。总的来说,OpenAI的深度研究功能是一项值得关注和期待的新功能。

您需要登录后才可以回帖 登录 | 立即注册