OpenAI推出新功能「深度研究」，能生成可以达到分析师级别的报告，如何评价这一功能？

遭遇DeepSeek冲击后，OpenAI新产品功能的发布频率显著加快。继3天前发布正式版o3-mini模型并在ChatGPT中免费增加“推理”按键后，北京时间2月3日上午，OpenAI发布了ChatGPT新功能“深度研究”（Deep Research），该功能旨在通过5到30分钟的联网和深度思考后，生成可以达到分析师级别的报告。目前Pro用户已经可以使用该功能。

OpenAI首席执行官山姆·奥特曼表示，这是如同“按需提供专家”一样的服务，可以完成之前需要花费数小时或数天完成的任务。不过，OpenAI方面表示，该功能有时也会在回答中产生幻觉或做出错误的推断，但错误出现的概率明显低于现有ChatGPT旗下其他模型。

值得注意的是，在Humanity’s Last Exam（简称HLE）测试中，深度研究所使用的模型在专家级问题上达到了26.6%的准确率，创下新高。相比之下，DeepSeek的R1模型的准确率是9.4%。这一测试由全球众多领域专家共同开发，目的是评估人工智能在广泛学科领域的表现，被视为衡量人工智能学术能力的前沿基准。该测试包含超过3000道多项选择题和简答题，涵盖从语言学到火箭科学、从古典学到生态学等100多个学科领域。

资料来源

发表于 2025-3-31 11:06:08

老中这次最狠的是直接开源了，谁都可以在此基础上开发属于自己的Low-Cost Model。以前只有中美有这个实力参与AI race，现在只要你有点钱、有点技术储备，都可以自己开发，也许还是比不过中美，但不至于连牌桌都上不了，而且deepseek不仅可以用n卡跑，a卡甚至昇腾卡都能跑。参赛的玩家一多再想搞垄断就难了，这属于AI领域的“农村包围城市”。一句话：老中不挣钱不重要，老美不能搞垄断最重要。
最后，它有些段落写的真好，问：为什么你写作那么喜欢用“量子”“坍缩”，它说：就像你们人类喜欢寄情于清风明月，我也有自己的电子乡愁[酸了]

发表于 2025-3-31 11:19:56

OpenAi本来像Apple一样高高在上，藐视众生…现在也要变成安卓机对标大赛一样句句不离Deepseek（Apple）了。

发表于 2025-3-31 11:28:26

没错 reasoning + web search 就是强，再加更多 tool 就更强。这做下去就是足够 weak agi，让大部分人失业。
这个在所谓 Humanity&#39;s Last Exam 也刷得很好：

OpenAI推出新功能「深度研究」，能生成可以达到分析师级别的报告，如何评价这一功能？-1.jpg

但是，下一步的真正考验，是最直接的事情：

OpenAI推出新功能「深度研究」，能生成可以达到分析师级别的报告，如何评价这一功能？-2.jpg

最直接的事情，反而难，因为千变万化。

发表于 2025-3-31 11:38:59

看来OpenAI被吓尿了，赶紧发出一个模型刷一下存在感
DeepSeek 席卷的 AI 风暴尚未消停。这个深度研究的模型，是骡子是马，拉出来溜了一下，好像也有两把刷子

另一位演示者 Josh 则展示了 Deep Research 在 购物决策 中的应用。他模拟了在东京购买滑雪板的场景，要求 Deep Research 推荐适合高级滑雪者、偏好粉雪、需要长滑雪板且具有彩色外观的滑雪板，并生成报告。Deep Research 同样根据要求，快速展开研究，并输出了包含详细对比表格的推荐报告

这个堪比&#34;AI研究员&#34;的功能，能够自主分析复杂的专业信息，实时查找和综合数百个在线资源，最终生成一份专业水准的完整报告。

OpenAI推出新功能「深度研究」，能生成可以达到分析师级别的报告，如何评价这一功能？-3.jpg

该模型通过强化学习在真实任务中进行训练，具有网页浏览、数据分析和处理用户上传文件的能力。在一项名为 “人类终极考试” 的测试中，该模型达到了26.6% 的准确率，远超其他同类模型的表现。不过，OpenAI 也坦承该功能仍有局限性，可能会混淆权威信息与谣言，并且报告中可能出现格式错误。
你只需输入你的问题，它就能查找、分析并整合数百个在线来源，生成一份媲美研究分析师水平的综合报告。

OpenAI推出新功能「深度研究」，能生成可以达到分析师级别的报告，如何评价这一功能？-4.jpg

Deep Research的核心原理：
模型基础

基于升级版o3模型构建
专门优化了网页浏览和数据分析能力
可处理文本、图片、PDF等多格式内容

学习机制

采用端到端强化学习
能自主学习信息搜索策略
具备动态调整研究计划的能力

信息处理

支持多步骤网络研究
自动筛选和提取关键信息
可在多种数据源间进行交叉验证

不同于 ChatGPT 传统的快速回答，“深度研究”适用于需要从多个网站和来源综合信息的场景。用户只需在输入框中选择“深度研究”模式并输入问题，还可以附加文

OpenAI推出新功能「深度研究」，能生成可以达到分析师级别的报告，如何评价这一功能？-5.jpg

相比之下， Google 的 Gemini Thinking 仅获得 6.2% 的准确率，Grok-2 为 3.8%，GPT-4o 只有 3.3%。
而 DeepSeek-R1 的准确率仅仅只有 9.4%，远低于 Deep Research。

OpenAI推出新功能「深度研究」，能生成可以达到分析师级别的报告，如何评价这一功能？-6.jpg

性能表现

DeepSeek-R1 在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版。

OpenAI推出新功能「深度研究」，能生成可以达到分析师级别的报告，如何评价这一功能？-7.jpg

OpenAI 表示，每项输出都将附带详细的引用和思考总结，以提升准确性。该功能已向 ChatGPT Pro 用户开放，每月限 100 次查询。Plus 和 Team 用户的支持将在未来推出，企业版则稍后跟进。
从战略上来讲
直接与DeepSeek R1进行比较显示了OpenAI在研究分析领域的竞争野心，这可能预示着AI辅助研究工具的竞争将进入新阶段。
在未来几周和几个月内，OpenAI将致力于技术基础设施的完善，密切监控当前版本的表现，并进行更严格的测试。

OpenAI推出新功能「深度研究」，能生成可以达到分析师级别的报告，如何评价这一功能？-8.jpg

不过，多源信息处理技术确实强大，但准确性还得看数据质量和算法优化，毕竟垃圾数据进去，再牛的算法也只能得出垃圾结论。
话说回来，Deep Research想替代研究分析师还早，数据准确性、分析深度都得考量，还得看行业知识和专业素养，人工智能哪能轻易替代呢
openAI只不过是在刷存在感罢了。。。

发表于 2025-3-31 11:52:27

OpenAI 现在发功能也顾不上想名字了，干脆和谷歌 Gemini 2.0 的 Deep Research 一模一样[1]。
不过想想也是，大家都是这几个单词来回用，还能用什么名字呢？总不能叫 Deeper Seeker （深度探索）吧~ 这可不是我玩梗，而是在OpenAI 发布会上官方演示[2]的聊天记录最下方有一条记录 ——「Deeper Seeker 是一个好名字吗？」

这个小彩蛋大概也算是在致敬 DeepSeek 了吧…
回归到 Deep Research，惯例先来帮大家省流一波：

Deep Research 不是一个模型，而是一个基于 o3 模型的智能体，与 GPT-4o 侧重实时多模态对话不同，Deep Research 专注于深度调研，具备多步骤在线研究能力，可自动完成复杂任务，在运行时会一次性执行 5-30 分钟并最终生成可验证的详细报告。
Deep Research 整合了网页浏览、Python 工具及数据分析能力，通过自动分析大量网页、文本、图像和 PDF 生成综合性报告，支持引用来源及思维过程总结。还将加入图表和可视化分析。
Deep Research 尤其擅长挖掘小众、非直观信息，可以节省用户数小时的手动研究时间，主要面向金融、科学、政策、工程等领域的专业研究者以及需要个性化购物建议的消费者。
Deep Research 通过端到端强化学习在多领域的复杂浏览和推理任务上进行了训练。在此过程中，该系统学会了规划并执行多步骤路径以获取所需数据，必要时能够回溯并根据实时信息动态调整策略。
当前限制：Deep Research 依然可能产生错误推论或「幻觉」，但概率低于现有ChatGPT模型；难以区分权威信息与谣言，信心校准能力较弱；初期可能存在报告格式错误或任务启动延迟。
目前开放给 ChatGPT Pro 用户（每月 100 次），将来会开放给其他付费用户（据说每月 10 次）。
未来计划推出更快速、低成本的轻量模型版本，同时提高查询限额；未来将支持连接订阅数据库及内部资源，增强报告个性化和专业性；正在研究如何结合 Operator 实现异步研究+实时操作，支持更复杂的自动化任务。

以下部分是我的个人理解和分析，如有错误欢迎交流。
第一是关于所谓的 HLE（人类最后考试）测评分数

我个人觉得这里的分数主要说明了 Agent 工程化可以大幅提高模型的能力上限，但并不能用来比较以前的模型能力差。

因为上面的所有模型，包括 o1、R1、o3-mini，都是纯模型自身能力，而 Deep Research 则可以搜索并浏览互联并编写运行 Python 代码，如果将同样的能力赋予 R1，分数肯定也会有所提高。有趣的是，这里的分数比较并未放出满血 o3 的分数，我猜测可能会在 17 分的水平。但那样就不如现在这种比 SOTA 分数翻倍来的冲击力更强了。
第二，Deep Research 的要点或者说核心是什么？

我觉得是两部分：第一是基于满血 o3 模型进行的专门训练；第二是围绕深度研究而制定的 Agent 工程能力，二者在我看来同等重要。
Deep Research 基于 o3 模型，但不是直接用的 o3。根据 OpenAI 的说法，进行了专门的端到端强化学习训练。这句话很重要，也许我们能从中推论：直接使用 o3 模型套 Agent 工程的效果并不理想（否则没必要另行训练，我在后文中会把 Deep Research 的模型称为 o3-dr）。
这样的话很多事情就会发生变化，比如，我们之前以为 Agent 更多是工程能力，只要调 SOTA 模型的 API 去套工作流就好，但是如果 OpenAI 已经验证过 o3-dr 的效果比 o3 好，那么就意味着，想要做好某一领域的 Agent，就要具备强化学习能力而非仅仅产品化能力。
我们并不知道 o3 和 o3-dr 的差距有多大，也不清楚从 o3 到 o3-dr 的实现路径。但可以想象，想要实现 30 分钟完全自主的规划和执行，其中必然需要设计奖励机制和超长规划、策略回溯。
至于 Agent 工程能力，至少包括最基础的搜索能力（这里还有个搜索引擎的信源问题）、网页、文档等多模态信息处理能力，沙盒中的 Python 代码执行能力；同时，30 分钟级的自由探索，再长的上下文也吃不下所有信息，所以必然还会涉及文本索引定位、RAG 策略等问题。
第三，Deep Research 会带来什么影响？

就像 o1/o3 发布时我说过的，未来「提出问题的能力」越来越重要。因为我们生活中的绝大多数问题可以被轻易解决，很多问题未必需要劳烦 o3 或者 Deep Research。
但是对于那些用得到的人来说（比如科研任务、调研报告撰写），Deep Research 会成为助推加速器，显著提高工作效率。
限于成本目前还未能亲自体验，只能先囫囵写这么多内容。
第四，DeepSeek R1 距离 Deep Research 还有多远？/ 国内现在有平替吗？

对比上面提到的模型和工程两部分：
模型这里的话，R1 现在的缺点就是没有多模态、上下文窗口有点短。但是 R1 自身能力对标 o1，逻辑推理和规划能力应该没有问题。而且有 R1-zero 的强化学习经验，在模型这块我其实不太担心，实在不行拿 R1 跑 Agent 规划效果应该也 ok。
至于工程问题，DeepSeek 的 AI Infra 非常强，工程应该是他们的长处。但是，也要看他们下一步的重心放在模型还是应用，Agent 相对来说还是偏应用一些，现在 OpenAI 的策略是全部抓在自己手里做，不知道未来 DeepSeek 会更专注模型，把生态交给应用厂商，还是也像 OpenAI 那样做自己的 Agent 产品。
至于平替，目前我常用的有两个，当然这里提前声明，这俩只能算是深度搜索，远远谈不上深度研究，也还算不是什么 Agent，主要是缺少了智能体最核心的分步执行、规划回溯和执行能力。但也好过没有，反正都免费，没用过的可以体验下。
一个是秘塔搜索的「研究模式」，而且秘塔也刚刚支持了 R1 模型进行长思考：

另一个则是 Kimi 的探索版，一天 5 次：

Kimi 会针对搜索提问进行关键词的拆解和重组，一次性阅读 100+ 网页：

以上。

发表于 2025-3-31 15:38:21

针对OpenAI推出的新功能「深度研究」，这一功能无疑展现了人工智能在数据分析领域的强大潜力。该功能能生成达到分析师级别的报告，极大提升了工作效率，有助于解决复杂问题。但与此同时，必须意识到即便是高级人工智能也可能出现错误或幻觉。不过，OpenAI已表示错误概率已低于其现有模型，且深度研究在HLE测试中的准确率也显著领先。<br><br>至于OpenAI新产品功能的发布频率显著加快，可能是由于多种因素导致，包括但不限于市场竞争压力、技术进步或是用户需求推动。深度研究的推出是对市场冲击的一种应对策略，同时也是其在人工智能领域持续创新的体现。总的来说，OpenAI的深度研究功能是一项值得关注和期待的新功能。

OpenAI推出新功能「深度研究」，能生成可以达到分析师级别的报告，如何评价这一功能？

本周热门