如何看待OpenAI发布的DeepResearch？有什么技术和产品影响？

https://openai.com/index/introducing-deep-research/

发表于 5 天前

表扬一下，对于openAI来说，终于开始干实事了，终于造出了第一代真～智慧办公助手，这才是大模型真正该做的事情，如果一个大模型不能完全自主的搜索信息并以此总结出用户想要完成的任务，那么这个大模型的用户留存率就会非常低，因为它就不是一个真正成熟的数字产品。
接下来就看deepseek能不能助力一把把成本打下来了，能打下来并开源的话那大模型的iPhone时刻就要开始了，接下来的问题就变成了，创新越来越乏力的openAI沦落到现在只能拼性比的情况下，玩智慧办公助手这种东西会不会慢慢的被deepseek给玩死。

发表于 5 天前

别人家AI熬夜啃论文，他家AI直接啃出题人的硬盘！
给印度ai发展指明方向了。
1：给测评机构打钱，美其名曰“推动人类知识平权”；
2：把题库当饲料，喂给O3模型；
3：“26%正确率”开始宣传

发表于 5 天前

就在开源的DeepSeek-R1被整合进各路AI搜索工具之际，OpenAI临时举行小型发布会。
4点27通知，8点开始直播。
ChatGPT上新“Deep Research”，把推理大模型的思考能力用于联网搜索。

如何看待OpenAI发布的DeepResearch？有什么技术和产品影响？-1.jpg

据介绍，Deep Research功能可在数十分钟完成人类专家需要几个小时的复杂研究任务。

如何看待OpenAI发布的DeepResearch？有什么技术和产品影响？-2.jpg

在“人类最后的考试”上，Deep Research刷新了最高分，比o3-mini高推理设置分数高出一倍。
该测试包括3000多个多选和简答题，涵盖从语言学、火箭科学到生态学的100多个主题。
与o1相比，Deep Research最突出的地方在化学，人文和社会科学以及数学中，表现出类似人类的“在必要时寻找专业信息”的能力。

如何看待OpenAI发布的DeepResearch？有什么技术和产品影响？-3.jpg

另一项测试GAIA，在现实世界问题上评估AI的公开基准测试，Deep Research在3个级别的难度上均刷新记录。

如何看待OpenAI发布的DeepResearch？有什么技术和产品影响？-4.jpg

出于保护基准测试的目的，OpenAI只展示了Deep Research在完成这些任务时的搜索过程，隐去了最终答案。

如何看待OpenAI发布的DeepResearch？有什么技术和产品影响？-5.jpg

Deep Research功能接下来将对Pro、Plus和Team用户开放。
奥特曼后面补充，目前版本基于o3构建，Plus用户（20美元/月）每个月能用约10次，且正在构建一个更高效的版本。
此外，免费用户也能获得非常少量的使用额度。

如何看待OpenAI发布的DeepResearch？有什么技术和产品影响？-6.jpg

推理Agent的第一步

OpenAI表示，Deep Research专门为在金融/科学/工程等领域从事高强度知识工作、需要深入精确且可靠研究的人群而设计。
它由OpenAI o3驱动，通过基于真实任务（涉及浏览器和Python工具的使用）的训练，采用了与o1相同的强化学习方法。
只需一个提示，它就会查找分析并整合数百个在线资源，生成一份达到研究分析师水平的综合报告。
Deep Research对于OpenAI的重要性，官方原话是：

Deep Research标志着我们在开发AGI的宏伟目标上迈出了重要一步。我们长期以来一直设想AGI能够进行新颖的科学研究，而Deep Research正是这一愿景的重要进展。

使用方法，点击输入框下方的Deep Research按钮即可，支持上传文件添加额外资料。

如何看待OpenAI发布的DeepResearch？有什么技术和产品影响？-7.jpg

例如prompt：

Compile a research report on how the retail industry has changed in the past 3 years. Use bullets and tables where necessary for clarity.（写一份关于过去三年零售业变化的研究报告，并运用项目符号和表格来提升内容的清晰度）

ChatGPT线会确认一下问题细节信息，比如“您能具体说明您最感兴趣的零售业方面吗？”“您需要全球视角还是特定地区的分析？”

如何看待OpenAI发布的DeepResearch？有什么技术和产品影响？-8.jpg

然后，它就开始分析+挖掘信息了：

如何看待OpenAI发布的DeepResearch？有什么技术和产品影响？-9.jpg

侧边栏会显示所采取的步骤摘要和使用的信息来源。
完成任务的时间大概是5-30分钟，最终结果将以报告的形式输出。

如何看待OpenAI发布的DeepResearch？有什么技术和产品影响？-10.jpg

OpenAI表示，接下来几周内，还将为这些报告添加嵌入式图片、数据可视化和其它分析输出。
和GPT-4o等相比，Deep Research对于需要深度和细节的多方面、特定领域的问题，能够进行广泛探索并引用每个观点。
不过，OpenAI也指出了Deep Research存在的局限性。

它有时会在回复中产生事实幻觉或做出错误的推断，尽管根据内部评估，其错误率明显低于现有的ChatGPT模型。
它可能在区分权威信息和谣言方面遇到困难，并且在自信度校准方面目前表现出弱点，常常无法准确传达不确定性。
报告和引用中可能会有轻微的格式错误，并且启动任务可能需要更长的时间。

下一步，OpenAI表示将在本月内将Deep Research推到移动和桌面APP端。目前，Deep Research可以访问公开网络和上传的文件，未来将能够连接到更多专业化的数据源，使其输出更加稳健和个性化。

我们预见ChatGPT将实现Agent体验的融合，用于异步、现实世界的研发和执行。Deep Research（可进行异步在线调查）与Operator（可进行现实行动）的结合，使ChatGPT能够执行越来越复杂的任务。

AI深度搜索是互联网的新界面

OpenAI研究员Jason Wei分享了他对这项新研究的看法：

它不仅是出色的Agent，也可以看成是互联网的新界面

人类使用互联网需要大量时间来搜索和点击，受到时间和注意力的限制。
AI永远不会累，一次可以浏览许多网站，并拥有几乎无限的世界知识。

将来，通过浏览器手动浏览互联网将过时，就像手动计算数字而不使用计算器一样。

如何看待OpenAI发布的DeepResearch？有什么技术和产品影响？-11.jpg

OpenAI toG业务负责人Felipe Millon则分享了一个个人故事。

如何看待OpenAI发布的DeepResearch？有什么技术和产品影响？-12.jpg

10月底，Millon的妻子被诊断出患有双侧乳腺癌，病情很严重，在12月初做了双乳房切除手术，晚些时候开始化疗。
他们遇到一个新问题，是否应该接受放疗，对于她的具体病情来说，这是一个模糊问题，不同的专家给出不同的建议。
Millon在OpenAI已经获得了Deep Research的测试权限，就尝试上传了手术报告，并询问ChatGPT的建议。
ChatGPT不仅证实了人类专家提到的内容，还搜索出了全新的参考研究。
MIllon认为，这是一个将改变世界的工具。

如何看待OpenAI发布的DeepResearch？有什么技术和产品影响？-13.jpg

此外也有少数第三方团队提前获得了Deep Research的测试资格，并在今日分享测试结果。
Every团队介绍，一些问题要花费30分钟才得到结果，答案可能超过1万个单词。

如何看待OpenAI发布的DeepResearch？有什么技术和产品影响？-14.jpg

他们做的测试包括：

撰写从2020年到今天每一天的历史
阅读《战争与和平》的第1章，分析托尔斯泰的人物描写，回答他对人性的看法是什么？
仔细查阅近期的 10-K 报告以发现未报告的财务违规行为
……

测试中发现的局限性包括：

有时信息缺失引用来源
没有“停止”按钮，如果搜索歪了只能重头开始

直播回看：
https://www.youtube.com/watch?v=YkCDVn3_wiw
参考链接：
[1]https://openai.com/index/introducing-deep-research/
[2]https://x.com/_jasonwei/status/1886213911906504950
[3]https://x.com/danshipper/status/1886203397004783996
—完—
@量子位 · 追踪AI技术和产品新动态
深有感触的朋友，欢迎赞同、关注、分享三连վ&#39;ᴗ&#39; ի ❤

发表于 5 天前

这问题发布时，题述的“OpenAI 发布的 DeepResearch”的炒作力度甚大。该模型仍会产生幻觉（胡编乱造）且计算密集，大概会扩大 OpenAI 在 2025 年的亏损。
可以预期，OpenAI Deep Research 的热度会迅速衰减——就像此前的 OpenAI Sora、OpenAI Operator。
在这问题下，读者可以看到“中文顶刊”量子位在胡搞。在其他平台，“中文顶刊”新智元更是跳起来吹 AGI 雏形——很快，它们的编辑就会忘记在此刻使用的溢美之词、转去吹捧别的东西了。
在 Hack News，一些用户评价说：

与我交谈的大多数人现在都处于这样一种情况，即 10% 的时间得到完全错误的答案——要么是常识明显错误，要么是答案自相矛盾——这破坏了对任何类型互动的信任。除了需要仔细检查你已经知道的内容之外，语言模型还不够大，无法真正了解所有内容。他们只能听起来像他们自己。
我正在寻找的不仅仅是正确答案，还是在一定时间内找到正确答案，这要比我自己研究答案要快，还要比我验证机器给出的答案要快。
这个工具的准确性无关紧要。这是专为无人阅读的 “报告” 设计的。这是公司高层管理人员 99% 的工作。人工智能只会让这个无用的铅笔脖子董事会变得更加糟糕。
关于全球电子商务趋势的演示似乎不如 Google 搜索有用。

其他用户讽刺说：

我敢肯定，当 o3 在十个月后推出时，它将比 deepseek、google 和 meta 今天（译者注：2025 年 2 月初）所做的任何事情领先一代。

还有一些用户声称自己和自己的一些熟人在购买 pro 服务后仍不能使用 OpenAI Deep Research，其中包括自称身在美国的用户。
关于炒作力度，下图来自谷歌趋势：

截止北京时间 2 月 3 日下午

截止北京时间 2 月 4 日中午

截止北京时间 2 月 5 日 20 时许

截止北京时间 2 月 6 日 15 时半左右

注意这问题发布时放在题目里的、不带空格的 DeepResearch 的热度会低得多。这应该视为拼写错误。另外，谷歌于 2024 年 12 月发布的 Gemini Deep Research 的热度显而易见很低。
在网络上，读者还能找到一些人尝试用较为简单的方法复现 OpenAI Deep Research 的效果，例如：

另有人质疑 OpenAI Deep Research 的基准测试成绩的可靠性：

发表于 5 天前

没想到历史的车轮这么快就轧到自己头上了。
两年多前，stable diffusion 刚出的时候，我们还在笑看 AI 取代底层画师，没想到转眼之间，就轮到我们搞研究的了。
其实在 GPT4 出来的时候，我就知道这一天迟早要来。GPT4 在各科考试中已经超越了大部分人，也已经能看说明书算税。那时我写了一个想法 AI 科研不再是梦，认为 AI 做科研不再存在本质困难。这一判断是基于这样一个观察：现代科研很多只是既有知识的组合应用，是复杂一点的做题，如果 AI 已经开始能做题，那离能做科研也就不远了。
这一次的 Deep Research 其实并没有使我吃惊，因为搞一个这种 Agent 其实非常自然: 把数据库给大模型接上，把计算和画图工具让大模型用上，让大模型自己去搞研究，并不需要什么特别的新技术。
真正让我感到焦虑是 GPT o1 发布的时候，以及 Deepseek R1 的发布。前者意味着 AI 已经跨越推理能力的门槛，AI 科研再无障碍，后者意味着 AI 已经跨越成本的临界点，其大规模应用已成为可能。
现在 Deep Research 成本还是有点高，等用 Deepseek R1 （或其他成本低的推理模型）也搞一个这种 Agent, （并且当下一代推理模型推理准确度再上升一些时），当前学术手工作坊的生产模式就要到头了，学术的工业化生产将会开启，这将是第四次工业革命的重要部分，并加速推进走向技术奇点。
这将带来科学技术的爆发，却也将带来科研人的噩梦。
正如第一次工业革命后，手工业者们不得不进入血汗工厂连轴转，今天的科研的手工业者也将不得不进入工业化学术生产的流水线。AI 看起来似乎使人成为老板，让 AI 帮自己干活，其实是在使人成为 AI 的操作工——因为真正进行学术生产的是 AI, 人只是在辅助。
不要说 AI 没什么创造力，扪心自问一下，自己做的东西到底需要多少创造力？绝大多数现在的研究都是排列组合，并不需要什么特别的创造力，而 AI 的知识比任何人都广博，你组合不了的，它能组合，超过许多科研人是分分钟的事。到时候，你应该担心的是 AI 做的东西你看不懂，于是你连最后一点价值也没有了。
到时候绝大多数科研人将变成 AI 操作工，主要工作内容是引导 AI 思考的方向，检查 AI 给出的结果，向 AI 反馈建议。如果说 AI 操作工和工厂流水线操作工有什么不同的话，那就是，AI 操作工是非常异质化的，其等级跨度也极大（从最初级的到高级的，取决于你能看懂 AI 做的东西到什么水平），而流水线工人非常同质。
由于还掌握着 AI 成果验证和转化的不可替代性，比起第一次工业革命后的流水线工人，科研操作工的地位可能不会很低。但到时候工作强度可能要强到爆炸。因为那时整个科研最大的瓶颈就是人的效率，AI 做事比人快 1000 倍， 99.9% 的时间都是在等人，人的效率能提升几倍，整体科研效率就能提升多少。所以到时候所有的压力都会集中到人的身上，逼着你赶紧处理 AI 给出的东西。
这还没考虑竞争。如果还是保持现在竞争性的学术体制，那学术界简直要卷成地狱。你今天少加了一会班，明天起来就看到别人已经在你以先做出了同样的东西——毕竟有了 AI, 原来一个月才完成的工作，现在可能只需要几天。你稍一懈怠，成果就都被别人抢发了。而且领域、路径、能力的差距，在被 AI 放大之后，最后成果可能差出一个数量级，一点线性的差别可能造成结果非线性的差距，这简直要把学术界变成比币圈还刺激的赌场，你重要的地方错一步，可能就万劫不复了（不过其实去业界搞转化可能更好）。如果不进行制度变革，到时候学术界将可怕得难以想象。
在 AI 时代，真·学术工厂有了可能，这里的学术工厂就是字面意思。由 AI 构建和控制的整个工作流将决定每个岗位的级别和职责，没有什么不可替代，没有什么意外，没有什么需要人特别的智慧，一切照着 AI 的指挥走就没有问题。这样的学术工厂生产效率将碾压独立的手工劳动者和小作坊，因为独立劳动者不可能一个人精通多个工序。有了 AI, 有效率的大规模有组织科研成了可能，在其中，个人的创造力不再重要。那时，大规模学术工厂可能会成为学术生产的一大模式。
不过到时候个人和小作坊仍然有存在的可能。这是因为现在的 AI 原创力并不强，个人仍然可能凭借高度原创的研究超越 AI，而且由于有 AI 的加持，做起来会更有效率。所以将来可能会形成学术工厂与原创小组互补的科研格局，以不同方式推进科学的发展。
在 AI 时代，学术出版和学术评价机制需要变革。首先，由于学术生产力的激增，基于人类的同行评审体系必将瘫痪，引入 AI 审稿势在必行，这里需要解决的重要问题是结果可靠性的判定（这依赖 AI 技术的进一步发展）。进一步设想，如果 AI 评审已经可靠到一定程度，那么学术评价体系或许也可以借此重建，现行评价体制主要看期刊发表，凭人类经验评价，引入 AI 评价后或许能更好地评价一个工作的创新指数，减少人类评价的主观性。如果这可行，当前的学术期刊就完成了它们的历史使命。到时的工作都开源发表，其评价不需要期刊，凭借 AI 即可，这也省去了期刊昂贵的版面费和订阅费，从而实现学术界的彻底开源。
现在，在 Deepseek R1 和 Deep Research 发布的时候，我们正站在整个学术界乃至人类文明的重要转折点上。学界的未来乃至文明的未来是如何，不仅取决于技术的进展，也将取决于我们对技术的使用方式和制度的选择。人类不仅需要 Deepseek R1 和 Deep Research 作为智能时代的蒸汽机和学术纺织机，更需要智能时代的《资本论》和马克思，唯如此，才能确保技术革新真正服务于人类文明的解放与进步，而非沦为异化人性的新牢笼。

如何看待OpenAI发布的DeepResearch？有什么技术和产品影响？

本周热门