OpenAI联合创始人指出，数据资源耗尽，下一代AI模型将是真正的Agent，AI预训练时代终结了吗？

今年5月离开OpenAI之后，Ilya Sutskever创立了自己的AI实验室Safe Superintelligence，之后他鲜少公开露面，直至这一次亮相。
Ilya Sutskever在这场演讲中将数据比作化石燃料，而燃料终将耗尽。“算力在增长，但数据却没有增长，因为我们只有一个互联网……我们已经达到了数据峰值，不会再有更多数据了，我们必须处理好现有的数据。”
现有数据仍可推动AI进一步发展，业内也正在竭力挖掘新数据进行训练，这种情况最终将迫使行业改变目前的AI模型训练方式。

其预计，下一代AI模型将是真正的AI Agent，且具备推理能力

发表于 6 天前

OpenAI联合创始人指出，数据资源耗尽，下一代AI模型将是真正的Agent，AI预训练时代终结了吗？-1.jpg

这几天，ChatGPT之父Ilya Sutskever在NeurlPS 2024会议上的最新演讲的一句话引发了大家的热议：

Pre-training as we know it will end. 我们所熟知的预训练即将终结。

OpenAI联合创始人指出，数据资源耗尽，下一代AI模型将是真正的Agent，AI预训练时代终结了吗？-2.jpg

这里，Ilya讲到，虽然算力在增长（更好的硬件，更好的算法，更大的集群），但是训练大模型所依赖的数据却不再增长。因为我们只有一个互联网，不太可能获得更多的数据了。而海量的数据正是大模型预训练所需要的“燃料”，所以大模型预训练也会慢慢停滞。
对于未来的方向，Ilya也列出了几项可能的方案，比如Agents，合成数据以及OpenAI的O1（增加推理时间）。

OpenAI联合创始人指出，数据资源耗尽，下一代AI模型将是真正的Agent，AI预训练时代终结了吗？-3.jpg

但是长期看，llya认为是超级智能（superintelligence）。超级智能这里也列出来了四个特性，首先是agentic，意味着AI有更多的自主性，而不仅仅受人的控制。然后是会推理，而且推理行为变得不可预测。其次是AI能从有限的数据中理解事物。最后，超级AI还会有自我意识。

OpenAI联合创始人指出，数据资源耗尽，下一代AI模型将是真正的Agent，AI预训练时代终结了吗？-4.jpg

不过，超级智能如何实现，目前并没有一个确切的方案。
无独有偶，最近nature在12月11日发布了一个文章：人工智能革命的数据即将耗尽，研究人员能做什么？[1]这里我也把这篇文章分享给大家。

OpenAI联合创始人指出，数据资源耗尽，下一代AI模型将是真正的Agent，AI预训练时代终结了吗？-5.jpg

<hr/>
互联网是人类知识的广阔海洋，但它并不是无限的。而人工智能（AI）研究者几乎已经将其耗尽。
过去十年AI的爆炸性进步在很大程度上是由使神经网络变得更大，并在越来越多的数据上训练它们推动的。事实证明，这种扩展（scaling）非常有效，可以使大语言模型（LLM）（例如支持聊天机器人 ChatGPT 的模型），既能有对话语言的能力，又能有推理等新特性。但一些专家说，我们现在正接近扩展的极限。这部分是因为计算的能量需求不断膨胀。但也因为LLM开发者正在用尽用于训练他们模型的传统数据集。
今年，一项著名研究因对这一问题进行量化而成为头条新闻：虚拟研究机构 Epoch AI 的研究人员预测，到 2028 年左右，用于训练 AI 模型的数据集的典型大小将达到与公共在线文本的估计总库存相同的大小。换句话说，AI 很可能在大约四年内耗尽训练数据。与此同时，数据所有者（例如报纸出版商）开始严厉打击其内容的使用方式，进一步收紧访问权限。麻省理工学院的 AI 研究员 Shayne Longpre 表示，这正在导致“数据共享”规模的危机，他领导着一个对 AI 数据集进行审计的草根组织“数据来源倡议”。
训练数据的即将到来的瓶颈可能已经开始产生影响。“我强烈怀疑这种情况已经在发生，”Longpre说。

OpenAI联合创始人指出，数据资源耗尽，下一代AI模型将是真正的Agent，AI预训练时代终结了吗？-6.jpg

尽管专家们表示，这些限制可能会减缓AI系统的快速改进，但开发者们正在寻找变通方法。“我认为在大型AI公司中没有人感到恐慌，” Epoch AI的马德里研究员、预测2028年数据崩溃的研究的主要作者Pablo Villalobos说。“或者至少他们如果感到恐慌，也不会发邮件告诉我。”
例如，位于加利福尼亚州旧金山的知名AI公司OpenAI和Anthropic都已公开承认了这个问题，并暗示他们有计划解决它，包括生成新数据和寻找非传统数据源。OpenAI的一位发言人对《自然》杂志表示：“我们使用多种来源的数据，包括公开可用的数据和非公开数据的合作伙伴关系、合成数据生成以及来自AI训练师的数据。”
即便如此，数据紧缩可能会迫使人们构建的生成式AI模型类型发生剧变，可能将从大型、多功能的LLM转移到更小、更专业的模型。
数万亿token

过去十年的LLM发展显示了其对数据的贪婪需求。尽管一些开发者没有公布他们最新模型的规格，但Villalobos估计，用于训练LLM的token数量自2020年以来增加了100倍，从数千亿增加到数万亿。
这可能是互联网上很大一部分内容，尽管总量如此庞大以至于难以确定——Villalobos估计，当今互联网的文本数据总量为3100万亿个token。各种服务使用网络爬虫来抓取这些内容，然后消除重复并过滤掉不想要的内容（例如色情内容），以产生更干净的数据集：一个常见的数据集叫做RedPajama，包含了数万亿个token。一些公司或学者自己进行爬取和清理工作，以制作定制的数据集来训练LLM。互联网的一小部分被认为是高质量的，例如在书籍或新闻报道中可能找到的经过人类编辑、社会上可接受的文本。
可用互联网内容的增长速度出奇地慢：Villalobos的论文估计，它每年增长不到10%，而AI训练数据集的规模每年增加一倍多。预测这些趋势显示，这些线条将在2028年左右交汇。
与此同时，内容提供商越来越多地包含软件代码或完善他们的使用条款，以阻止网络爬虫或AI公司从他们的数据中抓取用于训练的内容。Longpre和他的同事们在今年7月发布了一个预印本，显示有多少数据提供商阻止特定爬虫访问他们的网站的数量急剧增加。在三个主要清理过的数据集中，最高质量的、最常用的网络内容中，从2023年的不到3%增加到2024年的20-33%的token被限制从爬虫访问。
目前有几起诉讼正在进行，试图为在AI训练中使用的数据提供商赢得赔偿。2023年12月，《纽约时报》起诉OpenAI及其合作伙伴微软侵犯版权；今年4月，纽约市Alden Global Capital拥有的八家报纸联合提起了类似的诉讼。相反的论点是，AI应该被允许像人类一样阅读和从在线内容中学习，这构成了对材料的合理使用。OpenAI公开表示，它认为《纽约时报》的诉讼是“毫无根据的”。
如果法院支持内容提供商应得到经济补偿的观点，这将使AI开发者和研究人员更难获得他们所需的内容——包括没有雄厚资金的学者。“学者将最受到这些交易的影响，”Longpre说。“有一个开放的网络，有许多非常有利于社会、有利于民主的好处，”他补充道。
寻找数据

数据紧缩对传统AI扩展策略构成了一个潜在的大问题。Longpre表示，尽管有可能在不扩展训练数据的情况下扩大模型的计算能力或参数数量，但这往往会使AI变得缓慢且昂贵——这通常不是人们所偏好的。
如果目标是寻找更多数据，一个选择可能是收集非公开数据，例如WhatsApp消息或YouTube视频的转录。尽管以这种方式抓取第三方内容的合法性尚未经过测试，但公司确实可以访问自己的数据，一些社交媒体公司表示他们使用自己的材料来训练AI模型。例如，位于加利福尼亚州门洛帕克的Meta表示，其虚拟现实头盔Meta Quest收集的音频和图像被用来训练其AI。然而，政策各不相同。视频会议平台Zoom的服务条款表明，该公司不会使用客户内容来训练AI系统，而转录服务OtterAI则表示它确实使用去标识化和加密的音频和转录进行训练。
目前，这样的专有内容可能总共只包含另外一千万亿个文本token，Villalobos估计。考虑到其中很多是低质量或重复的内容，他说，这足以将数据瓶颈推迟一年半，即使假设一个AI能够访问所有这些数据而不引起版权侵犯或隐私问题。“即使数据存量增加十倍，也只能为你争取大约三年的扩展时间，”他说。
另一个选择可能是专注于专业数据集，如天文或基因组数据，这些数据正在迅速增长。加利福尼亚州斯坦福大学著名AI研究者李飞飞公开支持这一策略。她在五月份的彭博技术峰会上表示，担心数据耗尽的看法过于狭隘，没有考虑到医疗保健、环境和教育等领域未被利用的信息。
但Villalobos表示，这些数据集对于训练LLM的可用性或有用性尚不清楚。“不同类型数据之间似乎存在一定程度的迁移学习，”Villalobos说。“话虽如此，我对这种方法不是很乐观。”
如果生成性AI不仅在文本上接受训练，还在其他数据类型上接受训练，可能性就更广泛了。一些模型已经能够在未标记的视频或图像上进行一定程度的训练。扩展和改进这些能力可能会打开更丰富数据的闸门。
Meta的首席AI科学家、纽约大学计算机科学家、被认为是现代AI创始人之一的Yann LeCun在今年二月在加拿大温哥华的AI会议上的演讲中强调了这些可能性。用于训练现代LLM的 $10^{13}$ 个token听起来很多：LeCun计算，一个人需要17万年才能阅读这么多。但是，他说，一个4岁的孩子通过在清醒时观察物体吸收的数据量是这个数字的50倍。LeCun在人工智能促进协会年会上展示了这些数据。
最终，通过让AI系统以机器人的形式存在，从自己的感官体验中学习，可能会利用类似的数据丰富性。“我们仅通过训练语言永远无法达到人类水平的AI，这是不可能的，”LeCun说。
如果找不到数据，可以创造更多。一些AI公司付费让人为AI训练生成内容；其他公司则使用AI生成的数据来训练AI。这是一个潜在的巨大来源：今年早些时候，OpenAI表示，它每天生成1000亿个单词——这超过3.6万亿个单词一年，这与当前AI训练数据集的大小大致相同。而且这一产出正在迅速增长。
通常，专家们同意，合成数据对于有坚定、可识别规则的领域似乎效果很好，如国际象棋、数学或计算机编程。一个AI工具AlphaGeometry成功地使用1亿个合成示例和没有人类示范的情况下训练来解决几何问题。合成数据已经在使用真实数据有限或有问题的领域。这包括医疗数据，因为合成数据没有隐私问题，以及自动驾驶汽车的训练场，因为合成的汽车碰撞不会伤害任何人。
合成数据的问题是，递归循环可能会根深蒂固地植入错误，放大误解，通常降低学习质量。2023年的一项研究创造了“模型自噬障碍”这个短语来描述AI模型可能以这种方式“发疯”。例如，部分在合成数据上训练的面部生成AI模型开始绘制带有奇怪哈希标记的面孔。
少即是多

另一种策略是放弃“越大越好”的观念。尽管开发者继续构建更大的模型并依赖扩展来改进他们的LLM，但许多人正在追求更高效、更小的模型，专注于个别任务。这些模型需要精细的、专业的数据和更好的训练技术。
总的来说，AI工作已经在用更少的资源做更多的事情。2024年的一项研究得出结论，由于算法的改进，LLM实现相同性能所需的计算能力每八个月左右就会减半。
这加上专门为AI设计的计算机芯片和其他硬件改进，为使用计算资源提供了不同的方式：一种策略是让AI模型多次重新阅读其训练数据集。尽管许多人认为计算机具有完美的记忆能力，只需要“阅读”一次材料，但AI系统以统计方式工作，这意味着重新阅读可以提升性能，斯坦福大学博士生、数据来源倡议成员Niklas Muennighoff说。在他2023年在纽约市AI公司HuggingFace工作时发表的一篇论文中，他和同事们展示了一个模型从四次重新阅读给定数据集中学到的东西与阅读同等数量的独特数据一样多——尽管重新阅读的好处在那之后迅速下降。
尽管OpenAI没有披露其最新LLM，o1模型的大小或训练数据集的信息，但该公司强调，这个模型倾向于采用新方法：在强化学习（模型获得对其最佳答案的反馈的过程）上花费更多时间，以及在每个响应上花费更多时间思考。观察者说，这个模型将重点从使用大量数据集的预训练转移到更多依赖训练和推理上。Longpre说，这为扩展方法增加了一个新的维度，尽管这是一种计算成本高昂的策略。
有可能LLM在阅读了大部分互联网内容后，不再需要更多数据来变得更智能。宾夕法尼亚州匹兹堡卡内基梅隆大学研究生、研究AI安全的Andy Zou说，进步可能很快就会通过AI的自我反思来实现。“现在它有了基础知识库，这可能比任何单个人所能拥有的都要大，”Zou说，这意味着它只需要坐下来思考。“我认为我们可能非常接近那个点了。”
Villalobos认为，所有这些因素——从合成数据、专业数据集、重新阅读到自我反思——都会有所帮助。“模型能够自己思考，并且能够以各种方式与真实世界互动——这可能会推动前沿发展。”

<hr/>

我个人觉得AI的持续发展还是依赖AI能够有动态学习的能力，或者说有自我进化的能力。

发表于 6 天前

AI不死，预训练就不灭，重点是“超智”，Ilya想表达的是这个意思！
记得chatGPT刚刚出世的时候，惊呆了所有人。确切地说，互联网所有人都为之惊叹，毕竟在过去十年中，AI的快速发展在很大程度上依赖于神经网络规模的扩大以及使用更多的数据进行训练，文本、图片、视频、音频，各种AI大模型应用都随之问世，这使得大模型，让gpt从3.0到现在的4o模型进化出更好用的出推理模型。OpenAI 炼丹都炼出花了。
但如今已经被爆出AI的训练正在接近扩展的极限：
计算能耗急剧增加以及大语言模型开发者几乎已经用尽了能够训练模型的传统数据集。
但是我觉得，数据资源的耗尽，才是AI的开始。
所谓AI，更智能，更精确，更全面！
目前的AI模型训练存在两个问题：
1、幻觉
2、资源数据为充分利用
先说说幻读
比如据这个例子：
问一下插头GPT，有多少个r在单词“strawberry”中？

很明显，在这个单词中，一共有3个r出现，而gpt确实给出了两个，明显是错误的
再比如：当被问及“世界上最高的山峰是哪座？”，如果 AI 回答“深圳塘朗山是世界上最高的山峰。”

AI的幻觉貌似和资源的耗尽有多大关系，要问接下来的路怎么走，那么肯定是要解决AI的幻觉问题！
那一定是模型给出的答案更加的精确和准备！
那么，我个人觉得解决AI的幻觉要从底层技术入手。
RAG检索增强生成技术
其实核心就是检索和大模型两个模块，先根据用户的查询，系统从数据库或互联网上检索相关的信息，这里标识为query，搜索完成后把查询结果和query拼接起来送给模型即可

主要方法包括：
1、生成前检索
2、生成过程中检索
3、生成后检索
4、句窗检索
5、父文档检索器
6、融合检索或混合搜索
就拿混合搜索来说，在大模型LangChain 训练中，对检索结果进行重新排名以得出最终输出，这一过程通过 Ensemble Retriever 类来实现，与我们自定义的多个检索器，如基于 faiss 的向量索引和基于 BM25 的检索器，利用RRF 算法进行比对和重新排名。

阿里Qwen2的问答技术底层就是RAG的增强技术，搜索与LLM的结合，才使得大模型能有如此的精准度。
但是上面说的大模型底层仅仅是冰山一角，仅了解这一点还做不到精通，也不容易变现，了解更多关于LLM和RAG技术指路人非常重要。这不，「知乎知学堂+」推出了为期两天《AI大模型进阶之旅》的公开课，讲解大模型相关的LangChain、Fine-tune技术，从理论实践，到深度讲解，还能带你全程体验微调过程，还能与行业大佬面对面交流，领取行业大佬提供的学习资料!
但是光有这些也不行，为保证过度依赖于检索到的信息来生成回答而带来内容不准确或有偏见，我们可以引入更多的数据源和多样化的信息来减少这种幻觉。
所以我个人感觉进行预训练还是非常有必要的，虽然是同一份数据源，但是我们可以进行优化我们的模型算法，并且我们还可以引进我们自己的监督和反馈机制，来让AI大模型处理更加复杂和模糊的问题，这样才能尽可能的减少AI的幻觉！
非公开数据还不够全
现在的大模型还在初始阶段，在很多的领域，大模型也在刚刚萌发，比如AI医疗，量子领域，生物领域，细胞学领域
来打个比方，每个人基本每年都要去医院进行体检，去医院体检就要抽血，但是血型的总类屈指可数：

我们都知道，血液作为人体最容易获取的材料、又是实时更新、与全身各处紧密相连的组织，而血细胞的表达方式确实却代表着人类的健康，比如会不会有糖尿病，遗传病，病毒携带，这些都是数据信息，我们是否可以在AI模型的帮助下做差别图像化差异识别，然后找到几万个特征里面最关键的几种组合形式，对数据进行分析和预测，从而来检查人类的健康程度。
所以我觉得，AI的下一步不是在于数据资源的多少，而是在于利用现有的资源，进行搜集数据、整合数据、调用数据，让数据衍生数据，也是AI大模型下一步的关键！
为什么是接下来重点是“超智”？
前一段时间，OpenAI将“AI Agent”定义为以LLM为大脑驱动，具有感知，记忆，理解，模仿人的能力，能自动化执行复杂任务的系统。
如果说LLM像一个“超级大脑”，它“只懂回答，不懂行动”。而AI Agent不仅有聪明的“大脑”，能回答问题，还有像人们一样灵活的“手脚”，能像我们思考，并且还会使用“工具”。
虽然现阶段技术还比较初期，但AI Agent的未来应用已经展现出了强大的前景。
智谱Agent的升级，实现了手机、PC、AI原生硬件的全面覆盖的跨平台操作

通过与现场观众建立群聊并发放总计两万块钱的红包，展示了AI的即时反应和操作能力。
用户可以命令AutoGLM在某自媒体平台上上分享内容，并直接分享到工作群群，整个过程非常的流畅。

OpenAI联合创始人指出，数据资源耗尽，下一代AI模型将是真正的Agent，AI预训练时代终结了吗？-7.jpg

其他的大厂，比如微软宣布建立全球规模最大的企业级AI Agent生态系统——Copilot Studio平台，现已有超过十万家企业使用该平台创建或编辑AI Agent。

OpenAI联合创始人指出，数据资源耗尽，下一代AI模型将是真正的Agent，AI预训练时代终结了吗？-8.jpg

智能体还支持定时运行，无论是每小时、每天、每周还是每月，均可按需设定，全程无需人工干预。
看吧，AI Agent必将是未来的趋势，如果你也感兴趣，那么除了关注行AI的最新动态之外，亲自去实践可能是更好的选择，学习LangChain就是在学习构建新一代的AI Agent，那么除了自己费力找资料学习，也可以直接向有经验的老师请教，正好我刚听完知乎知学堂的免费公开课，非常不错，建议你也来听听。入口我放在下面了，直接预约就可以↓
<a data-draft-node="block" data-draft-type="edu-card" data-edu-card-id="1858453900702650369">这不，我作为技术开发，听完整个公开课里学到了大模型微调、LangChain开发框架的用法等，期间经过课程老师的指导，我给自己公司打造了一个AI电商客服的智能系统，就是跟着课程里面的的商业化案例实操进行的，历经一个月的时间，虽然很辛苦，但是很值得

OpenAI联合创始人指出，数据资源耗尽，下一代AI模型将是真正的Agent，AI预训练时代终结了吗？-9.jpg

后才这套agent客服系统，实现了真正的运营，因此受到了领导的一致好评，给公司节省了不少的运营成本，职位和薪资也给我涨了一下，太爽歪歪了！
AI巨头公司，OpenAI也计划在明年1月发布名为“Operator”的AI Agent工具，能够在用户的指示下在计算机上自主完成任务，例如编写代码、预定行程。
“AI Agent”争夺战打响了
无论是谁能占领AI Agent市场的制高点，都无法阻止AI超智的发展
AI不死，学习不死
我们普通人也可以与时俱进，与AI共舞！

发表于 6 天前

GPT-3.5 横空出世的时候，把全世界所有人都惊呆了。确切地说，是把核心技术圈之外的人惊呆了。但是 AI 圈，特别是核心圈的人，并没有觉得有什么了不起。等到 GPT-4 多模态出世的时候，那更是显得了不得，不得了！好家伙，文本、图片、视频、音频，各种数据都往丹炉里扔，OpenAI 炼丹都炼出花了。
但是到了 2024 年，情况变得格外复杂起来。首先是谷歌 Gemini 出世了。谷歌表示，不管你 OpenAI 出什么牌，我都接！从去年的时候我就说，这第一场玩下去，赢的最终必然是谷歌。本质的问题不是 DeepMind 比 OpenAI 强了多少，本质的差别就一个：谷歌 TPU 都更新到第六代了。第五代性能大概对标 H100，第六代不清楚，估计就算和 GB200 有差别，能有多大差别？用同样差不多的芯片制程，用同一代的 HBM 高速存储，凭着谷歌已经设计了六代迭代？
为什么断言谷歌是这第一场竞争的胜利者？因为相对于竞争对手顶着英伟达90%毛利买H100，谷歌的TPU，那还真是拉一车沙子去台积电，背一麻袋TPU 出来。
问题不是出在单个芯片性能上，而是出在英伟达的计算卡上！英伟达的芯片毛利 90%？3500 的成本价，卖你 3 万 5？甚至卖你4万5？GPT-4 这一代大模型，大家都忙着建数据中心，奥特曼吹牛不上税，还搞7万亿的芯片投资计划？还要拉着微软建立 1000 亿美元一个的数据中心？
在 AI 没有非常明确的下游产出的情况下？投资成千上万亿美元？这是有啥大病啊？？
结果仅仅一年时间，这两天 OpenAI 还整 12 天的烂活，Gemini 2.0 现在免费版性能就和 GPT-4o 差不多？图片生成，视频生成，OpenAI 全家桶几乎让谷歌拉爆了。哦，还有个 O1，呵呵，呵呵呵，国内一大堆人都能复现 O1 的架构性能，何况谷歌 Gemini 2.0？
其实第一代 LLM，一开始就是没目的的瞎炼丹，是资本和工程师的狂欢，模型越做越大，各种数据一个劲地堆。为啥要这么堆？因为堆的数据越多，模型泛化能力越强？为啥啊，我也不知道啊。涌现啊，堆多了就涌现了呀。

Anthropic 最先发现了这个问题的不对劲。
Claude 3.0 家族表现出了和 GPT 家族完全不同的思路，以及带来完全不同的体验。Claude 3.5 更是划时代的作品。为什么？因为大模型真正有用，或者产生生产力应用的，首先就是写代码，Claude 3.5 用优秀的代码能力和强大的语义理解能力，首先落地代码助手和代码代写。那边，OpenAI 还忙着弄语音聊天呢，你可真闲。

各种自媒体都出来买课了。都成了AI专家？OpenAI 要建1000亿数据中心，GPT5练好了？GPT6 已经看完了YouTube 的所有视频？
聊天，能有人付费吗？是生产力吗？豆包里都有一大堆聊天机器人。成千上万的GPTs看着眼花缭乱，顶得住Claude一次版本更新吗？这里并不是要针对openAI,相对硅谷的上几段故事，比如拉里·佩奇领导的谷歌，击败了杨致远的雅虎，乔布斯领导的苹果，有独特的产品洞见？比尔盖茨领导的微软？一个视窗横扫操作系统市场。
sam 与OpenAI现在的故事，更像是是曾经让让微软用IE浏览器收拾了马克·安德森的网景。
近一年来，OpenAI 创始人，核心圈几乎跑光了。Ilya Sutskever出走，更是让圈子大为哗然！你能想象谢尔盖布林在谷歌开始的几年里，弄走了拉里佩奇吗？提出PageRank算法的核心思想，的拉里佩奇?
大家越来越发现：Sam 除了作为一个PR，除了拉投资，吹牛以外，唯一剩下的能力，就是装神弄鬼。
把OpenAI 变成 CloseAI, 一个O1 从草莓到O1 前前后后吹一年，然后呢？国内一大堆小公司都能实现一个类似的r1,QwQ, 对于谷歌来说，还从来没有这样一种怪相，就是gemini 2版本的O1还没出现，就让大部分人确信，性能会打平或者打爆OpenAI O1?
Sam 神秘感破产了，哪个千亿，万亿，计算中心的大梦破产了。技术路线图也破产了。还记得GPT6 看完了全网视频的神棍话题吗？
今天的总技术路线图不变的情况下，AI 预训练看完全网视频，百分百不会诞生意识，只会成为一个鉴黄师。
直到年末，小模型风潮带来了 3B 模型都能对齐 70B 模型的性能。各种 RL（强化学习）搅乱风云，Gemini 1206, 几乎拉出 GPT-4o 整整一代的体验感。
真正改变的不是数据用尽了，而是原来那种没头没脑的堆数据，预训练的时代结束了。
思路早都该换了，还建千亿数据中心呢？时代变了，大人。

发表于 6 天前

“数据资源耗尽”的说法，感觉并不合理，大家都还在努力制造数据，实现现阶段的AI应用，预训练时代算是正在席卷开来吧？？
我不直属于AI口，不过也勇敢表达一下我的想法，立场算是站在AI对生物科研的角度。
目前有不少细胞生物学的大佬，都在积极筹备AI在细胞领域的应用，试图建立更高、更快、更全的数据库，来实现精准分类和疾病预测，并试图达到更高维、更全面的生物知识认知。
这种概括可能不够具体。来打个比方，就是每个人抽一管血。这个抽血的例子我会说的比较久，主要是血检属于未来AI辅助医疗里面最有前景的领域之一。至于和“数据资源耗尽”的关联，会在抽完血以后提到。

先说抽血的事。在目前的医学水平，抽一管血可以测很多健康指标，比如糖、脂肪、蛋白、激素等，极为精确的告诉你：是不是得了高血脂、糖尿病、有没有甲状腺功能亢进、什么激素出了不足或者过量。
不仅如此，这一管血还可以提供不少特定的疾病信息，比如是不是白细胞超多、有什么炎症，有没有特殊酶、代谢物的变化暗示了你有什么肝脏、肾脏的隐疾。还可以捕捉到极微量的细胞，像体内癌细胞、或者怀孕个体的胎儿细胞，然后对这些细胞做进一步鉴定。
此外，还可以通过血液中的细胞形态、数目，直接诊断出不少血液类疾病。
当然了，这里说的“一管血”纯属约数，有时候去测一个lipid panel竟然要抽六管！看着护士心平气和又有点同情的样子，多少传达出“抽六管不是啥大事”的情怀。。。
说了这么久抽血，就是想表达一个概念：血液作为人体最容易获取的材料、又是实时更新、与全身各处紧密相连的组织，血液里面含有的生物信息绝对是客观公正全面的。
但目前有很多病，靠抽一管血是测不出来的----
这里面第一个原因，就是“血常规”里面的&#34;常规&#34;，并没有包括所有测试、只是部分测试。可能一个病人在发现癌症晚期的半年前，还得到过血液化验结果正常的报告。再比如你从来都没注意甲状腺、也从来都没想过测甲状腺激素值，不小心一测、测出来的就是超标的危险值，显得特别突然。
很多测试的测法不一，有些要化学反应、有些要物理测量、有些是染色以后拍照，要不同的试剂仪器方法。你坐在这抽完六管，这六管血转眼就分家了，运到全城各地不同仪器里各司其职。

与之相关的第二点，就是各种血液测试都得要一定的血液体积和测量费用。
如果是做微量细胞测序这种，价格还会高一大截；想做完整的各种marker检测，每一种染色可能都得要几毫升血液。。。连平时测lipid都要抽六管，真想“测个最全的”，搞不好还得分成好几次才安全。。。
想要解决这个问题，包含了技术发展、医疗保险、社会进步等多方因素，在这讨论颇为超纲。目前其实在慢慢变好，就类似于50岁以上的癌症筛查，在高发病人群中提供测试保障。同时精度更高、成本更低的测量方法也不停被发明出来.

中性粒细胞

第三点原因，就是血液的意义和特征没有被完全发掘出来。比如很多目前被我们忽略的检测结果，包括血液细胞的微小形变、圆度小偏差、细胞核的形状改变、核膜的褶皱位置、DNA的折叠比例等等，其实可能与疾病发生是直接相关的，只是现在我们还不知道而已。
甚至，也许很多靠目前物理化学染色方法可以测出来的指标，也许早已经反映在了细胞的长相里。“相由心生”，对于细胞来说也是的----如果细胞生活环境变了、或者收到特殊代谢分子的影响，就会在自己身上表现出来，缺就缺在我们不了解这种细微特征、没有把它们和疾病关联起来。
这就说到了AI辅助检测这块，也是开篇说到的众多大佬想要建立数据库来预测疾病的例子之一。想实现这种高维数据库的前提，仍然是制造并搜集足够多的数据资源。
所以，现在有专门的实验项目，就是各种高分辨率拍照，拍细胞3D整体，还要看清楚细胞里面的关键细胞器，像细胞核、线粒体、溶酶体等。
如果是来自病人的样品，细胞拍照就和病人本身的疾病类型、疾病阶段、治疗形式关联起来。如果是健康人的样品，就可以和受试者的年龄、健康程度、长期饮食习惯关联起来。
无论对哪一方面的“细胞差异”感兴趣，像疾病类型、恶化程度，都可以把不同组的图像在AI模型的帮助下做差别识别，然后找到一万个特征里面最关键的几种组合形式，以此作为可以应用的出发点，对未知的样品进行分析预测。
有了大数据才能预训练再预测！！！说起来好像不难，但血液中细胞类型有那么多，每种细胞又有很多时期、在疾病过程中又有不同的状态，整合起来也不容易。
所以，如何尽可能多的搜集数据、整合数据、调用数据，都是使用AI模型辅助分析的必要前提。当然了，科学发展是指数的，快到飞一样，快到昨天有的公司都已经推出了类似的GPT界面，就差去给血细胞拍照了！

发表于 6 天前

Ilya很狡猾，我来澄清一下，
这是第三次聊Ilya Sutskever的“炸场言论”
ilya说的“预训将死”并不是重点，他的重点是“超智”。
我觉得他说得很巧妙，没有把“Reinforcement Learning”两个字说出来。但我们都知道Agent是RL中的经典概念。——很明显，ilya在做RL，一种继承了深度神经网络的RL Agent。
——为什么他没说呢？可能因为这个词已经不酷了，原理上来说，爱养狗的巴甫洛夫和爱养猫的桑代克是RL之父，这TM已经是19世纪的事儿了，Sutton和Barto是RL之子，ilya就是RL孙子了，这就不大好听了。而且OpenAI以前就投入了大量资源做RL。(想想也挺好玩的，第一代RL用的是动物，第二代用的是传统计算机，第三代是用深度神经网络，RL永远不会死)
我来分点说说：
①我们如何看待大语言模型？
现在的大语言模型，像是“躺在摇篮里，吸着奶嘴，留着胡子，生活不能自理的硕士”。
他们读完几乎所有的书，但没有Agency，也没有Autonomy。所以，你觉得它们又强又废。
所以，在这种情况下，预训练意味着，我们只是不断的培育“留着更长胡子，吸着奶嘴的博士”，“摇篮中的博士后”…… 这点Bindu Reddy，A. Karpathy都提到了，只是措辞与我不同。
②“预训练将死”是啥意思？
众人周知，Ilya是Transformer型预训练模型的核心发起人，GPT里就夹着“Pre-trained”的字眼。现在他自己宣布“预训将死”，这就是有点戏剧性了。
Ilya有口无心地谈到了“数据没了，大家散了吧”
随后，他提到了提到了RL中一些关键特征。
③RL才能走向“超智”
这是我从Ilya创立SSI以后的一个月，慢慢想通的。——今年夏天我一直在讨论这个问题——我这里简短截说一下：
1. 预训练不能达到超智，它们只是已有数据的建模，泛化能力很有限，如果预训练要达到超智，那么超智本身就已经存在，这就矛盾了。泛化能力是个谜，但通常是向更接近一般化的情况泛化。
2.而且预训练也无法达到AGI，更达不到ASI，道理同上，如果预训练是已有数据的建模，那么它们只能无限接近AGI，而不能达到AGI。AGI是当下人类专家技能的复刻，而这种复刻不可能是完美的。

Ilya提到了一些未来RL的关键特征，
①自主学习，自主探索 (代替二手数据收集)
②脱离人类的思考方式，甚至无法被人理解。这点是进化论范畴的，环境不同，奖励不同，行为不同——LLM是人类文本的仿制品，所以不会做出特离谱的事，即使价值观崩坏，也是人类意义上的价值观崩坏。——我现在有点理解ilya的公司为什么叫SSI了(安超智)，记得Dario Amodei说过，大语言模型没有太大的安全性问题，但化身为Agents，就完全是两回事了。
③发展出自己的意识(这点我还讲过，为什么RL会发展出意识，且和人类的意识完全不同的意识，如果智能体需要同时考虑自身和环境时，那么它们就需要对自身的意识)
④远超人类。其实我们已经看到了，o1不是模型，o1是一个用来优化提示词的RL Agent，就是因为人类写的提示词太糟粕(还记得OpenAI的提醒吗？不要在用o1时使用画蛇添足的提示词技巧)。只要适当的训练，RL Agent就轻松超过人类。
——我去年秋天在开一个玩笑：未来在OpenAI Five和DeepMind AlphaStar ，而不是大语言模型 (我应该在知乎上提到过。)(小洋马是研究OpenAI Five的，今年夏天我还跟她聊了很多这方面的事，她想转LLM，我劝她，DRL会爆发的。)我想人们最终会明白LLM只是RL的辅助器。
我想Ilya讲得很明白了，如果领会不到，那就是其他研究员的悟性问题了。如果每个研究员都有Dario Amodei的悟性，那么时代发展会快很多。

OpenAI联合创始人指出，数据资源耗尽，下一代AI模型将是真正的Agent，AI预训练时代终结了吗？

本周热门