请问DeepMind和OpenAI身后的两大RL流派有什么具体的区别？

DeepMind和OpenAI都在深度强化学习领域取得了不错的成绩，但是通过分析David Sliver和Sergey Levine的一些Tutorial细节，我感觉到他们对于RL的理解和实现思路有比较大的不同。
请问有没有一种对这两个RL研究机构更深入的对比？谢谢。

发表于 2025-4-8 12:48:38

不好意思，马粪跟牛粪的区别。
几年前公司还有70%的人推崇，现在不到20%
不管是value based 还是policy based，说实话，目前这个情况，连自己人都嫌弃，
主要是你如果没办法在不同domain进行均匀采样，别想有效探索，supervised learning直接给你提供不同domain入口，强化学习目前，没办法做到自主靠value和policy，探索到不同数据分布，如果这一点做不到
活该被抛弃
还是LLM更靠谱

发表于 2025-4-8 13:01:20

今天打开知乎正好看到了这个问题，想稍微从应用和一些理论角度稍微聊一聊我自己的看法。首先，渊栋和周教授都聊了value-based和policy-based method的一些历史和一些“江湖”轶事，都确实是我也观察到的一些现象。但是我觉得还是想从本质上说一下这两个方向的本质演变过程来说一说这些算法到底是怎么来的，然后同时给一些我自己认为比较有意义的启发吧。
我们先来讲一下RL主流的几个算法的一个演变过程吧。我们先来说一下大家最耳熟能详的value-based methods, 比如Deep Q-Network (DQN)。DQN其实是基于Q-learning的，往更大的范畴来说，属于Temporal Difference (TD) Learning。TD Learning的目的其实很简单，就是需要去learn一个future trajectory的cumulative reward。那换句话说就是我在state S采取一个action A，这个action在这个state能给我未来带来多少的收益。那最能让人能理解，并且最简单的方式呢就是我直接把它当成一个Supervised Learning的问题来解决，我把未来所有的reward都加起来当成label，然后S和A是feature。这个label也可以想成是一个monte carlo模拟出来的结果。这也是我们会称之为TD(1)的一个算法，也就是没有bootstrapping（RL意义上的bootstrapping不是统计学意义上的）。这其实严格意义上来说是一个RL算法。我们把以上这个将S和A当成feature的model，叫做value function。
但是这里引出了一个问题，就是未来的不确定性是极大的，而且未来的reward会基于未来的policy，那会使得我们上文说的TD(1)的label的variance变得很大。这是非常不利于model learning的。（这其实在supervised learning里非常常见，label variance太大，model就performance很差。）那我们怎么解决这个问题呢？我们采用了RL领域的bootstrap，也就是TD(0)。简单来说，我们在TD(1)里面的prediction target其实可以被分解为，下一个time step的reward和后面所有的reward。那后面所有的reward其实可以用下一个state的value function来代替。这样一来，后面的reward的variance都会被包裹在value function里面。这个取代的巧思呢，也就是我们的Bellman Equation，其最大的贡献就是减少learning过程中的variance。具体的理论背景呢，推荐可以去了解一下Contraction Mapping，这就牵扯到Operations Research里面的一些技巧了，我们就不赘述了。这个想法呢就催生了SARSA，Q-learning的这一整套value based方法。以上是value-based的主流做法，也就是所谓的DeepMind派，也就是所谓Rich Sutton比较推崇的流派。（别急，重音在所谓两字哈哈）。
目前看来，我们似乎已经解决了RL问题的一些核心点，但是却又发现了一个致命的缺陷，那就是value-based method不论是在learning过程中还是在inference过程中都需要计算所有action的value，这个问题就大了。如果action space是连续空间怎么办？policy gradient就有了很大作用了。policy gradient背后的思路呢其实跟TD(1)非常类似，但是呢又很不一样。简单来说，policy gradient的目的是将我的policy直接当成一个probabilistic function来优化，优化方式呢就是，如果我的policy以后拿到的总体reward更高，我就把我的policy向这些policy多靠近一些，如果总体reward更低，那就把policy向这些policy少靠近一些。这个方法是解决了连续action空间的问题。但我们又回到了原来的那个问题，这个未来的总体reward的variance很大啊。这样我们的policy的实际learning过程岂不是也非常不稳定。这里就来到了Pieter Abbeel和Sergey Lavine的这个妙思了。如何减少这个不稳定性呢，其实最简单的办法就是使得新学到的policy不要太多的远离原有的policy，这样我们对于每次learn的时候其实confidence都会相对更高，variance也会更小。这是TRPO和PPO背后的核心思路。（背后的理论原因其实跟Importance Sampling相关，这边也不赘述了。）
到这，我们是不是觉得policy-based method比value-based method要好了呢？其实中间还有一些问题。policy-based method的核心思路还是基于未来的reward的，即便用一些办法减少variance，他的本质gradient的系数，也就是未来的reward，还是有很大的variance，这个是它没法跟value-based方法比的。从纯粹的理论sample complexity或者regret bound来说，policy gradient方法的sample complexity其实很大，比value-based要差。这些方法之所以非常有效，是因为它的应用场景大多在robotics和一些environment本身的随机性(Stochasticity)比较小的场景，那未来的reward的variance也不会太大，但如果在一些非常有随机性的environment，这就不好说了。所以后来出现了Actor-Critic方法，用Critic也就是value-based学习到的value function来当作Actor也就是policy-based的gradient系数，这样就解决了variance的问题，也同时解决了连续action空间的问题。
Okay，讲了很多，来总结一下，这两个方法呢确实在不同的researcher手中各有侧重，但是孰优孰劣我觉得没必要去评判它，因为他们的目的本身就不太一样。早在1999年Rich Sutton就写过一篇着重讲policy-based method的论文了（Policy Gradient Methods for Reinforcement Learning with Function Approximation），他也并非完全嗤之以鼻。Pieter Abbeel的文章里也有很多结合了value-based，比如Soft Actor-Critic (SAC)就是他的组里提出的。我希望我以上的总结能够让大家对于这两个方法具体要解决什么问题有个相对直观的概念。其实背后的原因和思路有很多我没有讲到的，比如on-policy和off-policy之类的，但是希望能够相对简短的让对RL感兴趣的各位有个理解，也能帮助大家以后的工作。
对于具体的适用性呢，我觉得长远来说，对于完全普适性的RL算法，我觉得Actor-Critic可能能走的更远，因为它的理论结果相对较好，而且结合了两种方式的优点，缺点是它本身的优化不再是单一的contraction mapping或者loss reduction，使得model learning本身变成了更复杂的问题。而如果environment本身的随机性较小，比如robotics的领域，policy-based方法其实是现行主流。那最后value-based方法对于随机性极大，需要和一些value model trick结合的方式特别适用，因为它更灵活，可以当成prediction结果来用，比如在一些类似推荐系统啊之类的复杂系统中会比较容易结合。
希望对大家有帮助。

发表于 2025-4-8 13:15:09

没啥特别大的区别，共同点倒是很多。从代表性的大工作上来看，两边都相信暴力出奇迹，end-to-end加大量模拟数据是王道，和其它做RL及Robotics的人有比较大的差别。有句话叫除了大公司其它人都在折腾小的模拟环境做做RL理论，这话确实挺对的。
常规发文上看，DM现在很大了，RL上各种方向的文章都有，有提出算法的文章，有分析算法的文章，有理论的文章（你看AlphaStar的blog里面引了自己理论的文章，IMPALA也有V-trace的分析等等），也有大量的应用。OpenAI也有很多各种不同且有意思的文章，比如说最近ICLR做Exploration的有趣思路，也有Neural MMO这样的多智能体框架（当然这篇文章的实验真心写得不好），等等。总的来说并没有流派之分，还是往有效果的方向走。
另外policy-based和value-based的区别其实只是formulation上不一样，最后还是要看function approximation是不是和问题对路，inductive bias是不是好。传统tabular上的分析放到实际情况里面往往是不对的。

发表于 2025-4-8 13:23:46

谢邀。这是个很好的问题，能看出这个差别说明RL还是上路了。这学期我正好在教Reinforcement learning的课程（课程主页Reinforcement Learning）。第一次开课，花费挺多时间备课以及储备RL的前沿进展，ICCV之后也许可以更详细地总结一下。
总的来说，确实DM和OpenAI两家的工作有明显的派别差异，对RL的理解非常不同，忠于Value-based RL和Policy-based RL的差别。这跟其中的两家主脑人物的RL学派直接关联。
David Silver毫无疑问是DM的主脑人物之一。David的博士导师是Richard Sutton，所以是非常受Sutton的RL价值观影响。Sutton推崇的是正统的Value-based RL。Sutton就是那本畅销书 Reinforcement learning: an introduction的作者之一。读过这本书的同学应该可以发现，这本书是按照经典方法论来组织，比如说Markov Decision Process, Dynamic Programming, Monte Carlo Methods, Temporal Difference Learning等，这些都是传统做优化和控制论里的东西。30年前的RL确实就是control theory背景的人在做，还没做机器学习这帮小屁孩什么事儿。这里还有个有意思的点是，这本500多页的RL畅销教材，关于现在大行其道的Policy-based RL (Policy gradient)的相关方法，只有不到20页的内容，可见Sutton对Policy-based RL的态度。所以David最早在DeepMind里面也是推行Value-based RL的思想，搞出了Deep Q-learning, DDPG之类的东西。至于说后来的A3C，已经是不得不屈从于Policy-based RL的高效率。
另外一方面，OpenAI背后的派别是Berkeley帮，主要工作是围绕Pieter Abbeel以及他的两位superstar博士生Sergey Levine和John Schulman。Levine和Schulman可以说在现今的RL圈子里如日中天，两人都做出了非常有影响力的工作。Levine把Guided Policy Search (GPS)用到robotics里面，使得小样本RL也能学习。Schulman理论功底扎实，为人低调，他的TRPO以及后来的PPO，都是RL必用算法（这里有能看懂TRPO论文推导的同学私信我:)，我请你过来visit，我敬你是条汉子）。
Berkeley帮的明显特征是极度推崇Policy-based RL。用过RL的同学应该知道，policy-based RL以及衍生出的model-based RL比value-based RL效率高一个量级，这跟Abbeel和Sergey的机器人背景关系非常大。在机器人的应用中，sample-efficiency非常重要。不像DeepMind随便就可以跑million级别数量的游戏仿真，机械手臂这玩意其实是非常容易坏的，而且价格不菲，在构建RL算法的时候不得不从sample efficiency角度出发，所以Levine提出了GPS以及相关的一堆东西如imitation learning，inverse RL, model-based RL，包括他的门徒Chelsea Finn做的关于meta-learning之类的东西，都是从这一点出发，跟他的robotics背景也相符。
所以这两个派别差异确实还是挺大。另外，这跟两家公司的定位也有关系，比如说DeepMind着眼于Go和Starcraft这样的AI明珠问题，可能确实Value-based RL+search的办法更work。OpenAI强调Open，大众普及RL，着眼于一些机器人应用和相对小规模的RL问题，Policy-based RL以其优秀的效率和稳定性更胜一筹。可惜OpenAI里面的人已经走得差不多了，创立时候定义自己是non-profit organization，理想很丰满现实很残酷，啧啧啧。
一句话，黑喵白喵抓着老鼠就是好喵。以PPO为核心的Policy-based RL方法目前处于绝对领先位置，有着广泛的群众基础。DeepMind着眼的那些AI明珠问题不是我等群众老百姓可以企及的，坐等吃瓜就好。

发表于 2025-4-8 13:37:14

没有流派之别...
我在DeepMind intern过, BAIR在读phd, 做machine learning, 也熟悉openai.
Pieter Abbeel和David sliver更偏向提出learning algorithm/methods, 换句话说就是在做machine learning, P和D提出的很多方法影响深远(外行看google scholar, 内行想一想你读过的好的paper, 都不用举例了吧), Sergey Levine有一点点偏向于robotics, 也在google带robotics的人, S资历更年轻。
P和S都是极其popular的大佬人物，整个BAIR在DeepMind里也是赫赫有名。

请问DeepMind和OpenAI身后的两大RL流派有什么具体的区别？

本周热门