许多人说DeepSeek是从GPT蒸馏出来的,这是真的吗?
他们还非说transformer就是GPT,这不是两个东西吗?我理解GPT用了transformer技术,但transformer等于是GPT,因为还有很多其他模型,比如:llama、qwen这些,应该也用了transformer框架。我说错了吗? 现在黑子们都说ds是靠“蒸馏”才成功的。我就不明白了,如果“蒸馏技术”这么有效、且廉价,openai自己不掌握这个“蒸馏技术”吗?他自己为什么不“蒸馏”,非要等着我们“蒸馏”?难道他们跟有效且廉价的大模型有仇?
回复一下这个观点:
你把从河里钓上来的鱼放在桶里,我从你的桶里钓鱼。我问你:你为什么不在自己的桶里钓鱼?首先,用“鱼”来比喻“互联网上的信息”是不妥的。因为“鱼”的所有权是唯一的、是排他的。如果这个鱼在你的桶里,那么它就不在我的桶里。而信息这种东西很容易复制,它可以同时存在于你我两个人的AI系统里。
其次,河里的鱼是无主的。而信息却是需要原作者的劳动,才出现在互联网上的。也就是说,原作者们通过学习、思考、总结,以有偿或者无偿的方式,把知识输出到互联网上。openAI无偿(至少部分是无偿)获取了这些知识,然后作为chatgpt的语料,有偿提供给用户。而DeepSeek也是从互联网上获取了这些知识(获取知识的渠道,也许包括chatgpt的答案),然后把这些知识免费提供给用户。
现在请你回答,哪种方式更令人不齿?
更何况,DeepSeek到底有没有“蒸馏”目前还没有定论。有人说DeepSeek的答案里出现了“openAI”字样,但这就能说明DS一定是蒸馏吗?
有没有一种可能,有人使用openAI的答案,参与了一些网上的讨论。而这个讨论的文本,被DS引用了。所以,“openAI”这个词也出现在了DS的语料库里? AI三要素,算法,算力和数据
deepseek这次突破的是算法,不但发了50多页的论文详细阐述了算法创新,还把最终模型开放出来了
算力部分也坦诚是用的英伟达H800,上面算法部分已经说明了为什么只需要很少的算力了
数据那都是爬取或者购买的,全世界大模型都是这两个来源,openai的数据也是爬的买的,购买的数据里包含chat GPT内容很正常,因为利用已有模型做辅助数据标注是常规操作,这部分也是付费的,合理合法。爬取的数据里还包括一部分开源社区的数据,两年来一直有社区成员把自己和chat GPT的对话内容捐赠出来,普通用户和chat GPT对话,对话内容的所有权属于用户,用户可以随意发布这些内容。而且deepseek没有闭源,使用了开源社区的资源也回馈开源社区,合理合法。
大殖子们,你们弄一些包含openai字样的例子只是证明了deep seek的数据来源问题,但是deepseek真正的创新是在算法上,即使它的数据100%来自openai都无所谓啊,不影响算法创新。想揭穿deep seek很简单,从他的论文里找出一个漏洞就行,只需要证明其中任意一个算法并没有宣称中的算力优化效果即可。 不是,深度求索自己在论文里就提到了自己使用了几千条高质量长思维链回答的冷启动数据进行初始训练……
借用小冬瓜AIGC一张思维导图,我感觉我捉急的语言能力可能带来了一些误解
整个训练流程简单概括起来
1.使用几千条高质量数据冷启动V3-Base,微调函数,解决可读性问题
2.以V3-Base为基础进行面向推理的强化学习(RL),得到了R1-Zero
3.在R1-Zero的基础之上使用V3的蒸馏数据进行新一轮的训练拓展功能性
4.重复第二步,重新进行推理强化学习,得到DeepSeek-R1。
We introduce DeepSeek-R1, which incorporates a small amount of cold-start data and a multi-stage training pipeline. Specifically, we begin by collecting thousands of cold-start data to fine-tune the DeepSeek-V3-Base model. Following this, we perform reasoning-oriented RL like DeepSeek-R1- Zero. Upon nearing convergence in the RL process, we create new SFT data through rejection sampling on the RL checkpoint, combined with supervised data from DeepSeek-V3 in domains such as writing, factual QA, and self-cognition, and then retrain the DeepSeek-V3-Base model. After fine-tuning with the new data, the checkpoint undergoes an additional RL process, taking into account prompts from all scenarios. After these steps, we obtained a checkpoint referred to as DeepSeek-R1, which achieves performance on par with OpenAI-o1-1217.深度求索的开源,不是指免费使用DeepSeek,而是开源了DeepSeek R1、DeepSeekR1-Zero,甚至包括了不同数据量的训练数据集。
换句话说,本地部署R1-Zero,使用开源模型输出数据作为训练数据,你就可以在本地重新训练出一个DeepSeek R1。
事实上,现阶段Hugging Face社区的OpenR1项目已经完成了他们的第一阶段目标,使用本地部署的R1蒸馏小模型输出数据训练R1-Zero,重现了相应的R1蒸馏小模型,甚至复现并开源了DeepSeek-R1没有开源的部分技术细节。未来他们还计划重新构建DeepSeekR1-Zero,甚至完整复现DeepSeekR1的全流程。
更有甚者,TinyZero项目还在DeepSeek的7B小模型技术上通过强化学习直接复刻出了R1-Zero类似物。
<hr/>蒸馏的是用于初始冷启动的训练数据,不是模型。Open AI是闭源模型,你难道还想蒸馏出一个小模型?
实际上,R2和V4的冷启动数据就已经可以蒸馏R1了,这甚至只是一个阶段性问题。
另外,所谓的微软调查深度求索违反Open AI的服务协议,指的不是Open AI禁止第三方使用自己的蒸馏数据训练大模型,而是指的Open AI禁止大陆地区访问ChatGpt,深度求索是违规访问了OpenAI。
这和技术无关,甚至和道德无关,这只是一个政治问题
<hr/>另外本不想鞭尸某位孜孜不倦盖大楼胡搅蛮缠的知乎用户
DeepSeek在2023年刚刚建立,在开源模型里打响(廉价)名声的V2、极低训练成本震惊硅谷的V3,以及同样低成本能力却不次于o2的R1都发布于2024年。
我本以为这个23年的千亿参数模型是DeepSeekV1,但DeepSeekV1发布于2024年1月。
虽然DeepSeek V1与LLaMA有着千丝万缕的联系,但2023年这个DeepSeek Coder实际上更像是基于GPT3.0的试水之作,数据继承性不高才有鬼 一眼假,GPT o1发布的时候为了防止各个厂商蒸馏,并未提供原始思维链,只提供思维摘要和最终结果,蒸馏这条路是走不通的。
实际上是deepseek R1出来之后,大家才第一次看到模型的内部思维具体是什么样子 那是不是只要GPT把自己蒸馏干了,就能结晶出更高纯度的DeepSeek?
你这么能装,你直接脱水得了。 关于DeepSeek是否从GPT蒸馏而来,目前无法确定是否为真,需要更多证据和官方说明。关于Transformer和GPT的关系,Transformer是一种神经网络模型架构,GPT是应用了Transformer技术的模型之一。确实,还有其他模型如LLAMA和Qwen也都采用了Transformer框架。因此,Transformer并不等同于GPT。您的理解是正确的。 关于DeepSeek是否从GPT蒸馏而来,目前无法确定是否为真,需要更多确切的证据和官方说明。至于Transformer和GPT的关系,Transformer是一种用于自然语言处理的模型架构,而GPT是应用Transformer技术的一个具体模型。<br><br>您没有理解错误。确实,GPT采用了Transformer技术,但Transformer并不等同于GPT。除了GPT之外,还有其他许多模型,如LLAMA和Qwen等,也都应用了Transformer框架。因此,不能将Transformer简单地等同于GPT。 关于DeepSeek是否由GPT蒸馏出来,这涉及到特定技术和研发细节,我们无法轻易做出断言。不过,确实许多技术和模型之间有继承与发展的关系。GPT和Transformer是有关联的,GPT运用了Transformer架构和算法技术,但不能简单地将Transformer等同于GPT。正如您提到的,还有其他模型如LLAMA和Qwen也都使用了Transformer技术。因此,应准确表述他们之间的关系,避免过于简化和一概而论的说法。
页:
[1]