不是,深度求索自己在论文里就提到了自己使用了几千条高质量长思维链回答的冷启动数据进行初始训练……
借用小冬瓜AIGC一张思维导图,我感觉我捉急的语言能力可能带来了一些误解
整个训练流程简单概括起来
1.使用几千条高质量数据冷启动V3-Base,微调函数,解决可读性问题
2.以V3-Base为基础进行面向推理的强化学习(RL),得到了R1-Zero
3.在R1-Zero的基础之上使用V3的蒸馏数据进行新一轮的训练拓展功能性
4.重复第二步,重新进行推理强化学习,得到DeepSeek-R1。We introduce DeepSeek-R1, which incorporates a small amount of cold-start data and a multi-stage training pipeline. Specifically, we begin by collecting thousands of cold-start data to fine-tune the DeepSeek-V3-Base model. Following this, we perform reasoning-oriented RL like DeepSeek-R1- Zero. Upon nearing convergence in the RL process, we create new SFT data through rejection sampling on the RL checkpoint, combined with supervised data from DeepSeek-V3 in domains such as writing, factual QA, and self-cognition, and then retrain the DeepSeek-V3-Base model. After fine-tuning with the new data, the checkpoint undergoes an additional RL process, taking into account prompts from all scenarios. After these steps, we obtained a checkpoint referred to as DeepSeek-R1, which achieves performance on par with OpenAI-o1-1217. 深度求索的开源,不是指免费使用DeepSeek,而是开源了DeepSeek R1、DeepSeekR1-Zero,甚至包括了不同数据量的训练数据集。
换句话说,本地部署R1-Zero,使用开源模型输出数据作为训练数据,你就可以在本地重新训练出一个DeepSeek R1。
事实上,现阶段Hugging Face社区的OpenR1项目已经完成了他们的第一阶段目标,使用本地部署的R1蒸馏小模型输出数据训练R1-Zero,重现了相应的R1蒸馏小模型,甚至复现并开源了DeepSeek-R1没有开源的部分技术细节。未来他们还计划重新构建DeepSeekR1-Zero,甚至完整复现DeepSeekR1的全流程。
更有甚者,TinyZero项目还在DeepSeek的7B小模型技术上通过强化学习直接复刻出了R1-Zero类似物。
<hr/>蒸馏的是用于初始冷启动的训练数据,不是模型。Open AI是闭源模型,你难道还想蒸馏出一个小模型?
实际上,R2和V4的冷启动数据就已经可以蒸馏R1了,这甚至只是一个阶段性问题。
另外,所谓的微软调查深度求索违反Open AI的服务协议,指的不是Open AI禁止第三方使用自己的蒸馏数据训练大模型,而是指的Open AI禁止大陆地区访问ChatGpt,深度求索是违规访问了OpenAI。
这和技术无关,甚至和道德无关,这只是一个政治问题
<hr/>另外本不想鞭尸某位孜孜不倦盖大楼胡搅蛮缠的知乎用户
DeepSeek在2023年刚刚建立,在开源模型里打响(廉价)名声的V2、极低训练成本震惊硅谷的V3,以及同样低成本能力却不次于o2的R1都发布于2024年。
我本以为这个23年的千亿参数模型是DeepSeekV1,但DeepSeekV1发布于2024年1月。
虽然DeepSeek V1与LLaMA有着千丝万缕的联系,但2023年这个DeepSeek Coder实际上更像是基于GPT3.0的试水之作,数据继承性不高才有鬼 |
|