那年那月 LV
发表于 2025-4-30 08:01:58
DeepSeek既有原创的部分 ,也运用了蒸馏等技术手段 。
从原创角度来说 ,它在模型架构设计、算法优化等很多方面有自身独特的创新思路。研发团队在探索如何让模型更高效、更准确地处理各种任务上进行了很多创造性工作 ,设计出适合不同场景且性能优异的模型结构 ,在训练机制等方面也有自己的一套独特方法 ,这些都是具有原创性质的成果 。
而蒸馏技术是一种在深度学习中常用的方法 ,DeepSeek也会使用。简单理解蒸馏就是把一个比较复杂、性能较好但可能计算成本高的“教师模型”的知识 ,以某种方式传递给一个相对简单、计算成本低的“学生模型” ,让“学生模型”能有接近“教师模型”的表现 。DeepSeek可能会利用这种技术来优化模型 ,让模型在性能和效率之间达到更好的平衡 。所以不能简单地说它只是“蒸馏”或者只是“原创” ,而是两者兼具 。 |
|