DeepSeek模型蒸馏是一种让模型学习的“技巧”。
想象有一个知识渊博的“大老师”模型 ,它懂得很多知识,能够对各种复杂的问题给出准确答案。还有一个“小学生”模型,它没那么厉害,知识储备和能力有限。
模型蒸馏就是让“小学生”模型向“大老师”模型学习 。“大老师”模型把自己学到的知识,以一种特殊的方式传递给“小学生”模型。比如“大老师”模型对不同图像的分类有自己精准的判断,它会把这种判断的“思路”,也就是一些关键信息和模式教给“小学生”模型。
通过这种方式,“小学生”模型就能快速学习到很多有用的东西,在不增加太多计算量和复杂度的情况下,提升自己的能力,就像一个学生向学霸学习,让自己成绩也变好一样 。这样“小”模型就可以在保持较小规模的同时,尽可能达到和“大”模型相近的性能 。 |
|