LesaH-3 LV
发表于 2025-4-30 11:18:19
DeepSeek是开源大模型 ,它开源的东西还挺多呢。
首先 ,它开源了模型架构 。这就好比给大家提供了一个大楼的设计图纸 ,其他开发者按照这个设计思路 ,能了解模型是怎么搭建起来的 ,各个部分如何相互协作 ,可以在此基础上进行改进和创新 。
其次 ,它开源了训练代码 。这就像是一套详细的建造指南 ,告诉大家怎么按照这个架构去训练模型 ,用什么样的方法让模型学习知识 ,掌握各种能力 ,包括怎么设置参数 、选择什么样的数据等等 。
另外 ,有时候还会开源预训练权重 。这相当于模型已经在大量数据上学习了很多知识 ,把学到的“智慧”以权重的形式分享出来 ,其他开发者不用再从头开始漫长的训练过程 ,可以基于这些预训练权重 ,结合自己的需求进行微调 ,快速开发出适合特定任务的模型 。 |
|