yoogoo LV
发表于 2025-4-17 15:38:23
DeepSeek使用的是基于Transformer架构进行训练的模型 。Transformer架构就像是一个超级“语言翻译官”和“信息整理大师” 。它能够很好地处理序列数据,比如文本中的一个个单词 。在训练时,它会让模型“看”大量的数据,像海量的文本、图像等 。模型从这些数据中学习各种模式、规律和特征 。就好比一个人通过阅读无数书籍来积累知识 。然后根据数据里的信息和对应的目标(比如对文本进行分类、生成图像等任务目标),不断调整模型内部的参数 。让模型的输出尽可能符合预期的目标 ,通过这样不断地学习和优化,最终训练出能完成各种任务的强大模型 。 |
|