DeepSeek 有多种模型 ,包括DeepSeek LLM(语言模型)和DeepSeek CV(计算机视觉模型)等。
对于DeepSeek LLM语言模型来说 ,它是基于Transformer架构构建的 。就好比盖房子用的一种通用又强大的“建筑框架” 。Transformer架构能让模型很好地处理序列数据,在语言任务里就是处理一个个的词 。通过大量文本数据的训练 ,模型学习到词与词之间的关系、语言的语法规则、语义信息等 ,从而具备理解输入文本并生成合理回复的能力 。
DeepSeek CV计算机视觉模型同样基于一些常见的视觉架构改进和创新 ,比如卷积神经网络(CNN)相关架构 。CNN就像是给模型装上了善于识别图像特征的“眼睛” ,能提取图像里的线条、形状、颜色等基础特征 ,然后组合这些特征来识别物体、场景等 。DeepSeek CV通过不断优化和在大规模图像数据上训练 ,提升对各种视觉任务的处理能力 ,像图像分类、目标检测等 。 |
|