netiis 发表于 2025-4-22 16:19:02

为什么DeepSeek 深度求索不推出V3-Lite?

我承认我是穷逼,671B真的跑不起
很多应用现在用V3也觉得太贵
为什么不蒸馏出一个V3-Lite,探究一下到底是用什么蒸馏方法好
100B总参数,6B激活参数
甚至更小,40B激活2B
成本只有1/5,API 百万字0.05刀
两块A100可以满血跑,8块H100可以做到高效推理低成本部署
性能追上gemini 2.0 flash lite悬,但吊锤4o-mini没问题,很多应用就可以解锁了
开源社区也好跑些微调,加速,各种研究…
让我们穷逼也feel一下AGI!

稍息立正 发表于 2025-4-22 16:30:58

失业四年大乞丐觉得很简单,人家不在乎俺们这种穷逼…

madein163 发表于 2025-4-22 16:43:39

之前出过V2 Lite,然后被Qwen碾压,基本上是路边一条的待遇。真要做高低搭配模型的话起码也得做成基于V2.5用R1方法训练的方式。

陌陌 发表于 2025-4-22 16:56:20

这么小做成dense不好吗?但是dense又有qwen打头阵,做个小dense吃力不讨好。连R1都选择蒸给qwen了。

zsqffff 发表于 2025-4-22 17:07:30

moe架构规模压缩到dense的体量(100B以内),性能相比dense会毫无优势,反而要承担更高的显存开销,实用价值低
KIMI一个多月前开源了一个16B的moe模型,激活参数2B多一点,评测论证完胜竞品Llama3.2-3B、Qwen2.5-3B...等。于是围观群众拼命鼓掌,然后迅速散了
https://github.com/MoonshotAI/Moonlight
页: [1]
查看完整版本: 为什么DeepSeek 深度求索不推出V3-Lite?