技术 | 方法说明 | 优势 |
RMSNorm 和MLA Up-Projection 的重新计算 | 在反向传播期间重新计算所有MSNorm操作和MLA Up-Projection,无需持久存储其输出激活 | 以算代存,充分利用GPU内算力充沛但缓存不足的特点 |
在CPU内存中保存指数平均数指标(EMA) | 在CPU 内存中保存EMA,并在每个训练步骤后异步更新 | 把EMA从GPU显存占用改为CPU内存占用,释放动态存储空间 |
在多标记预测(MTP)中共享嵌入和输出头 | 使用DualPipe 策略,将模型最浅的层(包括嵌入层)和最深的层(包括输出头)部署在相同的PP等级上 | 允许MTP模块和主模型之间物理共享参数、梯度、嵌入和输出头,提升显存效率 |