|
作者:spring1.比较LLaMA、ChatGLM、Falcon等大语言模型的细节:tokenizer、位置编码、LayerNormalization、激活函数等。2.大语言模型的分布式训练技术:数据并行、张量模型并行、流水线并行、3D并行、零冗余优化器ZeRO、CPU卸载技术ZeRo-offload、混合精度训练、激活重计算技术、FlashAttention、PagedAttention。3.大语言模型的参数高效微调技术:prompttuning、prefixtuning、adapter、LLaMA-adapter、LoRA。0.大纲1.大语言模型的细节1.0transformer与LLM1.1模型结构1.2训练目标1.3tokenizer1.4位置编码1.5层归一化1.6激活函数1.7Multi-queryAttention与Grouped-queryAttention1.8并行transformerblock1.9总结-训练稳定性2.LLM的分布式预训练2.0点对点通信与集体通信2.1数据并行2.2张量并行2.3流水线并行2.43D并行2.5混合精度训练2.6激活重计算2.7ZeRO,零冗余优化器2.8CPU-offload,ZeRO-offload2.9FlashAttention2.10vLLMagedAttention3.LLM的参数高效微调3.0为什么进行参数高效微调?3.1prompttuning3.2prefixtuning3.3adapter3.4LLaMAadapter3.5LoRA3.6实验比较4.参考文献分析transformer模型的参数量、计算量、中间激活、KVcache【万字长文】LLaMA,ChatGLM,BLOOM的高效参数微调实践FlashAttention:加速计算,节省显存,IO感知的精确注意力
|
|