找回密码
 会员注册
查看: 20|回复: 0

主流大语言模型的技术原理细节

[复制链接]

2万

主题

0

回帖

6万

积分

超级版主

积分
64454
发表于 2024-9-20 20:15:17 | 显示全部楼层 |阅读模式
作者:spring1.比较LLaMA、ChatGLM、Falcon等大语言模型的细节:tokenizer、位置编码、LayerNormalization、激活函数等。2.大语言模型的分布式训练技术:数据并行、张量模型并行、流水线并行、3D并行、零冗余优化器ZeRO、CPU卸载技术ZeRo-offload、混合精度训练、激活重计算技术、FlashAttention、PagedAttention。3.大语言模型的参数高效微调技术:prompttuning、prefixtuning、adapter、LLaMA-adapter、LoRA。0.大纲1.大语言模型的细节1.0transformer与LLM1.1模型结构1.2训练目标1.3tokenizer1.4位置编码1.5层归一化1.6激活函数1.7Multi-queryAttention与Grouped-queryAttention1.8并行transformerblock1.9总结-训练稳定性2.LLM的分布式预训练2.0点对点通信与集体通信2.1数据并行2.2张量并行2.3流水线并行2.43D并行2.5混合精度训练2.6激活重计算2.7ZeRO,零冗余优化器2.8CPU-offload,ZeRO-offload2.9FlashAttention2.10vLLMagedAttention3.LLM的参数高效微调3.0为什么进行参数高效微调?3.1prompttuning3.2prefixtuning3.3adapter3.4LLaMAadapter3.5LoRA3.6实验比较4.参考文献分析transformer模型的参数量、计算量、中间激活、KVcache【万字长文】LLaMA,ChatGLM,BLOOM的高效参数微调实践FlashAttention:加速计算,节省显存,IO感知的精确注意力
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

QQ|手机版|心飞设计-版权所有:微度网络信息技术服务中心 ( 鲁ICP备17032091号-12 )|网站地图

GMT+8, 2024-12-27 15:13 , Processed in 0.434502 second(s), 25 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表