大模型基础概念入门
Transformer
自注意力(Self-Attention)
Q\K\V
Q:目前关系的问题,当前token;
K:token的标签
V:包含的信息
Q*K得到谁更重要,之后再乘以V得到这些重要的人说了什么信息。
除以根号dk与softmax是数学策略。
前馈网络FFN
简单而言就是增加维度->增加信息->降低维度。->增加非线性变化。
层数影响
逐层抽象。浅层学习低级特征(词性、局部语法),深层捕捉高级语义
输入空间—>Layer 1—>语法空间—>Layer 2—>语义空间—>…—>推理空间
单层表示:
Layer(x)=LayerNorm(x+FFN(LayerNorm(x+Attention(x))))
多层复合:
Model(x)=LayerN(LayerN−1(…Layer1(x)))
Prefill & Decoder
Prefill(预填充):处理输入的所有已知 tokens,计算它们的隐藏状态并填充 KV Cache。
Decoder(解码):基于 KV Cache 逐个生成新 token,直到结束。
1.为什么要提前计算所有的tokens? 2.怎么计算kv的? 3.什么是 token 的隐藏状态 4.QKV权重矩阵是干嘛的? 5.什么是PD分离
优化策略
计算图优化与算子融合
投机采样
FlashAttention