大模型基础概念入门

Transformer

Q\K\V

Q：目前关系的问题，当前token;

K:token的标签

V:包含的信息

Q*K得到谁更重要，之后再乘以V得到这些重要的人说了什么信息。

除以根号dk与softmax是数学策略。

简单而言就是增加维度->增加信息->降低维度。->增加非线性变化。

逐层抽象。浅层学习低级特征（词性、局部语法），深层捕捉高级语义

输入空间—>Layer 1—>语法空间—>Layer 2—>语义空间—>…—>推理空间

单层表示：

Layer(x)=LayerNorm(x+FFN(LayerNorm(x+Attention(x))))

多层复合：

Model(x)=LayerN(LayerN−1(…Layer1(x)))

Prefill（预填充）：处理输入的所有已知 tokens，计算它们的隐藏状态并填充 KV Cache。
Decoder（解码）：基于 KV Cache 逐个生成新 token，直到结束。

1.为什么要提前计算所有的tokens？ 2.怎么计算kv的？ 3.什么是 token 的隐藏状态 4.QKV权重矩阵是干嘛的？ 5.什么是PD分离