大模型基础概念入门

Transformer

自注意力(Self-Attention)

Q\K\V

Q:目前关系的问题,当前token;

K:token的标签

V:包含的信息

Q*K得到谁更重要,之后再乘以V得到这些重要的人说了什么信息。

除以根号dk与softmax是数学策略。

前馈网络FFN

简单而言就是增加维度->增加信息->降低维度。->增加非线性变化。

层数影响

逐层抽象。浅层学习低级特征(词性、局部语法),深层捕捉高级语义

输入空间—>Layer 1—>语法空间—>Layer 2—>语义空间—>…—>推理空间

单层表示:

Layer(x)=LayerNorm(x+FFN(LayerNorm(x+Attention(x))))

多层复合:

Model(x)=LayerN(LayerN−1(…Layer1(x)))

Prefill & Decoder

  1. Prefill(预填充):处理输入的所有已知 tokens,计算它们的隐藏状态并填充 KV Cache。

  2. Decoder(解码):基于 KV Cache 逐个生成新 token,直到结束。

    1.为什么要提前计算所有的tokens? 2.怎么计算kv的? 3.什么是 token 的隐藏状态 4.QKV权重矩阵是干嘛的? 5.什么是PD分离

优化策略

计算图优化与算子融合

投机采样

FlashAttention

LLM

本站由 Zane Jiang 使用 Stellar 1.33.1 主题创建,一款很棒的 Hexo 主题!

总访问 次 || 本页访问
总访客 人 || 本页访客