大模型 LLM 可视化解释

1 分词 Tokenization

LLM 不直接处理文字，而是先将文本拆分成"Token"（词元）。每个 Token 对应一个数字 ID，模型只认识数字。

2 词嵌入 Embedding

每个 Token 被映射为一个高维向量（如 4096 维）。语义相近的词在向量空间中距离更近。点击下方词语查看其"向量指纹"。

向量维度（示意前 32 维）

3 注意力机制 Attention

Transformer 的核心：每个词会"关注"句子中其他所有词，计算相关性权重。点击一个词，查看它对其他词的注意力分布。

4 Transformer 架构

LLM 由多层 Transformer Block 堆叠而成。每层包含注意力、前馈网络和归一化。层数越多，模型理解能力越强。

5 文本生成 Generation

LLM 每次只预测下一个最可能的 Token，然后将结果拼接到输入中，重复这个过程。这就是"自回归生成"。

生成过程模拟

下一个 Token 的概率分布

6 训练流程

打造一个 LLM 需要经历预训练、监督微调和人类反馈强化学习三个核心阶段。

📚

在海量文本（万亿 Token）上进行无监督学习，通过预测下一个词来学习语言知识、世界知识和推理能力。需要数千张 GPU 训练数周。

🎯

使用高质量的指令-回答对进行有监督训练，让模型学会遵循指令、对话和完成任务。数据量小但质量极高。

👤

通过人类偏好反馈进一步对齐模型行为，使其回答更有帮助、更安全、更诚实。这是让模型"听话好用"的关键一步。

7 模型规模 Scale

参数量是衡量 LLM 能力的重要指标之一。更多参数通常意味着更强的理解和生成能力（但也需要更多算力）。

大模型 LLM 解析