大模型 LLM 解析

通过交互式可视化,从零理解大语言模型的工作原理

向下滚动开始探索
1 分词 Tokenization

LLM 不直接处理文字,而是先将文本拆分成"Token"(词元)。每个 Token 对应一个数字 ID,模型只认识数字。

2 词嵌入 Embedding

每个 Token 被映射为一个高维向量(如 4096 维)。语义相近的词在向量空间中距离更近。点击下方词语查看其"向量指纹"。

向量维度(示意前 32 维)
3 注意力机制 Attention

Transformer 的核心:每个词会"关注"句子中其他所有词,计算相关性权重。点击一个词,查看它对其他词的注意力分布。

4 Transformer 架构

LLM 由多层 Transformer Block 堆叠而成。每层包含注意力、前馈网络和归一化。层数越多,模型理解能力越强。

5 文本生成 Generation

LLM 每次只预测下一个最可能的 Token,然后将结果拼接到输入中,重复这个过程。这就是"自回归生成"。

生成过程模拟
下一个 Token 的概率分布
6 训练流程

打造一个 LLM 需要经历预训练、监督微调和人类反馈强化学习三个核心阶段。

📚

阶段一:预训练 Pre-training

在海量文本(万亿 Token)上进行无监督学习,通过预测下一个词来学习语言知识、世界知识和推理能力。需要数千张 GPU 训练数周。

🎯

阶段二:监督微调 SFT

使用高质量的指令-回答对进行有监督训练,让模型学会遵循指令、对话和完成任务。数据量小但质量极高。

👤

阶段三:RLHF / DPO

通过人类偏好反馈进一步对齐模型行为,使其回答更有帮助、更安全、更诚实。这是让模型"听话好用"的关键一步。

7 模型规模 Scale

参数量是衡量 LLM 能力的重要指标之一。更多参数通常意味着更强的理解和生成能力(但也需要更多算力)。