通过交互式可视化,从零理解大语言模型的工作原理
LLM 不直接处理文字,而是先将文本拆分成"Token"(词元)。每个 Token 对应一个数字 ID,模型只认识数字。
每个 Token 被映射为一个高维向量(如 4096 维)。语义相近的词在向量空间中距离更近。点击下方词语查看其"向量指纹"。
Transformer 的核心:每个词会"关注"句子中其他所有词,计算相关性权重。点击一个词,查看它对其他词的注意力分布。
LLM 由多层 Transformer Block 堆叠而成。每层包含注意力、前馈网络和归一化。层数越多,模型理解能力越强。
LLM 每次只预测下一个最可能的 Token,然后将结果拼接到输入中,重复这个过程。这就是"自回归生成"。
打造一个 LLM 需要经历预训练、监督微调和人类反馈强化学习三个核心阶段。
在海量文本(万亿 Token)上进行无监督学习,通过预测下一个词来学习语言知识、世界知识和推理能力。需要数千张 GPU 训练数周。
使用高质量的指令-回答对进行有监督训练,让模型学会遵循指令、对话和完成任务。数据量小但质量极高。
通过人类偏好反馈进一步对齐模型行为,使其回答更有帮助、更安全、更诚实。这是让模型"听话好用"的关键一步。
参数量是衡量 LLM 能力的重要指标之一。更多参数通常意味着更强的理解和生成能力(但也需要更多算力)。