纸上微光

LLM 注意力机制：从点积到多头因果注意力

基于《Build a Large Language Model (From Scratch)》第 3 章，整理注意力机制、自注意力、QKV、因果 mask、dropout 和多头注意力的实现路线，并把原章节图示重写为 Mermaid。

译自 LLMs-from-scratch 仓库中关于技术书阅读方法的短文，整理按章节阅读、动手复现代码、做练习、回顾笔记，以及把想法用进项目的学习流程。

更新于 2026-05-26 发布于 2026-05-24 # 大语言模型

从 tokenizer、token ID、特殊 token、滑动窗口采样、embedding、位置编码和 2026 年 API 协议出发，理解原始文本如何被改写成 LLM 可以计算的输入序列。