LLM 注意力机制:从点积到多头因果注意力
基于《Build a Large Language Model (From Scratch)》第 3 章,整理注意力机制、自注意力、QKV、因果 mask、dropout 和多头注意力的实现路线,并把原章节图示重写为 Mermaid。
基于《Build a Large Language Model (From Scratch)》第 3 章,整理注意力机制、自注意力、QKV、因果 mask、dropout 和多头注意力的实现路线,并把原章节图示重写为 Mermaid。
译自 LLMs-from-scratch 仓库中关于技术书阅读方法的短文,整理按章节阅读、动手复现代码、做练习、回顾笔记,以及把想法用进项目的学习流程。
从 tokenizer、token ID、特殊 token、滑动窗口采样、embedding、位置编码和 2026 年 API 协议出发,理解原始文本如何被改写成 LLM 可以计算的输入序列。