LLM 注意力机制:从点积到多头因果注意力
基于《Build a Large Language Model (From Scratch)》第 3 章,整理注意力机制、自注意力、QKV、因果 mask、dropout 和多头注意力的实现路线,并把原章节图示重写为 Mermaid。
基于《Build a Large Language Model (From Scratch)》第 3 章,整理注意力机制、自注意力、QKV、因果 mask、dropout 和多头注意力的实现路线,并把原章节图示重写为 Mermaid。
译自 LLMs-from-scratch 仓库中关于技术书阅读方法的短文,整理按章节阅读、动手复现代码、做练习、回顾笔记,以及把想法用进项目的学习流程。
从 tokenizer、token ID、特殊 token、滑动窗口采样、embedding、位置编码和 2026 年 API 协议出发,理解原始文本如何被改写成 LLM 可以计算的输入序列。
基于《Build a Large Language Model (From Scratch)》第 1 章,整理 LLM 的定义、应用、Transformer、GPT 架构、训练阶段和实现路线,并按 2026-05-24 的公开资料更新多模态、长上下文、后训练、MoE、开放权重和涌现能力等内容。
学习这门课的目标 理解 AI 的边界。 官方课程安排中的阅读资料有选择性的阅读即可。 第一周 Deep Dive into LLMs How OpenAI Uses Codex 第二周 阅读 MCP Introduction MCP Food-for-Thought 作业 我个人认为应该完成的作业是:Build a Custom MCP Server 第三周 Specs Are the New Source Code Writing Effective Tools for Agents