技术阅读与日常

纸上微光

文章

LLM 注意力机制：从点积到多头因果注意力

发布于 2026-05-26 # 《Build a Large Language Model》阅读笔记

基于《Build a Large Language Model (From Scratch)》第 3 章，整理注意力机制、自注意力、QKV、因果 mask、dropout 和多头注意力的实现路线，并把原章节图示重写为 Mermaid。

如何读技术书更有收获（译文）

发布于 2026-05-26 # 《Build a Large Language Model》阅读笔记

译自 LLMs-from-scratch 仓库中关于技术书阅读方法的短文，整理按章节阅读、动手复现代码、做练习、回顾笔记，以及把想法用进项目的学习流程。

LLM 读到的不是文字，而是一套序列协议

更新于 2026-05-26 发布于 2026-05-24 # 大语言模型

从 tokenizer、token ID、特殊 token、滑动窗口采样、embedding、位置编码和 2026 年 API 协议出发，理解原始文本如何被改写成 LLM 可以计算的输入序列。

LLM 定义、训练与 GPT 架构

更新于 2026-05-24 发布于 2026-05-22 # 《Build a Large Language Model》阅读笔记

基于《Build a Large Language Model (From Scratch)》第 1 章，整理 LLM 的定义、应用、Transformer、GPT 架构、训练阶段和实现路线，并按 2026-05-24 的公开资料更新多模态、长上下文、后训练、MoE、开放权重和涌现能力等内容。

CS146S 学习指南

发布于 2026-05-21 # 阅读笔记

学习这门课的目标理解 AI 的边界。官方课程安排中的阅读资料有选择性的阅读即可。第一周 Deep Dive into LLMs How OpenAI Uses Codex 第二周阅读 MCP Introduction MCP Food-for-Thought 作业我个人认为应该完成的作业是：Build a Custom MCP Server 第三周 Specs Are the New Source Code Writing Effective Tools for Agents