04 Transformer Block：GPT 的基本积木

学习目标

Transformer Block 像一条加工线：先让 token 交换上下文信息，再让每个 token 独立做非线性变换。残差连接负责保留原信息，LayerNorm 负责让数值更稳定。

一个简化 decoder block：

x
↓ causal self-attention
x + attention(x)
↓ LayerNorm
↓ FFN
x + ffn(x)
↓ LayerNorm

真实 GPT 还会有多头拆分、投影矩阵、dropout 和更复杂的归一化位置。

build-nanogpt 从 class GPT(nn.Module) 开始，把 embedding、block、lm head 拼起来。llm.c 则展示这些模块落到底层数组和循环时是什么样。

这个实验把一层 decoder block 拆成 attention、残差、LayerNorm 和 FFN 的顺序执行。

运行：

npm run lab:04

输出是每个 token 经过一层 block 后的新向量。重点看代码顺序，而不是数值本身。