GitHub

notes:

残差是指你将你原始输出除了直接输入到下一层还可以直接输入到在下一层
a. 这样可以加速推理，因为顶部流出的梯度（顶部是指最终输出端）他会均匀地分配给他底下的分支即从顶部流出的梯度通过残差路径可以直接流向输入
attentions is a communication operation
a. aggregation function
b. pooling function
c. weighted sum function
d. reduce operation
torch.compile 可以让你的模型先编译一遍让系统知道你待会儿要干啥而不用每一步每一个forward他都重新load东西进去

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.gitattributes		.gitattributes
Readme.md		Readme.md
fineweb.py		fineweb.py
hellaswag.py		hellaswag.py
input.txt		input.txt
play.ipynb		play.ipynb
train.py		train.py
train_gpt2.py		train_gpt2.py

Provide feedback