主页
关于
浅色
深色
自动
中文 (简体)
English
Post
LLaMA代码分析
通过对官方LLaMA代码分析, 学习现代Transformer的工作原理
T5论文笔记
T5是一个Encoder-Decoder架构的transformer. 它的训练过程使用了multi-task learning. 通过研究T5论文我们可以知道transformer模型的预训练中许多有趣的细节.