【transformer】MinGPT开源工程学习

# Description

https://github.com/karpathy/minGPT
https://github.com/karpathy/nanoGPT

chipFormer中的整个骨干网使用了`MinGPT`作为整个网络构建的一个基础模块。
所以这里面也针对chipformer重新学习了一下MinGPT的基础开源工程。

MinGPT是 karpathy Andrej 大神的一个开源项目，意在通过简洁的代码帮助大家理解gpt模型，具有重要的教育意义。MinGPT 只依赖torch，所以上手非常容易，能做文本理解，文本生成，排序等多种工作。kp将工程更新为nanoGPT 并添加了一些实例用来帮助大家更好的理解transformer结构。

网上有太多的关于transformer结构的讲解和理解，我把这篇文档的重点放在mingpt工程本身。理解了mingpt工程，关于chipformer中mingpt的使用和适配就容易理解了。

# 工程

整个模型的定义位于mingpt的model.py中，定义了整个gpt的结构。
工程中有4个类，NewGELU、CausalSelfAttention、Block、GPT.

![](/media/202411/2024-11-20_114357_2823870.5338081956444646.png)

* NewGELU 表达如下图所示，它是一个新的激活函数，在Transformer 的feed forward模块中使用。feed forward其实就是一个mlp结构，包含两个线性层一个非线性的激活函数和一个dropout模块。
https://arxiv.org/pdf/1606.08415v5
![](/media/202411/2024-11-20_114300_8949450.659041947493064.png)

transformer原论文中是使用的ReLu。

![](/media/202411/2024-11-20_141008_9061320.5343080918275297.png)

* Block 就是整个transformer的 encoder结构结构 包含一个注意力模块和一个feedforwad模块。

* CausalSelfAttention 包含多头注意力和自注意力

* GPT就是多个transformer模块的叠加，里面给了一些不同版本gpt模块的配置参数，包含多少个trasformer结构，多头的数量，以及position embedding的数量。以及一些dropout的参数

```
C.embd_pdrop = 0.1
C.resid_pdrop = 0.1
C.attn_pdrop = 0.1
```

```
config.merge_from_dict({
                # names follow the huggingface naming conventions
                # GPT-1
                'openai-gpt':   dict(n_layer=12, n_head=12, n_embd=768),  # 117M params
                # GPT-2 configs
                'gpt2':         dict(n_layer=12, n_head=12, n_embd=768),  # 124M params
                'gpt2-medium':  dict(n_layer=24, n_head=16, n_embd=1024), # 350M params
                'gpt2-large':   dict(n_layer=36, n_head=20, n_embd=1280), # 774M params
                'gpt2-xl':      dict(n_layer=48, n_head=25, n_embd=1600), # 1558M params
                # Gophers
                'gopher-44m':   dict(n_layer=8, n_head=16, n_embd=512),
                # (there are a number more...)
                # I made these tiny models up
                'gpt-mini':     dict(n_layer=6, n_head=6, n_embd=192),
                'gpt-micro':    dict(n_layer=4, n_head=4, n_embd=128),
                'gpt-nano':     dict(n_layer=3, n_head=3, n_embd=48),
            }[config.model_type])
```