GPT 系列模型对应的论文及 Tech Report,参考如下表所示: GPT 模型 Paper/Tech Report GPT-1 Improving Language Understanding by Generative Pre-Training GPT-2 Language Models are Unsupervised Multitask Learners GPT-3 Language Models are Few-Shot Learners GPT-3.5 Training language models to follow instructions with human feedback GPT-4 GPT-4 Technical Report GPT-4V The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) 下面,对 GPT 系列每一个模型的网络架构和相关优化技术要点进行详细说明。 GPT-1 模型 GPT-1 模型的基本架构,以及基于预训练模型进行微调应用于下游 NLP 任务的流程,如下图所示: GPT-1 模型的训练过程,可以分为两个阶段: 无监督预训练(Unsupervised Pre-training) GPT-1 模型采用了基于自注意力(Self-Attention)机制的 Transformer 模型,模型架构只包括解码器(Encoder)部分。 在预训练过程中,使用了掩码自注意力(Masked Self-Attention)机制实现自注意力计算,在计算自注