GPT 系列模型技术演化之路

Yanjun — Fri, 01 Mar 2024 03:19:46 +0000

GPT 系列模型对应的论文及 Tech Report，参考如下表所示： GPT 模型 Paper/Tech Report GPT-1 Improving Language Understanding by Generative Pre-Training GPT-2 Language Models are Unsupervised Multitask Learners GPT-3 Language Models are Few-Shot Learners GPT-3.5 Training language models to follow instructions with human feedback GPT-4 GPT-4 Technical Report GPT-4V The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) 下面，对 GPT 系列每一个模型的网络架构和相关优化技术要点进行详细说明。 GPT-1 模型 GPT-1 模型的基本架构，以及基于预训练模型进行微调应用于下游 NLP 任务的流程，如下图所示： GPT-1 模型的训练过程，可以分为两个阶段：无监督预训练（Unsupervised Pre-training） GPT-1 模型采用了基于自注意力（Self-Attention）机制的 Transformer 模型，模型架构只包括解码器（Encoder）部分。在预训练过程中，使用了掩码自注意力（Masked Self-Attention）机制实现自注意力计算，在计算自注

简单之美 » Tag » InstructGPT

GPT 系列模型技术演化之路