<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>简单之美 &#187; Tag &#187; InstructGPT</title>
	<atom:link href="http://shiyanjun.cn/archives/tag/instructgpt/feed" rel="self" type="application/rss+xml" />
	<link>http://shiyanjun.cn</link>
	<description>简单之美，难得简单，享受简单的唯美。</description>
	<lastBuildDate>Wed, 04 Mar 2026 07:04:53 +0000</lastBuildDate>
	<language>zh-CN</language>
		<sy:updatePeriod>hourly</sy:updatePeriod>
		<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.9.2</generator>
	<item>
		<title>GPT 系列模型技术演化之路</title>
		<link>http://shiyanjun.cn/archives/2749.html</link>
		<comments>http://shiyanjun.cn/archives/2749.html#comments</comments>
		<pubDate>Fri, 01 Mar 2024 03:19:46 +0000</pubDate>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
				<category><![CDATA[LLM]]></category>
		<category><![CDATA[人工智能]]></category>
		<category><![CDATA[GPT]]></category>
		<category><![CDATA[GPT-1]]></category>
		<category><![CDATA[GPT-2]]></category>
		<category><![CDATA[GPT-3]]></category>
		<category><![CDATA[GPT-3.5]]></category>
		<category><![CDATA[GPT-4]]></category>
		<category><![CDATA[GPT-4V]]></category>
		<category><![CDATA[InstructGPT]]></category>

		<guid isPermaLink="false">http://shiyanjun.cn/?p=2749</guid>
		<description><![CDATA[<p>GPT 系列模型对应的论文及 Tech Report，参考如下表所示：



GPT 模型
Paper/Tech Report


GPT-1
Improving Language Understanding by Generative Pre-Training


GPT-2
Language Models are Unsupervised Multitask Learners


GPT-3
Language Models are Few-Shot Learners


GPT-3.5
Training language models to follow instructions with human feedback


GPT-4
GPT-4 Technical Report


GPT-4V
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)



下面，对 GPT 系列每一个模型的网络架构和相关优化技术要点进行详细说明。
GPT-1 模型
GPT-1 模型的基本架构，以及基于预训练模型进行微调应用于下游 NLP 任务的流程，如下图所示：

GPT-1 模型的训练过程，可以分为两个阶段：

无监督预训练（Unsupervised Pre-training）

GPT-1 模型采用了基于自注意力（Self-Attention）机制的 Transformer 模型，模型架构只包括解码器（Encoder）部分。
在预训练过程中，使用了掩码自注意力（Masked Self-Attention）机制实现自注意力计算，在计算自注</p>]]></description>
	<p>GPT 系列模型对应的论文及 Tech Report，参考如下表所示：



GPT 模型
Paper/Tech Report


GPT-1
Improving Language Understanding by Generative Pre-Training


GPT-2
Language Models are Unsupervised Multitask Learners


GPT-3
Language Models are Few-Shot Learners


GPT-3.5
Training language models to follow instructions with human feedback


GPT-4
GPT-4 Technical Report


GPT-4V
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)



下面，对 GPT 系列每一个模型的网络架构和相关优化技术要点进行详细说明。
GPT-1 模型
GPT-1 模型的基本架构，以及基于预训练模型进行微调应用于下游 NLP 任务的流程，如下图所示：

GPT-1 模型的训练过程，可以分为两个阶段：

无监督预训练（Unsupervised Pre-training）

GPT-1 模型采用了基于自注意力（Self-Attention）机制的 Transformer 模型，模型架构只包括解码器（Encoder）部分。
在预训练过程中，使用了掩码自注意力（Masked Self-Attention）机制实现自注意力计算，在计算自注</p>			<content:encoded><![CDATA[<p>GPT 系列模型对应的论文及 Tech Report，参考如下表所示：



GPT 模型
Paper/Tech Report


GPT-1
Improving Language Understanding by Generative Pre-Training


GPT-2
Language Models are Unsupervised Multitask Learners


GPT-3
Language Models are Few-Shot Learners


GPT-3.5
Training language models to follow instructions with human feedback


GPT-4
GPT-4 Technical Report


GPT-4V
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)



下面，对 GPT 系列每一个模型的网络架构和相关优化技术要点进行详细说明。
GPT-1 模型
GPT-1 模型的基本架构，以及基于预训练模型进行微调应用于下游 NLP 任务的流程，如下图所示：

GPT-1 模型的训练过程，可以分为两个阶段：

无监督预训练（Unsupervised Pre-training）

GPT-1 模型采用了基于自注意力（Self-Attention）机制的 Transformer 模型，模型架构只包括解码器（Encoder）部分。
在预训练过程中，使用了掩码自注意力（Masked Self-Attention）机制实现自注意力计算，在计算自注</p>]]></content:encoded>
			<wfw:commentRss>http://shiyanjun.cn/archives/2749.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>
