<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>简单之美 &#187; Tag &#187; BERT</title>
	<atom:link href="http://shiyanjun.cn/archives/tag/bert/feed" rel="self" type="application/rss+xml" />
	<link>http://shiyanjun.cn</link>
	<description>简单之美，难得简单，享受简单的唯美。</description>
	<lastBuildDate>Wed, 04 Mar 2026 07:04:53 +0000</lastBuildDate>
	<language>zh-CN</language>
		<sy:updatePeriod>hourly</sy:updatePeriod>
		<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.9.2</generator>
	<item>
		<title>BERT 模型架构</title>
		<link>http://shiyanjun.cn/archives/2149.html</link>
		<comments>http://shiyanjun.cn/archives/2149.html#comments</comments>
		<pubDate>Tue, 25 Jul 2023 03:12:48 +0000</pubDate>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
				<category><![CDATA[LLM]]></category>
		<category><![CDATA[人工智能]]></category>
		<category><![CDATA[架构]]></category>
		<category><![CDATA[BERT]]></category>

		<guid isPermaLink="false">http://shiyanjun.cn/?p=2149</guid>
		<description><![CDATA[<p>BERT 是 Bidirectional Encoder Representations from Transformers 的缩写，是由 Google 发布的先进的嵌入模型，BERT 是自然语言处理领域的一个重大突破，它在许多自然语言处理任务中取得了突出的成果，比如问答任务、文本生成、句子分类等。BERT 之所以能够成功，主要是因为它是基于上下文的嵌入模型，不同于像 word2vec 等其他一些流行的嵌入模型。
从 BERT 的含义来看，它使用多个 Transformer 表示，而且是基于双向 Encoder 的，我们要知道 BERT 的架构是只包含 Encoder 的 Transformer 模型架构。
BERT 模型配置
BERT 在发布模型的时候，给出了多种不同的配置，其中两种标准的配置为 BERT-base 和 BERT-large，另外还有一些小型的配置，如下表所示：



BERT 模型配置
Encoder 层数（L）
注意力头个数（A）
FFN 层隐藏神经元个数（H）


BERT-base
12
12
768


BERT-large
24
16
1024


BERT-tiny
2
 &#8211; 
128


BERT-mini
4
 &#8211; 
256


BERT-small
4
 &#8211; 
512


BERT-medium
8
 &#8211; 
512



BERT-base 模型的网络参数总数可达 1.1 亿个，而</p>]]></description>
	<p>BERT 是 Bidirectional Encoder Representations from Transformers 的缩写，是由 Google 发布的先进的嵌入模型，BERT 是自然语言处理领域的一个重大突破，它在许多自然语言处理任务中取得了突出的成果，比如问答任务、文本生成、句子分类等。BERT 之所以能够成功，主要是因为它是基于上下文的嵌入模型，不同于像 word2vec 等其他一些流行的嵌入模型。
从 BERT 的含义来看，它使用多个 Transformer 表示，而且是基于双向 Encoder 的，我们要知道 BERT 的架构是只包含 Encoder 的 Transformer 模型架构。
BERT 模型配置
BERT 在发布模型的时候，给出了多种不同的配置，其中两种标准的配置为 BERT-base 和 BERT-large，另外还有一些小型的配置，如下表所示：



BERT 模型配置
Encoder 层数（L）
注意力头个数（A）
FFN 层隐藏神经元个数（H）


BERT-base
12
12
768


BERT-large
24
16
1024


BERT-tiny
2
 &#8211; 
128


BERT-mini
4
 &#8211; 
256


BERT-small
4
 &#8211; 
512


BERT-medium
8
 &#8211; 
512



BERT-base 模型的网络参数总数可达 1.1 亿个，而</p>			<content:encoded><![CDATA[<p>BERT 是 Bidirectional Encoder Representations from Transformers 的缩写，是由 Google 发布的先进的嵌入模型，BERT 是自然语言处理领域的一个重大突破，它在许多自然语言处理任务中取得了突出的成果，比如问答任务、文本生成、句子分类等。BERT 之所以能够成功，主要是因为它是基于上下文的嵌入模型，不同于像 word2vec 等其他一些流行的嵌入模型。
从 BERT 的含义来看，它使用多个 Transformer 表示，而且是基于双向 Encoder 的，我们要知道 BERT 的架构是只包含 Encoder 的 Transformer 模型架构。
BERT 模型配置
BERT 在发布模型的时候，给出了多种不同的配置，其中两种标准的配置为 BERT-base 和 BERT-large，另外还有一些小型的配置，如下表所示：



BERT 模型配置
Encoder 层数（L）
注意力头个数（A）
FFN 层隐藏神经元个数（H）


BERT-base
12
12
768


BERT-large
24
16
1024


BERT-tiny
2
 &#8211; 
128


BERT-mini
4
 &#8211; 
256


BERT-small
4
 &#8211; 
512


BERT-medium
8
 &#8211; 
512



BERT-base 模型的网络参数总数可达 1.1 亿个，而</p>]]></content:encoded>
			<wfw:commentRss>http://shiyanjun.cn/archives/2149.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
