BERT 模型架构

Yanjun — Tue, 25 Jul 2023 03:12:48 +0000

BERT 是 Bidirectional Encoder Representations from Transformers 的缩写，是由 Google 发布的先进的嵌入模型，BERT 是自然语言处理领域的一个重大突破，它在许多自然语言处理任务中取得了突出的成果，比如问答任务、文本生成、句子分类等。BERT 之所以能够成功，主要是因为它是基于上下文的嵌入模型，不同于像 word2vec 等其他一些流行的嵌入模型。从 BERT 的含义来看，它使用多个 Transformer 表示，而且是基于双向 Encoder 的，我们要知道 BERT 的架构是只包含 Encoder 的 Transformer 模型架构。 BERT 模型配置 BERT 在发布模型的时候，给出了多种不同的配置，其中两种标准的配置为 BERT-base 和 BERT-large，另外还有一些小型的配置，如下表所示： BERT 模型配置 Encoder 层数（L）注意力头个数（A） FFN 层隐藏神经元个数（H） BERT-base 12 12 768 BERT-large 24 16 1024 BERT-tiny 2 – 128 BERT-mini 4 – 256 BERT-small 4 – 512 BERT-medium 8 – 512 BERT-base 模型的网络参数总数可达 1.1 亿个，而

简单之美 » Tag » BERT

BERT 模型架构