Transformer 模型架构详解

Yanjun — Mon, 24 Jul 2023 08:05:11 +0000

2017 年 Google 在论文《Attention Is All You Need》中提出 Transformer 模型架构，该架构是基于 Encoder-Decoder （编码器-解码器）的架构。作为当下最先进的深度学习架构之一，Transformer 被广泛应用于自然语言处理领域，它不仅替代了以前流行的循环神经网络（RNN）和长短期记忆网络（LSTM），而且后来的 BERT、GPT-3 等网络架构也是基于 Transformer 架构演化而来。 RNN 和 LSTM 已经在时序任务方面有了广泛的的应用，例如像文本预测、机器翻译、文章生成等等，但是这些应用都面临着如何记录长期依赖的问题，而使用 Transformer 架构就能解决这类问题。自注意力（Self-Attention） Transformer 架构的核心主要是基于自注意力机制（Self-Attention），在详解 Transformer 架构之前，我们有必要理解一下自注意力这个概念，我们以《BERT 基础教程：Transformer 大模型实战》这本书的讲解来概述，这本书中的讲解非常浅显易懂。给定一个英文句子： A dog ate the food because it was hungry. 句子中的代词 it 可能代表句子里的名词 food 或者 dog，虽然我们人类非

简单之美 » Tag » Transformer

Transformer 模型架构详解