<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>简单之美 &#187; Tag &#187; Transformer</title>
	<atom:link href="http://shiyanjun.cn/archives/tag/transformer/feed" rel="self" type="application/rss+xml" />
	<link>http://shiyanjun.cn</link>
	<description>简单之美，难得简单，享受简单的唯美。</description>
	<lastBuildDate>Wed, 04 Mar 2026 07:04:53 +0000</lastBuildDate>
	<language>zh-CN</language>
		<sy:updatePeriod>hourly</sy:updatePeriod>
		<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.9.2</generator>
	<item>
		<title>Transformer 模型架构详解</title>
		<link>http://shiyanjun.cn/archives/2125.html</link>
		<comments>http://shiyanjun.cn/archives/2125.html#comments</comments>
		<pubDate>Mon, 24 Jul 2023 08:05:11 +0000</pubDate>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
				<category><![CDATA[人工智能]]></category>
		<category><![CDATA[架构]]></category>
		<category><![CDATA[Transformer]]></category>

		<guid isPermaLink="false">http://shiyanjun.cn/?p=2125</guid>
		<description><![CDATA[<p>2017 年 Google 在论文《Attention Is All You Need》中提出 Transformer 模型架构，该架构是基于 Encoder-Decoder （编码器-解码器）的架构。作为当下最先进的深度学习架构之一，Transformer 被广泛应用于自然语言处理领域，它不仅替代了以前流行的循环神经网络（RNN）和长短期记忆网络（LSTM），而且后来的 BERT、GPT-3 等网络架构也是基于 Transformer 架构演化而来。
RNN 和 LSTM 已经在时序任务方面有了广泛的的应用，例如像文本预测、机器翻译、文章生成等等，但是这些应用都面临着如何记录长期依赖的问题，而使用 Transformer 架构就能解决这类问题。
自注意力（Self-Attention）
Transformer 架构的核心主要是基于自注意力机制（Self-Attention），在详解 Transformer 架构之前，我们有必要理解一下自注意力这个概念，我们以《BERT 基础教程：Transformer 大模型实战》这本书的讲解来概述，这本书中的讲解非常浅显易懂。
给定一个英文句子：
A dog ate the food because it was hungry.
句子中的代词 it 可能代表句子里的名词 food 或者 dog，虽然我们人类非</p>]]></description>
	<p>2017 年 Google 在论文《Attention Is All You Need》中提出 Transformer 模型架构，该架构是基于 Encoder-Decoder （编码器-解码器）的架构。作为当下最先进的深度学习架构之一，Transformer 被广泛应用于自然语言处理领域，它不仅替代了以前流行的循环神经网络（RNN）和长短期记忆网络（LSTM），而且后来的 BERT、GPT-3 等网络架构也是基于 Transformer 架构演化而来。
RNN 和 LSTM 已经在时序任务方面有了广泛的的应用，例如像文本预测、机器翻译、文章生成等等，但是这些应用都面临着如何记录长期依赖的问题，而使用 Transformer 架构就能解决这类问题。
自注意力（Self-Attention）
Transformer 架构的核心主要是基于自注意力机制（Self-Attention），在详解 Transformer 架构之前，我们有必要理解一下自注意力这个概念，我们以《BERT 基础教程：Transformer 大模型实战》这本书的讲解来概述，这本书中的讲解非常浅显易懂。
给定一个英文句子：
A dog ate the food because it was hungry.
句子中的代词 it 可能代表句子里的名词 food 或者 dog，虽然我们人类非</p>			<content:encoded><![CDATA[<p>2017 年 Google 在论文《Attention Is All You Need》中提出 Transformer 模型架构，该架构是基于 Encoder-Decoder （编码器-解码器）的架构。作为当下最先进的深度学习架构之一，Transformer 被广泛应用于自然语言处理领域，它不仅替代了以前流行的循环神经网络（RNN）和长短期记忆网络（LSTM），而且后来的 BERT、GPT-3 等网络架构也是基于 Transformer 架构演化而来。
RNN 和 LSTM 已经在时序任务方面有了广泛的的应用，例如像文本预测、机器翻译、文章生成等等，但是这些应用都面临着如何记录长期依赖的问题，而使用 Transformer 架构就能解决这类问题。
自注意力（Self-Attention）
Transformer 架构的核心主要是基于自注意力机制（Self-Attention），在详解 Transformer 架构之前，我们有必要理解一下自注意力这个概念，我们以《BERT 基础教程：Transformer 大模型实战》这本书的讲解来概述，这本书中的讲解非常浅显易懂。
给定一个英文句子：
A dog ate the food because it was hungry.
句子中的代词 it 可能代表句子里的名词 food 或者 dog，虽然我们人类非</p>]]></content:encoded>
			<wfw:commentRss>http://shiyanjun.cn/archives/2125.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
