<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>简单之美 &#187; Category &#187; LLM</title>
	<atom:link href="http://shiyanjun.cn/archives/category/ai/large-language-model/feed" rel="self" type="application/rss+xml" />
	<link>http://shiyanjun.cn</link>
	<description>简单之美，难得简单，享受简单的唯美。</description>
	<lastBuildDate>Wed, 04 Mar 2026 07:04:53 +0000</lastBuildDate>
	<language>zh-CN</language>
		<sy:updatePeriod>hourly</sy:updatePeriod>
		<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.9.2</generator>
	<item>
		<title>大模型（LLMs）盘点跟踪</title>
		<link>http://shiyanjun.cn/archives/2559.html</link>
		<comments>http://shiyanjun.cn/archives/2559.html#comments</comments>
		<pubDate>Wed, 04 Mar 2026 06:53:32 +0000</pubDate>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
				<category><![CDATA[LLM]]></category>
		<category><![CDATA[人工智能]]></category>
		<category><![CDATA[LMM]]></category>

		<guid isPermaLink="false">http://shiyanjun.cn/?p=2559</guid>
		<description><![CDATA[<p>


发布时间
LLM
模型参数量
组织名称
论文/模型特点


2026-03
GPT-5.3 Instant

OpenAI
[介绍]优化升级了ChatGPT“即时响应”模型，提升有用程度与准确率。


2026-02
GLM-5

智谱AI
[介绍]定位为最新一代旗舰级对话、编程与智能体模型，主攻复杂系统工程与长程Agent任务。


2026-02
Qwen3.5-Plus
3970亿
Alibaba
[介绍]性能碾压GPT-5.2和Gemini 3 Pro，全球最强开源大模型。


2026-02
GPT-5.2-Codex

OpenAI
[介绍]目前最先进的编程智能体，在长周期任务处理、大规模代码重构等实现显著提升。


2026-02
Claude Sonnet 4.6

 Anthropic
[介绍]在编程、操作电脑、长文本推理、智能体规划、知识工作和设计等方面实现全面升级。


2026-02
CClaude Opus 4.6

 Anthropic
[介绍]Claude Opus 4.5的深度进化版，首次实现百万 token 级别上下文支持。


2026-02
Gemini 3.5 Pro

DeepMind
[介绍]基于稀疏MoE架构，超万亿参数，支持多模态处理，100万Token上下文，强大逻辑扐能力。


2025-12
GLM-4.7

智谱AI
[介绍]编程性能超越GPT-5.2，在数学推理和智能体任务上全面</p>]]></description>
	<p>


发布时间
LLM
模型参数量
组织名称
论文/模型特点


2026-03
GPT-5.3 Instant

OpenAI
[介绍]优化升级了ChatGPT“即时响应”模型，提升有用程度与准确率。


2026-02
GLM-5

智谱AI
[介绍]定位为最新一代旗舰级对话、编程与智能体模型，主攻复杂系统工程与长程Agent任务。


2026-02
Qwen3.5-Plus
3970亿
Alibaba
[介绍]性能碾压GPT-5.2和Gemini 3 Pro，全球最强开源大模型。


2026-02
GPT-5.2-Codex

OpenAI
[介绍]目前最先进的编程智能体，在长周期任务处理、大规模代码重构等实现显著提升。


2026-02
Claude Sonnet 4.6

 Anthropic
[介绍]在编程、操作电脑、长文本推理、智能体规划、知识工作和设计等方面实现全面升级。


2026-02
CClaude Opus 4.6

 Anthropic
[介绍]Claude Opus 4.5的深度进化版，首次实现百万 token 级别上下文支持。


2026-02
Gemini 3.5 Pro

DeepMind
[介绍]基于稀疏MoE架构，超万亿参数，支持多模态处理，100万Token上下文，强大逻辑扐能力。


2025-12
GLM-4.7

智谱AI
[介绍]编程性能超越GPT-5.2，在数学推理和智能体任务上全面</p>			<content:encoded><![CDATA[<p>


发布时间
LLM
模型参数量
组织名称
论文/模型特点


2026-03
GPT-5.3 Instant

OpenAI
[介绍]优化升级了ChatGPT“即时响应”模型，提升有用程度与准确率。


2026-02
GLM-5

智谱AI
[介绍]定位为最新一代旗舰级对话、编程与智能体模型，主攻复杂系统工程与长程Agent任务。


2026-02
Qwen3.5-Plus
3970亿
Alibaba
[介绍]性能碾压GPT-5.2和Gemini 3 Pro，全球最强开源大模型。


2026-02
GPT-5.2-Codex

OpenAI
[介绍]目前最先进的编程智能体，在长周期任务处理、大规模代码重构等实现显著提升。


2026-02
Claude Sonnet 4.6

 Anthropic
[介绍]在编程、操作电脑、长文本推理、智能体规划、知识工作和设计等方面实现全面升级。


2026-02
CClaude Opus 4.6

 Anthropic
[介绍]Claude Opus 4.5的深度进化版，首次实现百万 token 级别上下文支持。


2026-02
Gemini 3.5 Pro

DeepMind
[介绍]基于稀疏MoE架构，超万亿参数，支持多模态处理，100万Token上下文，强大逻辑扐能力。


2025-12
GLM-4.7

智谱AI
[介绍]编程性能超越GPT-5.2，在数学推理和智能体任务上全面</p>]]></content:encoded>
			<wfw:commentRss>http://shiyanjun.cn/archives/2559.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>GPT 系列模型技术演化之路</title>
		<link>http://shiyanjun.cn/archives/2749.html</link>
		<comments>http://shiyanjun.cn/archives/2749.html#comments</comments>
		<pubDate>Fri, 01 Mar 2024 03:19:46 +0000</pubDate>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
				<category><![CDATA[LLM]]></category>
		<category><![CDATA[人工智能]]></category>
		<category><![CDATA[GPT]]></category>
		<category><![CDATA[GPT-1]]></category>
		<category><![CDATA[GPT-2]]></category>
		<category><![CDATA[GPT-3]]></category>
		<category><![CDATA[GPT-3.5]]></category>
		<category><![CDATA[GPT-4]]></category>
		<category><![CDATA[GPT-4V]]></category>
		<category><![CDATA[InstructGPT]]></category>

		<guid isPermaLink="false">http://shiyanjun.cn/?p=2749</guid>
		<description><![CDATA[<p>GPT 系列模型对应的论文及 Tech Report，参考如下表所示：



GPT 模型
Paper/Tech Report


GPT-1
Improving Language Understanding by Generative Pre-Training


GPT-2
Language Models are Unsupervised Multitask Learners


GPT-3
Language Models are Few-Shot Learners


GPT-3.5
Training language models to follow instructions with human feedback


GPT-4
GPT-4 Technical Report


GPT-4V
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)



下面，对 GPT 系列每一个模型的网络架构和相关优化技术要点进行详细说明。
GPT-1 模型
GPT-1 模型的基本架构，以及基于预训练模型进行微调应用于下游 NLP 任务的流程，如下图所示：

GPT-1 模型的训练过程，可以分为两个阶段：

无监督预训练（Unsupervised Pre-training）

GPT-1 模型采用了基于自注意力（Self-Attention）机制的 Transformer 模型，模型架构只包括解码器（Encoder）部分。
在预训练过程中，使用了掩码自注意力（Masked Self-Attention）机制实现自注意力计算，在计算自注</p>]]></description>
	<p>GPT 系列模型对应的论文及 Tech Report，参考如下表所示：



GPT 模型
Paper/Tech Report


GPT-1
Improving Language Understanding by Generative Pre-Training


GPT-2
Language Models are Unsupervised Multitask Learners


GPT-3
Language Models are Few-Shot Learners


GPT-3.5
Training language models to follow instructions with human feedback


GPT-4
GPT-4 Technical Report


GPT-4V
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)



下面，对 GPT 系列每一个模型的网络架构和相关优化技术要点进行详细说明。
GPT-1 模型
GPT-1 模型的基本架构，以及基于预训练模型进行微调应用于下游 NLP 任务的流程，如下图所示：

GPT-1 模型的训练过程，可以分为两个阶段：

无监督预训练（Unsupervised Pre-training）

GPT-1 模型采用了基于自注意力（Self-Attention）机制的 Transformer 模型，模型架构只包括解码器（Encoder）部分。
在预训练过程中，使用了掩码自注意力（Masked Self-Attention）机制实现自注意力计算，在计算自注</p>			<content:encoded><![CDATA[<p>GPT 系列模型对应的论文及 Tech Report，参考如下表所示：



GPT 模型
Paper/Tech Report


GPT-1
Improving Language Understanding by Generative Pre-Training


GPT-2
Language Models are Unsupervised Multitask Learners


GPT-3
Language Models are Few-Shot Learners


GPT-3.5
Training language models to follow instructions with human feedback


GPT-4
GPT-4 Technical Report


GPT-4V
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)



下面，对 GPT 系列每一个模型的网络架构和相关优化技术要点进行详细说明。
GPT-1 模型
GPT-1 模型的基本架构，以及基于预训练模型进行微调应用于下游 NLP 任务的流程，如下图所示：

GPT-1 模型的训练过程，可以分为两个阶段：

无监督预训练（Unsupervised Pre-training）

GPT-1 模型采用了基于自注意力（Self-Attention）机制的 Transformer 模型，模型架构只包括解码器（Encoder）部分。
在预训练过程中，使用了掩码自注意力（Masked Self-Attention）机制实现自注意力计算，在计算自注</p>]]></content:encoded>
			<wfw:commentRss>http://shiyanjun.cn/archives/2749.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>多模态 AI Agent 系统设计和潜在应用场景</title>
		<link>http://shiyanjun.cn/archives/2724.html</link>
		<comments>http://shiyanjun.cn/archives/2724.html#comments</comments>
		<pubDate>Wed, 28 Feb 2024 13:16:15 +0000</pubDate>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
				<category><![CDATA[Agent]]></category>
		<category><![CDATA[LLM]]></category>
		<category><![CDATA[人工智能]]></category>
		<category><![CDATA[VLM]]></category>

		<guid isPermaLink="false">http://shiyanjun.cn/?p=2724</guid>
		<description><![CDATA[<p>目前，已经有研究提出了多模态 Agent AI（Multimodal Agent AI，MAA）的概念，类似这样的一个 MAA 系统，能够基于对多模态感知输入的理解，在一个给定的环境中生成有效的行为。例如，下面是一个交互增强的 Agent 系统，如图所示：

上面这个多模态的 Agent AI 系统展示了基于 2D/3D 在跨现实（ross-reality）中实现生成，和进行编辑交互。我们对图中上面的会议室场景，说明如下：
首先，在物理世界交互中，通过人类输入的指令，使用 DALLE-2 模型，通过文生图得到一个会议室场景图片。
然后，通过 Knowledge Agent 问答系统，得到一个与会议相关的各种元素，如投影仪、桌子、椅子、白板等等。
接着，通过虚拟现实（Virtual Reality） Agent 能够看到一个虚拟的会议室场景。
最后，通过模拟器或一些 AR/MR 设备实现从物理世界与虚拟世界的交互，可以操作 AR/MR 设备完成特定任务，如远程会议的“现场”开会任务。
另外两个例子（2D 到 3D 的交互；物理世界公交车场景到游戏场景的生成与交互）也是一样的，都实现了从物理世界到虚拟世界的映射与交互。
新的 Agent 范式</p>]]></description>
	<p>目前，已经有研究提出了多模态 Agent AI（Multimodal Agent AI，MAA）的概念，类似这样的一个 MAA 系统，能够基于对多模态感知输入的理解，在一个给定的环境中生成有效的行为。例如，下面是一个交互增强的 Agent 系统，如图所示：

上面这个多模态的 Agent AI 系统展示了基于 2D/3D 在跨现实（ross-reality）中实现生成，和进行编辑交互。我们对图中上面的会议室场景，说明如下：
首先，在物理世界交互中，通过人类输入的指令，使用 DALLE-2 模型，通过文生图得到一个会议室场景图片。
然后，通过 Knowledge Agent 问答系统，得到一个与会议相关的各种元素，如投影仪、桌子、椅子、白板等等。
接着，通过虚拟现实（Virtual Reality） Agent 能够看到一个虚拟的会议室场景。
最后，通过模拟器或一些 AR/MR 设备实现从物理世界与虚拟世界的交互，可以操作 AR/MR 设备完成特定任务，如远程会议的“现场”开会任务。
另外两个例子（2D 到 3D 的交互；物理世界公交车场景到游戏场景的生成与交互）也是一样的，都实现了从物理世界到虚拟世界的映射与交互。
新的 Agent 范式</p>			<content:encoded><![CDATA[<p>目前，已经有研究提出了多模态 Agent AI（Multimodal Agent AI，MAA）的概念，类似这样的一个 MAA 系统，能够基于对多模态感知输入的理解，在一个给定的环境中生成有效的行为。例如，下面是一个交互增强的 Agent 系统，如图所示：

上面这个多模态的 Agent AI 系统展示了基于 2D/3D 在跨现实（ross-reality）中实现生成，和进行编辑交互。我们对图中上面的会议室场景，说明如下：
首先，在物理世界交互中，通过人类输入的指令，使用 DALLE-2 模型，通过文生图得到一个会议室场景图片。
然后，通过 Knowledge Agent 问答系统，得到一个与会议相关的各种元素，如投影仪、桌子、椅子、白板等等。
接着，通过虚拟现实（Virtual Reality） Agent 能够看到一个虚拟的会议室场景。
最后，通过模拟器或一些 AR/MR 设备实现从物理世界与虚拟世界的交互，可以操作 AR/MR 设备完成特定任务，如远程会议的“现场”开会任务。
另外两个例子（2D 到 3D 的交互；物理世界公交车场景到游戏场景的生成与交互）也是一样的，都实现了从物理世界到虚拟世界的映射与交互。
新的 Agent 范式</p>]]></content:encoded>
			<wfw:commentRss>http://shiyanjun.cn/archives/2724.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>LangChain 框架介绍及入门指南</title>
		<link>http://shiyanjun.cn/archives/2613.html</link>
		<comments>http://shiyanjun.cn/archives/2613.html#comments</comments>
		<pubDate>Sat, 17 Feb 2024 11:45:13 +0000</pubDate>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
				<category><![CDATA[LLM]]></category>
		<category><![CDATA[人工智能]]></category>
		<category><![CDATA[LangChain]]></category>

		<guid isPermaLink="false">http://shiyanjun.cn/?p=2613</guid>
		<description><![CDATA[<p>LangChain 是一个用来开发大型语言模型（LLM）应用的框架，为了简化构建基于 LLM 的应用，它能够为开发 LLM 应用带来如下能力：

根据给定的 Prompt 方便构建上下文，并连接到 LLM， 得到更加符合查询的回答结果
在构建整个基于 LLM 的应用提供各种工具，如各种模块（Modules）、LCEL、LangGraph 等
提供工具支持，使用户自己的 LLM 应用从原型版本到上线到生产环境过程中，一站式的调试、测试、评估等迭代功能

当前，已经发布了最新的 v0.10.0 稳定版本，可以参考这里 LangChain v0.1.0。本文我们通过介绍 LangChain 框架的方方面面（算是对官方文档的一个入门的内容浓缩）使我们对它有一个更全面的认识，以帮助我们使用 LangChain 构建基于 LLM 的应用，具体包括如下几个方面的内容：

LangChain 是什么
LangChain Modules 概览
LangChain 模块：Model I/O
LangChain 模块：Retrieval
LangChain 模块：Agents
LangChain 模块：Chains
LangChain 模块：Memory
LangChain 模块：Callbacks
LCEL（LangChain Expression Language）
LangServe 介绍
LangSmith 介绍
La</p>]]></description>
	<p>LangChain 是一个用来开发大型语言模型（LLM）应用的框架，为了简化构建基于 LLM 的应用，它能够为开发 LLM 应用带来如下能力：

根据给定的 Prompt 方便构建上下文，并连接到 LLM， 得到更加符合查询的回答结果
在构建整个基于 LLM 的应用提供各种工具，如各种模块（Modules）、LCEL、LangGraph 等
提供工具支持，使用户自己的 LLM 应用从原型版本到上线到生产环境过程中，一站式的调试、测试、评估等迭代功能

当前，已经发布了最新的 v0.10.0 稳定版本，可以参考这里 LangChain v0.1.0。本文我们通过介绍 LangChain 框架的方方面面（算是对官方文档的一个入门的内容浓缩）使我们对它有一个更全面的认识，以帮助我们使用 LangChain 构建基于 LLM 的应用，具体包括如下几个方面的内容：

LangChain 是什么
LangChain Modules 概览
LangChain 模块：Model I/O
LangChain 模块：Retrieval
LangChain 模块：Agents
LangChain 模块：Chains
LangChain 模块：Memory
LangChain 模块：Callbacks
LCEL（LangChain Expression Language）
LangServe 介绍
LangSmith 介绍
La</p>			<content:encoded><![CDATA[<p>LangChain 是一个用来开发大型语言模型（LLM）应用的框架，为了简化构建基于 LLM 的应用，它能够为开发 LLM 应用带来如下能力：

根据给定的 Prompt 方便构建上下文，并连接到 LLM， 得到更加符合查询的回答结果
在构建整个基于 LLM 的应用提供各种工具，如各种模块（Modules）、LCEL、LangGraph 等
提供工具支持，使用户自己的 LLM 应用从原型版本到上线到生产环境过程中，一站式的调试、测试、评估等迭代功能

当前，已经发布了最新的 v0.10.0 稳定版本，可以参考这里 LangChain v0.1.0。本文我们通过介绍 LangChain 框架的方方面面（算是对官方文档的一个入门的内容浓缩）使我们对它有一个更全面的认识，以帮助我们使用 LangChain 构建基于 LLM 的应用，具体包括如下几个方面的内容：

LangChain 是什么
LangChain Modules 概览
LangChain 模块：Model I/O
LangChain 模块：Retrieval
LangChain 模块：Agents
LangChain 模块：Chains
LangChain 模块：Memory
LangChain 模块：Callbacks
LCEL（LangChain Expression Language）
LangServe 介绍
LangSmith 介绍
La</p>]]></content:encoded>
			<wfw:commentRss>http://shiyanjun.cn/archives/2613.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>基于 LLM 的应用架构 RAG</title>
		<link>http://shiyanjun.cn/archives/2588.html</link>
		<comments>http://shiyanjun.cn/archives/2588.html#comments</comments>
		<pubDate>Thu, 15 Feb 2024 08:55:27 +0000</pubDate>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
				<category><![CDATA[LLM]]></category>
		<category><![CDATA[人工智能]]></category>
		<category><![CDATA[RAG]]></category>

		<guid isPermaLink="false">http://shiyanjun.cn/?p=2588</guid>
		<description><![CDATA[<p>RAG（Retrieval Augmented Generation），是指“检索增强生成”，它主要通过检索已有文档（如，企业内部，或者某一领域，或者某个垂直行业等等的内容）的方式，进而将得到的结果作为输入 LLM 的 Prompt 更相关的上下文 Context 来给出更好的回答。
我们都知道，对于一些通用的 LLM，它们所能回答的内容是基于训练该 LLM 时使用的数据集，而且由于模型超大所以使用的训练数据的时效性也是会差一些。而对于某个特定的领域内的内容， LLM 它可能没有或者“知道”得不够精细，甚至对一些最新变化的内容它也不一定包含，所以，需要通过一些方法将 LLM 所不包含的内容“增强”进去，这样就有了类似 RAG 之类的方法，能够解决我们所面临的一些问题。
具体来说，使用 RAG 能够获得的好处，可以概括成如下 4 点（来自 databricks，详见文末参考链接）：

Providing up-to-date and accurate responses
Reducing inaccurate responses, or hallucinations
Providing domain-specific, relevant responses
Being efficient and cost-effective

使用 RAG 构建基于 LLM 的应用，</p>]]></description>
	<p>RAG（Retrieval Augmented Generation），是指“检索增强生成”，它主要通过检索已有文档（如，企业内部，或者某一领域，或者某个垂直行业等等的内容）的方式，进而将得到的结果作为输入 LLM 的 Prompt 更相关的上下文 Context 来给出更好的回答。
我们都知道，对于一些通用的 LLM，它们所能回答的内容是基于训练该 LLM 时使用的数据集，而且由于模型超大所以使用的训练数据的时效性也是会差一些。而对于某个特定的领域内的内容， LLM 它可能没有或者“知道”得不够精细，甚至对一些最新变化的内容它也不一定包含，所以，需要通过一些方法将 LLM 所不包含的内容“增强”进去，这样就有了类似 RAG 之类的方法，能够解决我们所面临的一些问题。
具体来说，使用 RAG 能够获得的好处，可以概括成如下 4 点（来自 databricks，详见文末参考链接）：

Providing up-to-date and accurate responses
Reducing inaccurate responses, or hallucinations
Providing domain-specific, relevant responses
Being efficient and cost-effective

使用 RAG 构建基于 LLM 的应用，</p>			<content:encoded><![CDATA[<p>RAG（Retrieval Augmented Generation），是指“检索增强生成”，它主要通过检索已有文档（如，企业内部，或者某一领域，或者某个垂直行业等等的内容）的方式，进而将得到的结果作为输入 LLM 的 Prompt 更相关的上下文 Context 来给出更好的回答。
我们都知道，对于一些通用的 LLM，它们所能回答的内容是基于训练该 LLM 时使用的数据集，而且由于模型超大所以使用的训练数据的时效性也是会差一些。而对于某个特定的领域内的内容， LLM 它可能没有或者“知道”得不够精细，甚至对一些最新变化的内容它也不一定包含，所以，需要通过一些方法将 LLM 所不包含的内容“增强”进去，这样就有了类似 RAG 之类的方法，能够解决我们所面临的一些问题。
具体来说，使用 RAG 能够获得的好处，可以概括成如下 4 点（来自 databricks，详见文末参考链接）：

Providing up-to-date and accurate responses
Reducing inaccurate responses, or hallucinations
Providing domain-specific, relevant responses
Being efficient and cost-effective

使用 RAG 构建基于 LLM 的应用，</p>]]></content:encoded>
			<wfw:commentRss>http://shiyanjun.cn/archives/2588.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>BERT 模型架构</title>
		<link>http://shiyanjun.cn/archives/2149.html</link>
		<comments>http://shiyanjun.cn/archives/2149.html#comments</comments>
		<pubDate>Tue, 25 Jul 2023 03:12:48 +0000</pubDate>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
				<category><![CDATA[LLM]]></category>
		<category><![CDATA[人工智能]]></category>
		<category><![CDATA[架构]]></category>
		<category><![CDATA[BERT]]></category>

		<guid isPermaLink="false">http://shiyanjun.cn/?p=2149</guid>
		<description><![CDATA[<p>BERT 是 Bidirectional Encoder Representations from Transformers 的缩写，是由 Google 发布的先进的嵌入模型，BERT 是自然语言处理领域的一个重大突破，它在许多自然语言处理任务中取得了突出的成果，比如问答任务、文本生成、句子分类等。BERT 之所以能够成功，主要是因为它是基于上下文的嵌入模型，不同于像 word2vec 等其他一些流行的嵌入模型。
从 BERT 的含义来看，它使用多个 Transformer 表示，而且是基于双向 Encoder 的，我们要知道 BERT 的架构是只包含 Encoder 的 Transformer 模型架构。
BERT 模型配置
BERT 在发布模型的时候，给出了多种不同的配置，其中两种标准的配置为 BERT-base 和 BERT-large，另外还有一些小型的配置，如下表所示：



BERT 模型配置
Encoder 层数（L）
注意力头个数（A）
FFN 层隐藏神经元个数（H）


BERT-base
12
12
768


BERT-large
24
16
1024


BERT-tiny
2
 &#8211; 
128


BERT-mini
4
 &#8211; 
256


BERT-small
4
 &#8211; 
512


BERT-medium
8
 &#8211; 
512



BERT-base 模型的网络参数总数可达 1.1 亿个，而</p>]]></description>
	<p>BERT 是 Bidirectional Encoder Representations from Transformers 的缩写，是由 Google 发布的先进的嵌入模型，BERT 是自然语言处理领域的一个重大突破，它在许多自然语言处理任务中取得了突出的成果，比如问答任务、文本生成、句子分类等。BERT 之所以能够成功，主要是因为它是基于上下文的嵌入模型，不同于像 word2vec 等其他一些流行的嵌入模型。
从 BERT 的含义来看，它使用多个 Transformer 表示，而且是基于双向 Encoder 的，我们要知道 BERT 的架构是只包含 Encoder 的 Transformer 模型架构。
BERT 模型配置
BERT 在发布模型的时候，给出了多种不同的配置，其中两种标准的配置为 BERT-base 和 BERT-large，另外还有一些小型的配置，如下表所示：



BERT 模型配置
Encoder 层数（L）
注意力头个数（A）
FFN 层隐藏神经元个数（H）


BERT-base
12
12
768


BERT-large
24
16
1024


BERT-tiny
2
 &#8211; 
128


BERT-mini
4
 &#8211; 
256


BERT-small
4
 &#8211; 
512


BERT-medium
8
 &#8211; 
512



BERT-base 模型的网络参数总数可达 1.1 亿个，而</p>			<content:encoded><![CDATA[<p>BERT 是 Bidirectional Encoder Representations from Transformers 的缩写，是由 Google 发布的先进的嵌入模型，BERT 是自然语言处理领域的一个重大突破，它在许多自然语言处理任务中取得了突出的成果，比如问答任务、文本生成、句子分类等。BERT 之所以能够成功，主要是因为它是基于上下文的嵌入模型，不同于像 word2vec 等其他一些流行的嵌入模型。
从 BERT 的含义来看，它使用多个 Transformer 表示，而且是基于双向 Encoder 的，我们要知道 BERT 的架构是只包含 Encoder 的 Transformer 模型架构。
BERT 模型配置
BERT 在发布模型的时候，给出了多种不同的配置，其中两种标准的配置为 BERT-base 和 BERT-large，另外还有一些小型的配置，如下表所示：



BERT 模型配置
Encoder 层数（L）
注意力头个数（A）
FFN 层隐藏神经元个数（H）


BERT-base
12
12
768


BERT-large
24
16
1024


BERT-tiny
2
 &#8211; 
128


BERT-mini
4
 &#8211; 
256


BERT-small
4
 &#8211; 
512


BERT-medium
8
 &#8211; 
512



BERT-base 模型的网络参数总数可达 1.1 亿个，而</p>]]></content:encoded>
			<wfw:commentRss>http://shiyanjun.cn/archives/2149.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>开源对话模型 ChatGLM2-6B 安装部署与微调实践</title>
		<link>http://shiyanjun.cn/archives/2098.html</link>
		<comments>http://shiyanjun.cn/archives/2098.html#comments</comments>
		<pubDate>Thu, 20 Jul 2023 15:01:51 +0000</pubDate>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
				<category><![CDATA[LLM]]></category>
		<category><![CDATA[人工智能]]></category>
		<category><![CDATA[ChatGLM]]></category>
		<category><![CDATA[ChatGLM2-6B]]></category>

		<guid isPermaLink="false">http://shiyanjun.cn/?p=2098</guid>
		<description><![CDATA[<p>ChatGLM2-6B 是清华大学KEG和数据挖掘小组(THUDM)开源中英双语对话模型，这个模型能够实现低门槛部署，对话流畅，并且非常方便研究和探索下游应用场景。具体介绍，我们引用官网的详细介绍，如下所示：

更强大的性能：基于 ChatGLM 初代模型的开发经验，我们全面升级了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数，经过了 1.4T 中英标识符的预训练与人类偏好对齐训练，评测结果显示，相比于初代模型，ChatGLM2-6B 在 MMLU（+23%）、CEval（+33%）、GSM8K（+571%） 、BBH（+60%）等数据集上的性能取得了大幅度的提升，在同尺寸开源模型中具有较强的竞争力。
更长的上下文：基于 FlashAttention 技术，我们将基座模型的上下文长度（Context Length）由 ChatGLM-6B 的 2K 扩展到了 32K，并在对话阶段使用 8K 的上下文长度训练，允许更多轮次的对话。但当前版本的 ChatGLM2-6B 对单轮超长文档的理解能力有限，我们会在后续迭代升级中着重进行优化。
更高效的推理：基于 Multi-Query Attention 技术，ChatGLM2-6B 有更高效的推理速度和更低的显存占</p>]]></description>
	<p>ChatGLM2-6B 是清华大学KEG和数据挖掘小组(THUDM)开源中英双语对话模型，这个模型能够实现低门槛部署，对话流畅，并且非常方便研究和探索下游应用场景。具体介绍，我们引用官网的详细介绍，如下所示：

更强大的性能：基于 ChatGLM 初代模型的开发经验，我们全面升级了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数，经过了 1.4T 中英标识符的预训练与人类偏好对齐训练，评测结果显示，相比于初代模型，ChatGLM2-6B 在 MMLU（+23%）、CEval（+33%）、GSM8K（+571%） 、BBH（+60%）等数据集上的性能取得了大幅度的提升，在同尺寸开源模型中具有较强的竞争力。
更长的上下文：基于 FlashAttention 技术，我们将基座模型的上下文长度（Context Length）由 ChatGLM-6B 的 2K 扩展到了 32K，并在对话阶段使用 8K 的上下文长度训练，允许更多轮次的对话。但当前版本的 ChatGLM2-6B 对单轮超长文档的理解能力有限，我们会在后续迭代升级中着重进行优化。
更高效的推理：基于 Multi-Query Attention 技术，ChatGLM2-6B 有更高效的推理速度和更低的显存占</p>			<content:encoded><![CDATA[<p>ChatGLM2-6B 是清华大学KEG和数据挖掘小组(THUDM)开源中英双语对话模型，这个模型能够实现低门槛部署，对话流畅，并且非常方便研究和探索下游应用场景。具体介绍，我们引用官网的详细介绍，如下所示：

更强大的性能：基于 ChatGLM 初代模型的开发经验，我们全面升级了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数，经过了 1.4T 中英标识符的预训练与人类偏好对齐训练，评测结果显示，相比于初代模型，ChatGLM2-6B 在 MMLU（+23%）、CEval（+33%）、GSM8K（+571%） 、BBH（+60%）等数据集上的性能取得了大幅度的提升，在同尺寸开源模型中具有较强的竞争力。
更长的上下文：基于 FlashAttention 技术，我们将基座模型的上下文长度（Context Length）由 ChatGLM-6B 的 2K 扩展到了 32K，并在对话阶段使用 8K 的上下文长度训练，允许更多轮次的对话。但当前版本的 ChatGLM2-6B 对单轮超长文档的理解能力有限，我们会在后续迭代升级中着重进行优化。
更高效的推理：基于 Multi-Query Attention 技术，ChatGLM2-6B 有更高效的推理速度和更低的显存占</p>]]></content:encoded>
			<wfw:commentRss>http://shiyanjun.cn/archives/2098.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
