简单之美 » Category » LLM

大模型（LLMs）盘点跟踪

Yanjun — Wed, 04 Mar 2026 06:53:32 +0000

发布时间 LLM 模型参数量组织名称论文/模型特点 2026-03 GPT-5.3 Instant OpenAI [介绍]优化升级了ChatGPT“即时响应”模型，提升有用程度与准确率。 2026-02 GLM-5 智谱AI [介绍]定位为最新一代旗舰级对话、编程与智能体模型，主攻复杂系统工程与长程Agent任务。 2026-02 Qwen3.5-Plus 3970亿 Alibaba [介绍]性能碾压GPT-5.2和Gemini 3 Pro，全球最强开源大模型。 2026-02 GPT-5.2-Codex OpenAI [介绍]目前最先进的编程智能体，在长周期任务处理、大规模代码重构等实现显著提升。 2026-02 Claude Sonnet 4.6 Anthropic [介绍]在编程、操作电脑、长文本推理、智能体规划、知识工作和设计等方面实现全面升级。 2026-02 CClaude Opus 4.6 Anthropic [介绍]Claude Opus 4.5的深度进化版，首次实现百万 token 级别上下文支持。 2026-02 Gemini 3.5 Pro DeepMind [介绍]基于稀疏MoE架构，超万亿参数，支持多模态处理，100万Token上下文，强大逻辑扐能力。 2025-12 GLM-4.7 智谱AI [介绍]编程性能超越GPT-5.2，在数学推理和智能体任务上全面

GPT 系列模型技术演化之路

Yanjun — Fri, 01 Mar 2024 03:19:46 +0000

GPT 系列模型对应的论文及 Tech Report，参考如下表所示： GPT 模型 Paper/Tech Report GPT-1 Improving Language Understanding by Generative Pre-Training GPT-2 Language Models are Unsupervised Multitask Learners GPT-3 Language Models are Few-Shot Learners GPT-3.5 Training language models to follow instructions with human feedback GPT-4 GPT-4 Technical Report GPT-4V The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) 下面，对 GPT 系列每一个模型的网络架构和相关优化技术要点进行详细说明。 GPT-1 模型 GPT-1 模型的基本架构，以及基于预训练模型进行微调应用于下游 NLP 任务的流程，如下图所示： GPT-1 模型的训练过程，可以分为两个阶段：无监督预训练（Unsupervised Pre-training） GPT-1 模型采用了基于自注意力（Self-Attention）机制的 Transformer 模型，模型架构只包括解码器（Encoder）部分。在预训练过程中，使用了掩码自注意力（Masked Self-Attention）机制实现自注意力计算，在计算自注

多模态 AI Agent 系统设计和潜在应用场景

Yanjun — Wed, 28 Feb 2024 13:16:15 +0000

目前，已经有研究提出了多模态 Agent AI（Multimodal Agent AI，MAA）的概念，类似这样的一个 MAA 系统，能够基于对多模态感知输入的理解，在一个给定的环境中生成有效的行为。例如，下面是一个交互增强的 Agent 系统，如图所示：上面这个多模态的 Agent AI 系统展示了基于 2D/3D 在跨现实（ross-reality）中实现生成，和进行编辑交互。我们对图中上面的会议室场景，说明如下：首先，在物理世界交互中，通过人类输入的指令，使用 DALLE-2 模型，通过文生图得到一个会议室场景图片。然后，通过 Knowledge Agent 问答系统，得到一个与会议相关的各种元素，如投影仪、桌子、椅子、白板等等。接着，通过虚拟现实（Virtual Reality） Agent 能够看到一个虚拟的会议室场景。最后，通过模拟器或一些 AR/MR 设备实现从物理世界与虚拟世界的交互，可以操作 AR/MR 设备完成特定任务，如远程会议的“现场”开会任务。另外两个例子（2D 到 3D 的交互；物理世界公交车场景到游戏场景的生成与交互）也是一样的，都实现了从物理世界到虚拟世界的映射与交互。新的 Agent 范式

LangChain 框架介绍及入门指南

Yanjun — Sat, 17 Feb 2024 11:45:13 +0000

LangChain 是一个用来开发大型语言模型（LLM）应用的框架，为了简化构建基于 LLM 的应用，它能够为开发 LLM 应用带来如下能力：根据给定的 Prompt 方便构建上下文，并连接到 LLM，得到更加符合查询的回答结果在构建整个基于 LLM 的应用提供各种工具，如各种模块（Modules）、LCEL、LangGraph 等提供工具支持，使用户自己的 LLM 应用从原型版本到上线到生产环境过程中，一站式的调试、测试、评估等迭代功能当前，已经发布了最新的 v0.10.0 稳定版本，可以参考这里 LangChain v0.1.0。本文我们通过介绍 LangChain 框架的方方面面（算是对官方文档的一个入门的内容浓缩）使我们对它有一个更全面的认识，以帮助我们使用 LangChain 构建基于 LLM 的应用，具体包括如下几个方面的内容： LangChain 是什么 LangChain Modules 概览 LangChain 模块：Model I/O LangChain 模块：Retrieval LangChain 模块：Agents LangChain 模块：Chains LangChain 模块：Memory LangChain 模块：Callbacks LCEL（LangChain Expression Language） LangServe 介绍 LangSmith 介绍 La

基于 LLM 的应用架构 RAG

Yanjun — Thu, 15 Feb 2024 08:55:27 +0000

RAG（Retrieval Augmented Generation），是指“检索增强生成”，它主要通过检索已有文档（如，企业内部，或者某一领域，或者某个垂直行业等等的内容）的方式，进而将得到的结果作为输入 LLM 的 Prompt 更相关的上下文 Context 来给出更好的回答。我们都知道，对于一些通用的 LLM，它们所能回答的内容是基于训练该 LLM 时使用的数据集，而且由于模型超大所以使用的训练数据的时效性也是会差一些。而对于某个特定的领域内的内容， LLM 它可能没有或者“知道”得不够精细，甚至对一些最新变化的内容它也不一定包含，所以，需要通过一些方法将 LLM 所不包含的内容“增强”进去，这样就有了类似 RAG 之类的方法，能够解决我们所面临的一些问题。具体来说，使用 RAG 能够获得的好处，可以概括成如下 4 点（来自 databricks，详见文末参考链接）： Providing up-to-date and accurate responses Reducing inaccurate responses, or hallucinations Providing domain-specific, relevant responses Being efficient and cost-effective 使用 RAG 构建基于 LLM 的应用，

BERT 模型架构

Yanjun — Tue, 25 Jul 2023 03:12:48 +0000

BERT 是 Bidirectional Encoder Representations from Transformers 的缩写，是由 Google 发布的先进的嵌入模型，BERT 是自然语言处理领域的一个重大突破，它在许多自然语言处理任务中取得了突出的成果，比如问答任务、文本生成、句子分类等。BERT 之所以能够成功，主要是因为它是基于上下文的嵌入模型，不同于像 word2vec 等其他一些流行的嵌入模型。从 BERT 的含义来看，它使用多个 Transformer 表示，而且是基于双向 Encoder 的，我们要知道 BERT 的架构是只包含 Encoder 的 Transformer 模型架构。 BERT 模型配置 BERT 在发布模型的时候，给出了多种不同的配置，其中两种标准的配置为 BERT-base 和 BERT-large，另外还有一些小型的配置，如下表所示： BERT 模型配置 Encoder 层数（L）注意力头个数（A） FFN 层隐藏神经元个数（H） BERT-base 12 12 768 BERT-large 24 16 1024 BERT-tiny 2 – 128 BERT-mini 4 – 256 BERT-small 4 – 512 BERT-medium 8 – 512 BERT-base 模型的网络参数总数可达 1.1 亿个，而

开源对话模型 ChatGLM2-6B 安装部署与微调实践

Yanjun — Thu, 20 Jul 2023 15:01:51 +0000

ChatGLM2-6B 是清华大学KEG和数据挖掘小组(THUDM)开源中英双语对话模型，这个模型能够实现低门槛部署，对话流畅，并且非常方便研究和探索下游应用场景。具体介绍，我们引用官网的详细介绍，如下所示：更强大的性能：基于 ChatGLM 初代模型的开发经验，我们全面升级了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数，经过了 1.4T 中英标识符的预训练与人类偏好对齐训练，评测结果显示，相比于初代模型，ChatGLM2-6B 在 MMLU（+23%）、CEval（+33%）、GSM8K（+571%）、BBH（+60%）等数据集上的性能取得了大幅度的提升，在同尺寸开源模型中具有较强的竞争力。更长的上下文：基于 FlashAttention 技术，我们将基座模型的上下文长度（Context Length）由 ChatGLM-6B 的 2K 扩展到了 32K，并在对话阶段使用 8K 的上下文长度训练，允许更多轮次的对话。但当前版本的 ChatGLM2-6B 对单轮超长文档的理解能力有限，我们会在后续迭代升级中着重进行优化。更高效的推理：基于 Multi-Query Attention 技术，ChatGLM2-6B 有更高效的推理速度和更低的显存占