GPT 系列模型技术演化之路

GPT 系列模型对应的论文及 Tech Report,参考如下表所示: GPT 模型 Paper/Tech Report GPT-1 Improving Language Understanding by Generative Pre-Training GPT-2 Language Models are Unsupervised Multitask Learners GPT-3 Language Models are Few-Shot Learners GPT-3.5 Training language models to follow instructions with human feedback GPT-4 GPT-4 Technical Report GPT-4V The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) 下面,对 GPT 系列每一个模型的网络架构和相关优化技术要点进行详细说明。 GPT-1 模型 GPT-1 模型的基本架构,以及基于预训练模型进行微调应用于下游 NLP 任务的流程,如下图所示: GPT-1 模型的训练过程,可以分为两个阶段: 无监督预训练(Unsupervised Pre-training) GPT-1 模型采用了基于自注意力(Self-Attention)机制的 Transformer 模型,模型架构只包括解码器(Encoder)部分。 在预训练过程中,使用了掩码自注意力(Masked Self-Attention)机制实现自注意力计算,在计算自注

多模态 AI Agent 系统设计和潜在应用场景

目前,已经有研究提出了多模态 Agent AI(Multimodal Agent AI,MAA)的概念,类似这样的一个 MAA 系统,能够基于对多模态感知输入的理解,在一个给定的环境中生成有效的行为。例如,下面是一个交互增强的 Agent 系统,如图所示: 上面这个多模态的 Agent AI 系统展示了基于 2D/3D 在跨现实(ross-reality)中实现生成,和进行编辑交互。我们对图中上面的会议室场景,说明如下: 首先,在物理世界交互中,通过人类输入的指令,使用 DALLE-2 模型,通过文生图得到一个会议室场景图片。 然后,通过 Knowledge Agent 问答系统,得到一个与会议相关的各种元素,如投影仪、桌子、椅子、白板等等。 接着,通过虚拟现实(Virtual Reality) Agent 能够看到一个虚拟的会议室场景。 最后,通过模拟器或一些 AR/MR 设备实现从物理世界与虚拟世界的交互,可以操作 AR/MR 设备完成特定任务,如远程会议的“现场”开会任务。 另外两个例子(2D 到 3D 的交互;物理世界公交车场景到游戏场景的生成与交互)也是一样的,都实现了从物理世界到虚拟世界的映射与交互。 新的 Agent 范式

LangChain 框架介绍及入门指南

LangChain 是一个用来开发大型语言模型(LLM)应用的框架,为了简化构建基于 LLM 的应用,它能够为开发 LLM 应用带来如下能力: 根据给定的 Prompt 方便构建上下文,并连接到 LLM, 得到更加符合查询的回答结果 在构建整个基于 LLM 的应用提供各种工具,如各种模块(Modules)、LCEL、LangGraph 等 提供工具支持,使用户自己的 LLM 应用从原型版本到上线到生产环境过程中,一站式的调试、测试、评估等迭代功能 当前,已经发布了最新的 v0.10.0 稳定版本,可以参考这里 LangChain v0.1.0。本文我们通过介绍 LangChain 框架的方方面面(算是对官方文档的一个入门的内容浓缩)使我们对它有一个更全面的认识,以帮助我们使用 LangChain 构建基于 LLM 的应用,具体包括如下几个方面的内容: LangChain 是什么 LangChain Modules 概览 LangChain 模块:Model I/O LangChain 模块:Retrieval LangChain 模块:Agents LangChain 模块:Chains LangChain 模块:Memory LangChain 模块:Callbacks LCEL(LangChain Expression Language) LangServe 介绍 LangSmith 介绍 La

基于 LLM 的应用架构 RAG

RAG(Retrieval Augmented Generation),是指“检索增强生成”,它主要通过检索已有文档(如,企业内部,或者某一领域,或者某个垂直行业等等的内容)的方式,进而将得到的结果作为输入 LLM 的 Prompt 更相关的上下文 Context 来给出更好的回答。 我们都知道,对于一些通用的 LLM,它们所能回答的内容是基于训练该 LLM 时使用的数据集,而且由于模型超大所以使用的训练数据的时效性也是会差一些。而对于某个特定的领域内的内容, LLM 它可能没有或者“知道”得不够精细,甚至对一些最新变化的内容它也不一定包含,所以,需要通过一些方法将 LLM 所不包含的内容“增强”进去,这样就有了类似 RAG 之类的方法,能够解决我们所面临的一些问题。 具体来说,使用 RAG 能够获得的好处,可以概括成如下 4 点(来自 databricks,详见文末参考链接): Providing up-to-date and accurate responses Reducing inaccurate responses, or hallucinations Providing domain-specific, relevant responses Being efficient and cost-effective 使用 RAG 构建基于 LLM 的应用,

大模型(LLMs)盘点跟踪

发布时间 LLM 模型参数量 组织名称 论文/模型特点 2024-05 Chameleon Meta [论文]混合模态基座模型,只支持图像文本,不支持语音。 2024-05 GPT-4o OpenAI [介绍]OpenAI 的首个整合文本、视觉和音频多模态输入与输出的模型。 2024-04 Arctic 4800亿 Snowflake [介绍]迄今为止最大 MOE 模型,以 128 位专家和 4800亿参数开源,击败 Llama 3、Mixtral。 2024-04 Command R+ 1040亿 Cohere [介绍]首个击败 GPT-4 的开源 LLM。 2024-04 LIama 3 4000亿 Meta [介绍]开源了 3B 和 70B 两款,400B 将会是首个开源的 GPT-4 级别 LLM。 2024-04 GPT-4 Turbo OpenAI [论文]超越 Claude 3 Opus,比 GPT-4 系列性能有所提升。 2024-03 DBRX 1320亿 Databricks [论文]开源,采用细粒度 MOE 架构,推理速度比 LLaMA 2-70B 快两倍,整体性能超越 GPT-3.5。 2024-03 Grok-1 3140亿 xAI [介绍]目前参数量最大的开源模型,基于 MOE 架构。 2024-03 Inflection-2.5 Inflection AI [介绍]性能媲美 GPT-4,仅用四成训练计算量。最大亮点:结合了高 IQ 和高 EQ。

BERT 模型架构

BERT 是 Bidirectional Encoder Representations from Transformers 的缩写,是由 Google 发布的先进的嵌入模型,BERT 是自然语言处理领域的一个重大突破,它在许多自然语言处理任务中取得了突出的成果,比如问答任务、文本生成、句子分类等。BERT 之所以能够成功,主要是因为它是基于上下文的嵌入模型,不同于像 word2vec 等其他一些流行的嵌入模型。 从 BERT 的含义来看,它使用多个 Transformer 表示,而且是基于双向 Encoder 的,我们要知道 BERT 的架构是只包含 Encoder 的 Transformer 模型架构。 BERT 模型配置 BERT 在发布模型的时候,给出了多种不同的配置,其中两种标准的配置为 BERT-base 和 BERT-large,另外还有一些小型的配置,如下表所示: BERT 模型配置 Encoder 层数(L) 注意力头个数(A) FFN 层隐藏神经元个数(H) BERT-base 12 12 768 BERT-large 24 16 1024 BERT-tiny 2 – 128 BERT-mini 4 – 256 BERT-small 4 – 512 BERT-medium 8 – 512 BERT-base 模型的网络参数总数可达 1.1 亿个,而

开源对话模型 ChatGLM2-6B 安装部署与微调实践

ChatGLM2-6B 是清华大学KEG和数据挖掘小组(THUDM)开源中英双语对话模型,这个模型能够实现低门槛部署,对话流畅,并且非常方便研究和探索下游应用场景。具体介绍,我们引用官网的详细介绍,如下所示: 更强大的性能:基于 ChatGLM 初代模型的开发经验,我们全面升级了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练,评测结果显示,相比于初代模型,ChatGLM2-6B 在 MMLU(+23%)、CEval(+33%)、GSM8K(+571%) 、BBH(+60%)等数据集上的性能取得了大幅度的提升,在同尺寸开源模型中具有较强的竞争力。 更长的上下文:基于 FlashAttention 技术,我们将基座模型的上下文长度(Context Length)由 ChatGLM-6B 的 2K 扩展到了 32K,并在对话阶段使用 8K 的上下文长度训练,允许更多轮次的对话。但当前版本的 ChatGLM2-6B 对单轮超长文档的理解能力有限,我们会在后续迭代升级中着重进行优化。 更高效的推理:基于 Multi-Query Attention 技术,ChatGLM2-6B 有更高效的推理速度和更低的显存占