大模型（LLMs）盘点跟踪

2024-02-13 00:26:32 Yanjun

发布时间 LLM 模型参数量组织名称论文/模型特点 2025-02 Grok-3 xAI [介绍]具有更高的推理、计算和适应能力，使用约 20 万个 GPU 训练。 2025-01 DeepSeek-R1 DeepSeek [论文]无需大量 SFT 就能实现与 OpenAI o1 相当的推理能力。 2025-01 Kimi K1.5 Kimi Team [论文]多模态思考模型，性能比肩 OpenAI o1。 2024-12 DeepSeek-V3 DeepSeek [论文]V3 表现接近 GPT-4o 和 Claude-3.5-Sonnet，更注重综合场景适用性。 2024-12 o3 OpenAI [介绍]o3 在编程和数学能力方面达到 AGI 门槛。 2024-12 Gemini 2.0 Pro/Flash/Flash-Lite Google DeepMind [介绍]Gemini 2.0 全家桶，推理能和多模态功能增强。 2024-12 Phi-4 14B MicroSoft [介绍]phi-4 是微软小模型 phi 系列最后一个模型，增强了复杂推理能力。 2024-09 o1 OpenAI [介绍]首个具有“推理”能力的模型。 2024-08 Grok-2 xAI [介绍]Grok-2 系列模型具有聊天、编码和推理等功能，包括 Grok-2 和 Grok-2 mini 两个版本。 2024-05 Chameleon Meta [论文]混合模态基座模型，只支持图

LLM, 人工智能 LLM, LMM 评论(0) 阅读(2,050)

基于 CrewAI 构建应用的决策要点分析

2025-03-15 14:30:06 Yanjun

在使用 CrewAI 框架来实现我们需求之前，需要很好地评估 CrewAI 框架提供的各种能力，并选择一些与我们的需求相匹配的能力子集合来构建 AI Agent 应用，否则在实现的过程中，可能会遇到各种无法达到预期的困难。我们首先要明确的是，为了更好地满足实际应用场景的需要，只有选择最合适的技术组件和方法，在应用场景下需求不断细化明确的过程中，向着更合适的方向进行架构迭代优化，这个过程中甚至可能需要微调或替换各种技术组件（框架的某些特性/能力支持）。本文大部分内容，是基于 CrewAI 官网文档 “Evaluating Use Cases for CrewAI” 一节的内容，经过重新组织而完成的。 1. CrewAI 决策框架在使用 CrewAI 框架实现我们的应用之前，CrewAI 给出了一个 “Complexity vs. Precision” 矩阵，它基于复杂性与精确性两个维度，划分了 4 个象限，并针对不同象限对复杂性、精确性的要求，提供了使用 CrewAI 的特性的指导和建议。4 个象限划分，如下图所示：通过这个矩阵可以很好地评估，我们应该如何选择 CrewAI 具备的能力，从而更好地满足应用需求。下面先给

CrewAI, 人工智能 CrewAI 评论(0) 阅读(849)

探索 CrewAI Knowledge 实现 RAG 应用

2025-03-12 13:31:05 Yanjun

CrewAI 的 Knowledge 特性能够使我们非常方便地访问外部信息源，这些信息源可以是特定领域的数据，也可以是 Agent 为完成某个 Task 而需要指定会话上下文数据。可见，通过 Knowledge 特性我们可以实现基于 RAG 架构的 AI Agent 应用。 CrewAI 支持的 Knowledge Source 主要包括两大类：一类是 Text Source，其中有 Raw String、Text File、PDF Document；一类是 Structured Data，其中有 CVS File、Excel SpreadSheet、JSON Document。当然，为了实现 AI Agent 应用的 Task 在执行过程中能够访问外部信息源，CrewAI 框架还支持其他各种的信息源，在 CrewAI 官网文档中可以在 “Tools” 一节中看到这些内置实现好的 Tool，能够非常方便地开箱即用，实现类似 RAG 的功能。下面列出一些可能会比较常用的 Tool 集合： CSV RAG Search Directory RAG Search DOCX RAG Search JSON RAG Search MDX RAG Search MySQL RAG Search PDF RAG Search PG RAG Search Qdrant Vector Search Tool TXT RAG Search XML RAG Search Website RAG Search YouTube Channel RAG Searc

Agent, CrewAI, 人工智能 CrewAI 评论(0) 阅读(988)

使用 CrewAI 开发 AI Agent 应用

2025-02-19 15:54:22 Yanjun

CrewAI 是一个构建 AI Agent 应用的框架，可以非常方便地开发 AI Agent 应用，支持多个 Agent 之间协作以实现特定的任务。有关 CrewAI 中关于 Crew、Agent、Task 等概念，可以参考官网文档了解，下面是官网给出的一个 CrewAI 框架的设计概览，如下图所示：在使用 CrewAI 开发 AI Agent 应用时，为了方便快速测试流程，可以采用直观的编码方式来体验或验证基本流程，也可以采用工程的方式构建更加复杂的 AI Agent 应用。下面，我们基于 CrewAI 分别通过这两种方式实现一个简单的 AI Agent 应用。直接编码开发构建下面，我们通过一个简单的例子，通过直观编码的来实现基本的 AI Agent，通过一个 Agent 和一个 Task 完成报表的查询和可视化输出。为了方便，可以使用 JupyterLab 开发和调试程序。 1.准备工作在本地使用 Ollama 来运行大模型，从 Ollama 官网下载并安装 Ollama，为方便调试先安装 DeepSeek R1 7B 的模型，大约 5G 大小： ollama run deepseek-r1:7b 在命令行中可以输入自然语言进行推理，说明安装成功。然后，在本地安装 CrewAI 的工具包（这里

CrewAI, 人工智能 CrewAI 评论(0) 阅读(1,017)

GPT 系列模型技术演化之路

2024-03-01 11:19:46 Yanjun

GPT 系列模型对应的论文及 Tech Report，参考如下表所示： GPT 模型 Paper/Tech Report GPT-1 Improving Language Understanding by Generative Pre-Training GPT-2 Language Models are Unsupervised Multitask Learners GPT-3 Language Models are Few-Shot Learners GPT-3.5 Training language models to follow instructions with human feedback GPT-4 GPT-4 Technical Report GPT-4V The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) 下面，对 GPT 系列每一个模型的网络架构和相关优化技术要点进行详细说明。 GPT-1 模型 GPT-1 模型的基本架构，以及基于预训练模型进行微调应用于下游 NLP 任务的流程，如下图所示： GPT-1 模型的训练过程，可以分为两个阶段：无监督预训练（Unsupervised Pre-training） GPT-1 模型采用了基于自注意力（Self-Attention）机制的 Transformer 模型，模型架构只包括解码器（Encoder）部分。在预训练过程中，使用了掩码自注意力（Masked Self-Attention）机制实现自注意力计算，在计算自注

LLM, 人工智能 GPT, GPT-1, GPT-2, GPT-3, GPT-3.5, GPT-4, GPT-4V, InstructGPT 评论(2) 阅读(6,654)

多模态 AI Agent 系统设计和潜在应用场景

2024-02-28 21:16:15 Yanjun

目前，已经有研究提出了多模态 Agent AI（Multimodal Agent AI，MAA）的概念，类似这样的一个 MAA 系统，能够基于对多模态感知输入的理解，在一个给定的环境中生成有效的行为。例如，下面是一个交互增强的 Agent 系统，如图所示：上面这个多模态的 Agent AI 系统展示了基于 2D/3D 在跨现实（ross-reality）中实现生成，和进行编辑交互。我们对图中上面的会议室场景，说明如下：首先，在物理世界交互中，通过人类输入的指令，使用 DALLE-2 模型，通过文生图得到一个会议室场景图片。然后，通过 Knowledge Agent 问答系统，得到一个与会议相关的各种元素，如投影仪、桌子、椅子、白板等等。接着，通过虚拟现实（Virtual Reality） Agent 能够看到一个虚拟的会议室场景。最后，通过模拟器或一些 AR/MR 设备实现从物理世界与虚拟世界的交互，可以操作 AR/MR 设备完成特定任务，如远程会议的“现场”开会任务。另外两个例子（2D 到 3D 的交互；物理世界公交车场景到游戏场景的生成与交互）也是一样的，都实现了从物理世界到虚拟世界的映射与交互。新的 Agent 范式

Agent, LLM, 人工智能 Agent, LLM, VLM 评论(0) 阅读(3,159)

开源 AI Agent：HuggingGPT 基本原理浅析

2024-02-27 20:35:13 Yanjun

HuggingGPT 是浙江大学、微软亚洲研究院合作开发的开源项目，以 ChatGPT 和 Hugging Face 为基础构建的一个 AI Agent 框架，融合了 LLM 和 AI 领域模型的能力，用来解决不同领域和不同模态的 AI 任务。 HuggingGPT 是一个以 LLM（比如 ChatGPT）为控制器，以专家模型（HuggingFace）为执行任务的 AI Agent 系统，主要通过连接到各个领域内的专家模型以尝试自动地解决各种复杂的 AI 任务。HuggingGPT 以自然语言为接口，通过 ChatGPT 进行任务规划、模型选择，并通过使用专家模型处理对应领域的问题，生成最终结果，从而能够很好地解决 AI 任务。 HuggingGPT 对应的相关代码和工具，都托管在 Github 上，对应的项目名是 JARVIS：https://github.com/microsoft/JARVIS。 HuggingGPT 设计概览 HuggingGPT 的总体处理流程，如下图所示：通过上图可以看到，HuggingGPT 的处理过程可以分为如下 4 个阶段：任务规划（Task Planning）使用一个 LLM（ChatGPT）分析用户的请求，了解用户的意图。通过用户输入到 LLM（ChatGPT）的 Prompt，根据对话结果将用户任务分解为可

Agent, 人工智能 HuggingGPT, LLM 评论(0) 阅读(3,685)

自注意力（Self-Attention）的计算过程

2024-02-26 16:45:02 Yanjun

在深度学习中，很多 LLM 的训练都使用 Transformer 架构，而在 Transformer 架构中计算的过程涉及到的最关键的就是注意力，它是整个过程中重要的基础。注意力抽象出了 3 个重要的概念，在计算过程中对应着 3 个矩阵，如下所示： Query：在自主提示下，自主提示的内容，对应着矩阵 Q Keys：在非自主提示下，进入视觉系统的线索，对应着矩阵 K Values：使用 Query 从 Keys 中匹配得到的线索，基于这些线索得到的进入视觉系统中焦点内容，对应着矩阵 V 我们要训练的模型，输入的句子有 n 个 token，而通过选择并使用某个 Embedding 模型获取到每个 token 的 Word Embedding，每个 Word Embedding 是一个 d 维向量。本文我们详细说明自注意力（Self-Attention）的计算过程，在进行解释说明之前，先定义一些标识符号以方便后面阐述使用： X：输入训练数据的 Embedding 是一个 n x d 矩阵 Q：查询矩阵，矩阵形状 n x dq K：键矩阵，矩阵形状 n x dk，其中 dk=dq V：值矩阵，矩阵形状 n x dv 计算自注意力（Self-Attention）的基本流程，如下图所示：计算过程及其示例

人工智能评论(1) 阅读(10,209)

理解注意力机制

2024-02-23 21:15:47 Yanjun

在深度学习中，Transformer 架构被广泛使用，而它所基于的注意力机制是最核心的部分，这里通过参考网上各种介绍注意力机制的资料，经过简化并重新组织内容，来说明注意力机制到底是一种什么样的机制。注意力（Attention）框架 19 世纪 90 年代，美国心理学家威廉·詹姆斯（William James）提出了视觉注意力的工作原理类似于聚光灯，他认为：我们在日常中会聚焦一些事物，在这个焦点上可以清楚地看到一些物体；而在这个焦点周围的区域（称为边缘）仍然可见其他一些物体但不是很清楚。基于这个注意力的原理，后来提出了双组件（two‐component）的框架，其中两个非常重要的概念就是：非自主性提示和自主性提示，通过这两种方式都能够引导我们注意力关注焦点的改变。非自主性提示我们在所处环境中，时刻都能不由自主地目及一些事物，还有另外一些事物，这时进入视觉系统的物体如果有特别突出的特征，我们就会将注意力的焦点放在其上面，如下图所示：上面指定了 5 个物品：一份报纸、一篇论文、一杯咖啡、一个笔记本、一本书，其中装有红色咖啡的杯子的特征最突出

人工智能评论(0) 阅读(3,561)

什么是 AI 智能体（AI Agent）

2024-02-18 20:43:25 Yanjun

目前 LLM 技术发展非常迅速，虽然 LLM 看似已经具备了丰富的知识与足够的智慧，但是在一些场景下我们可能需要更加精确的答案，而不是得到一些幻觉类答案，或者答案不够实时，或者人类诉求太过复杂以至于 LLM 无法理解，等等，这些问题也是目前阻止很多 AI 应用落地的主要原因。基于 AI Agent（AI 智能体）自身所具备的能力，同时借助于 LLM 所释放的潜力，或许在不久的将来能够不断优化改进，达到满足人类更方便、更智能地使用 AI 完成各种任务的需求，实现普惠 AI 的目标。下面，首先了解一下 LLM 和 AI Agent 有什么不同：人类与 LLM 之间的交互，是基于给定的 Prompt 提示词来实现的，而对于 Prompt 的设计不同 LLM 给出的对话回答质量也是不同的，所以需要人类通过一些特定的方法或经过多次尝试，才有可能逐步提高对话的精确度和满意度。可见，目前基于 LLM 的应用作为工具，能够在一定程度上提高人类日常生活、工作等的效率，同时反过来也对人类使用 LLM 提出了一定的要求，而且这一部分工作更多的是需要人类主动请求，而 LLM 被动执行动作来完成一次一次地

Agent, 人工智能 Agent, LLM 评论(0) 阅读(3,244)

LangChain 框架介绍及入门指南

2024-02-17 19:45:13 Yanjun

LangChain 是一个用来开发大型语言模型（LLM）应用的框架，为了简化构建基于 LLM 的应用，它能够为开发 LLM 应用带来如下能力：根据给定的 Prompt 方便构建上下文，并连接到 LLM，得到更加符合查询的回答结果在构建整个基于 LLM 的应用提供各种工具，如各种模块（Modules）、LCEL、LangGraph 等提供工具支持，使用户自己的 LLM 应用从原型版本到上线到生产环境过程中，一站式的调试、测试、评估等迭代功能当前，已经发布了最新的 v0.10.0 稳定版本，可以参考这里 LangChain v0.1.0。本文我们通过介绍 LangChain 框架的方方面面（算是对官方文档的一个入门的内容浓缩）使我们对它有一个更全面的认识，以帮助我们使用 LangChain 构建基于 LLM 的应用，具体包括如下几个方面的内容： LangChain 是什么 LangChain Modules 概览 LangChain 模块：Model I/O LangChain 模块：Retrieval LangChain 模块：Agents LangChain 模块：Chains LangChain 模块：Memory LangChain 模块：Callbacks LCEL（LangChain Expression Language） LangServe 介绍 LangSmith 介绍 La

LLM, 人工智能 LangChain, LLM 评论(0) 阅读(14,453)

基于 LLM 的应用架构 RAG

2024-02-15 16:55:27 Yanjun

RAG（Retrieval Augmented Generation），是指“检索增强生成”，它主要通过检索已有文档（如，企业内部，或者某一领域，或者某个垂直行业等等的内容）的方式，进而将得到的结果作为输入 LLM 的 Prompt 更相关的上下文 Context 来给出更好的回答。我们都知道，对于一些通用的 LLM，它们所能回答的内容是基于训练该 LLM 时使用的数据集，而且由于模型超大所以使用的训练数据的时效性也是会差一些。而对于某个特定的领域内的内容， LLM 它可能没有或者“知道”得不够精细，甚至对一些最新变化的内容它也不一定包含，所以，需要通过一些方法将 LLM 所不包含的内容“增强”进去，这样就有了类似 RAG 之类的方法，能够解决我们所面临的一些问题。具体来说，使用 RAG 能够获得的好处，可以概括成如下 4 点（来自 databricks，详见文末参考链接）： Providing up-to-date and accurate responses Reducing inaccurate responses, or hallucinations Providing domain-specific, relevant responses Being efficient and cost-effective 使用 RAG 构建基于 LLM 的应用，

LLM, 人工智能 LLM, RAG 评论(0) 阅读(2,666)

第 1 页, 共 15 页12 3 4 5 下页 ›末页 »

简单之美

简单之美，难得简单，享受简单的唯美。