多模态 AI Agent 系统设计和潜在应用场景

目前,已经有研究提出了多模态 Agent AI(Multimodal Agent AI,MAA)的概念,类似这样的一个 MAA 系统,能够基于对多模态感知输入的理解,在一个给定的环境中生成有效的行为。例如,下面是一个交互增强的 Agent 系统,如图所示: 上面这个多模态的 Agent AI 系统展示了基于 2D/3D 在跨现实(ross-reality)中实现生成,和进行编辑交互。我们对图中上面的会议室场景,说明如下: 首先,在物理世界交互中,通过人类输入的指令,使用 DALLE-2 模型,通过文生图得到一个会议室场景图片。 然后,通过 Knowledge Agent 问答系统,得到一个与会议相关的各种元素,如投影仪、桌子、椅子、白板等等。 接着,通过虚拟现实(Virtual Reality) Agent 能够看到一个虚拟的会议室场景。 最后,通过模拟器或一些 AR/MR 设备实现从物理世界与虚拟世界的交互,可以操作 AR/MR 设备完成特定任务,如远程会议的“现场”开会任务。 另外两个例子(2D 到 3D 的交互;物理世界公交车场景到游戏场景的生成与交互)也是一样的,都实现了从物理世界到虚拟世界的映射与交互。 新的 Agent 范式

开源 AI Agent:HuggingGPT 基本原理浅析

HuggingGPT 是浙江大学、微软亚洲研究院合作开发的开源项目,以 ChatGPT 和 Hugging Face 为基础构建的一个 AI Agent 框架,融合了 LLM 和 AI 领域模型的能力,用来解决不同领域和不同模态的 AI 任务。 HuggingGPT 是一个以 LLM(比如 ChatGPT)为控制器,以专家模型(HuggingFace)为执行任务的 AI Agent 系统,主要通过连接到各个领域内的专家模型以尝试自动地解决各种复杂的 AI 任务。HuggingGPT 以自然语言为接口,通过 ChatGPT 进行任务规划、模型选择,并通过使用专家模型处理对应领域的问题,生成最终结果,从而能够很好地解决 AI 任务。 HuggingGPT 对应的相关代码和工具,都托管在 Github 上,对应的项目名是 JARVIS:https://github.com/microsoft/JARVIS。 HuggingGPT 设计概览 HuggingGPT 的总体处理流程,如下图所示: 通过上图可以看到,HuggingGPT 的处理过程可以分为如下 4 个阶段: 任务规划(Task Planning) 使用一个 LLM(ChatGPT)分析用户的请求,了解用户的意图。通过用户输入到 LLM(ChatGPT)的 Prompt,根据对话结果将用户任务分解为可

什么是 AI 智能体(AI Agent)

目前 LLM 技术发展非常迅速,虽然 LLM 看似已经具备了丰富的知识与足够的智慧,但是在一些场景下我们可能需要更加精确的答案,而不是得到一些幻觉类答案,或者答案不够实时,或者人类诉求太过复杂以至于 LLM 无法理解,等等,这些问题也是目前阻止很多 AI 应用落地的主要原因。 基于 AI Agent(AI 智能体)自身所具备的能力,同时借助于 LLM 所释放的潜力,或许在不久的将来能够不断优化改进,达到满足人类更方便、更智能地使用 AI 完成各种任务的需求,实现普惠 AI 的目标。 下面,首先了解一下 LLM 和 AI Agent 有什么不同: 人类与 LLM 之间的交互,是基于给定的 Prompt 提示词来实现的,而对于 Prompt 的设计不同 LLM 给出的对话回答质量也是不同的,所以需要人类通过一些特定的方法或经过多次尝试,才有可能逐步提高对话的精确度和满意度。可见,目前基于 LLM 的应用作为工具,能够在一定程度上提高人类日常生活、工作等的效率,同时反过来也对人类使用 LLM 提出了一定的要求,而且这一部分工作更多的是需要人类主动请求,而 LLM 被动执行动作来完成一次一次地

LangChain 框架介绍及入门指南

LangChain 是一个用来开发大型语言模型(LLM)应用的框架,为了简化构建基于 LLM 的应用,它能够为开发 LLM 应用带来如下能力: 根据给定的 Prompt 方便构建上下文,并连接到 LLM, 得到更加符合查询的回答结果 在构建整个基于 LLM 的应用提供各种工具,如各种模块(Modules)、LCEL、LangGraph 等 提供工具支持,使用户自己的 LLM 应用从原型版本到上线到生产环境过程中,一站式的调试、测试、评估等迭代功能 当前,已经发布了最新的 v0.10.0 稳定版本,可以参考这里 LangChain v0.1.0。本文我们通过介绍 LangChain 框架的方方面面(算是对官方文档的一个入门的内容浓缩)使我们对它有一个更全面的认识,以帮助我们使用 LangChain 构建基于 LLM 的应用,具体包括如下几个方面的内容: LangChain 是什么 LangChain Modules 概览 LangChain 模块:Model I/O LangChain 模块:Retrieval LangChain 模块:Agents LangChain 模块:Chains LangChain 模块:Memory LangChain 模块:Callbacks LCEL(LangChain Expression Language) LangServe 介绍 LangSmith 介绍 La

基于 LLM 的应用架构 RAG

RAG(Retrieval Augmented Generation),是指“检索增强生成”,它主要通过检索已有文档(如,企业内部,或者某一领域,或者某个垂直行业等等的内容)的方式,进而将得到的结果作为输入 LLM 的 Prompt 更相关的上下文 Context 来给出更好的回答。 我们都知道,对于一些通用的 LLM,它们所能回答的内容是基于训练该 LLM 时使用的数据集,而且由于模型超大所以使用的训练数据的时效性也是会差一些。而对于某个特定的领域内的内容, LLM 它可能没有或者“知道”得不够精细,甚至对一些最新变化的内容它也不一定包含,所以,需要通过一些方法将 LLM 所不包含的内容“增强”进去,这样就有了类似 RAG 之类的方法,能够解决我们所面临的一些问题。 具体来说,使用 RAG 能够获得的好处,可以概括成如下 4 点(来自 databricks,详见文末参考链接): Providing up-to-date and accurate responses Reducing inaccurate responses, or hallucinations Providing domain-specific, relevant responses Being efficient and cost-effective 使用 RAG 构建基于 LLM 的应用,

大模型(LLMs)盘点跟踪

发布时间 LLM 模型参数量 组织名称 论文/模型特点 2024-03 DBRX 1320亿 Databricks [论文]开源,采用细粒度 MOE 架构,推理速度比 LLaMA 2-70B 快两倍,整体性能超越 GPT-3.5。 2024-03 Grok-1 3140亿 xAI [介绍]目前参数量最大的开源模型,基于 MOE 架构。 2024-03 Inflection-2.5 Inflection AI [介绍]性能媲美 GPT-4,仅用四成训练计算量。最大亮点:结合了高 IQ 和高 EQ。 2024-03 Claude 3 Anthropic [介绍]多模态大模型,包含 Opus/Sonnet/Haiku 三种模型,Opus 在行业基准测试中表现优于 GPT-4 和 Gemini Ultra。 2024-02 Mistral Large Mistral AI [介绍]常识推理、知识问答表现出色,评分超过 Gemini Pro/Claude 2,仅次于 GPT-4。 2024-02 Genie 110亿 Google DeepMind [论文]基础世界模型,能够合成可操控的虚拟世界。 2024-02 Sora OpenAI [论文]文生视频模型。60s 超长长度。模拟世界模型。 2024-02 Gemma 70亿 Google [介绍]目前最强开源大模型,7B 性能超越 LIama 2 13B。 2024-02 Gemini 1.5 Pro Google DeepMind [论文]