开源 AI Agent:HuggingGPT 基本原理浅析

HuggingGPT 是浙江大学、微软亚洲研究院合作开发的开源项目,以 ChatGPT 和 Hugging Face 为基础构建的一个 AI Agent 框架,融合了 LLM 和 AI 领域模型的能力,用来解决不同领域和不同模态的 AI 任务。 HuggingGPT 是一个以 LLM(比如 ChatGPT)为控制器,以专家模型(HuggingFace)为执行任务的 AI Agent 系统,主要通过连接到各个领域内的专家模型以尝试自动地解决各种复杂的 AI 任务。HuggingGPT 以自然语言为接口,通过 ChatGPT 进行任务规划、模型选择,并通过使用专家模型处理对应领域的问题,生成最终结果,从而能够很好地解决 AI 任务。 HuggingGPT 对应的相关代码和工具,都托管在 Github 上,对应的项目名是 JARVIS:https://github.com/microsoft/JARVIS。 HuggingGPT 设计概览 HuggingGPT 的总体处理流程,如下图所示: 通过上图可以看到,HuggingGPT 的处理过程可以分为如下 4 个阶段: 任务规划(Task Planning) 使用一个 LLM(ChatGPT)分析用户的请求,了解用户的意图。通过用户输入到 LLM(ChatGPT)的 Prompt,根据对话结果将用户任务分解为可