多模态 AI Agent 系统设计和潜在应用场景

目前,已经有研究提出了多模态 Agent AI(Multimodal Agent AI,MAA)的概念,类似这样的一个 MAA 系统,能够基于对多模态感知输入的理解,在一个给定的环境中生成有效的行为。例如,下面是一个交互增强的 Agent 系统,如图所示: 上面这个多模态的 Agent AI 系统展示了基于 2D/3D 在跨现实(ross-reality)中实现生成,和进行编辑交互。我们对图中上面的会议室场景,说明如下: 首先,在物理世界交互中,通过人类输入的指令,使用 DALLE-2 模型,通过文生图得到一个会议室场景图片。 然后,通过 Knowledge Agent 问答系统,得到一个与会议相关的各种元素,如投影仪、桌子、椅子、白板等等。 接着,通过虚拟现实(Virtual Reality) Agent 能够看到一个虚拟的会议室场景。 最后,通过模拟器或一些 AR/MR 设备实现从物理世界与虚拟世界的交互,可以操作 AR/MR 设备完成特定任务,如远程会议的“现场”开会任务。 另外两个例子(2D 到 3D 的交互;物理世界公交车场景到游戏场景的生成与交互)也是一样的,都实现了从物理世界到虚拟世界的映射与交互。 新的 Agent 范式

什么是 AI 智能体(AI Agent)

目前 LLM 技术发展非常迅速,虽然 LLM 看似已经具备了丰富的知识与足够的智慧,但是在一些场景下我们可能需要更加精确的答案,而不是得到一些幻觉类答案,或者答案不够实时,或者人类诉求太过复杂以至于 LLM 无法理解,等等,这些问题也是目前阻止很多 AI 应用落地的主要原因。 基于 AI Agent(AI 智能体)自身所具备的能力,同时借助于 LLM 所释放的潜力,或许在不久的将来能够不断优化改进,达到满足人类更方便、更智能地使用 AI 完成各种任务的需求,实现普惠 AI 的目标。 下面,首先了解一下 LLM 和 AI Agent 有什么不同: 人类与 LLM 之间的交互,是基于给定的 Prompt 提示词来实现的,而对于 Prompt 的设计不同 LLM 给出的对话回答质量也是不同的,所以需要人类通过一些特定的方法或经过多次尝试,才有可能逐步提高对话的精确度和满意度。可见,目前基于 LLM 的应用作为工具,能够在一定程度上提高人类日常生活、工作等的效率,同时反过来也对人类使用 LLM 提出了一定的要求,而且这一部分工作更多的是需要人类主动请求,而 LLM 被动执行动作来完成一次一次地