多模态 AI Agent 系统设计和潜在应用场景

目前,已经有研究提出了多模态 Agent AI(Multimodal Agent AI,MAA)的概念,类似这样的一个 MAA 系统,能够基于对多模态感知输入的理解,在一个给定的环境中生成有效的行为。例如,下面是一个交互增强的 Agent 系统,如图所示:
MAA-AI-System-2D3D-Cross-reality-Interaction
上面这个多模态的 Agent AI 系统展示了基于 2D/3D 在跨现实(ross-reality)中实现生成,和进行编辑交互。我们对图中上面的会议室场景,说明如下:
首先,在物理世界交互中,通过人类输入的指令,使用 DALLE-2 模型,通过文生图得到一个会议室场景图片。
然后,通过 Knowledge Agent 问答系统,得到一个与会议相关的各种元素,如投影仪、桌子、椅子、白板等等。
接着,通过虚拟现实(Virtual Reality) Agent 能够看到一个虚拟的会议室场景。
最后,通过模拟器或一些 AR/MR 设备实现从物理世界与虚拟世界的交互,可以操作 AR/MR 设备完成特定任务,如远程会议的“现场”开会任务。
另外两个例子(2D 到 3D 的交互;物理世界公交车场景到游戏场景的生成与交互)也是一样的,都实现了从物理世界到虚拟世界的映射与交互。

新的 Agent 范式

通过上面图示的例子,我们可以看到,要实现一个基于多模态跨现实的 Agent AI 系统,涉及到很多 Agent 之间的集成(Integration)与交互(Interaction)。一个新的可供参考的 Agent 范式(Agent Paradigm)——实现多模态“全才” Agent(Multimodal Generalist Agent)系统,如下图所示:
Multi-modal-Generalist-Agent-Paradigm
该范式包含 5 个模块:

  • 环境、感知、任务规划、技能观察(Environment, Perception, Task-planning, Skill Observation)
  • Agent 学习(Learning)
  • Agent 记忆(Memory)
  • Agent 行动(Action)
  • Agent 认知(Cognition)

Agent 在上图定义的这样一个交互式闭环(Interactive Closed-loop)中,不断学习,提高认知,最后能够做出更优的决策并执行。
用于 Agent 的学习/优化策略和基本机制,可以参考如下技巧:

  • 强化学习(Reinforcement Learning,RL)
  • 模拟学习(Imitation Learning,IL)
  • 上下文学习(In-Context Learning,ICL)
  • 时间优化(Temporal Optimization)
  • 空间优化(Spatial Optimization)

基于多模态跨现实的 Agent AI 系统,需要集成大量的、不同类型的 Agent,在完成各自任务的同时,它们之间也会通过进行交互来不断学习、共同完成 AI 任务。各种不同类型的 Agent,如下所示:

  • Generalist Agents
  • Embodied Agents
  • Action Agents
  • Interactive Agents
  • Simulation and Environments Agents
  • AR/VR/mixed-reality Agents
  • Knowledge Agents
  • Logic Agents
  • Agents for Emotional Reasoning
  • Neuro-Symbolic Agents
  • LLMs and VLMs Agent

在开发复杂的多模态 AI Agent 系统时,集成视觉和语言的理解非常关键,包括生成图像标题、可视化问答、视频语言生成、视频理解等等。交互式多模态 Agent 包含 4 个基本核心模块,如下图所示:
Interactive-Multimodal-Agents-4-Main-Pillars
这 4 个核心模块及其功能,说明如下:

  • 交互服务(Interaction Service)

交互服务,有助于建立一个统一的自动化行动(Automated Actions)、认知和决策平台。

  • 音频服务(Audio Service)

音频服务,将音频和语音处理集成到应用程序和服务中。

  • 视觉服务(Vision Service)

视觉服务,识别和分析在图像、视频和数字墨水中出现的内容。

  • 语言服务(Language Service)

语言服务,从结构化、半结构化文本内容中抽取语义。

Agent AI 应用任务

1、使用 Agent 改善游戏中 NPC 的行为

面向游戏领域的 Agent 应用比较常见,比如游戏中的 NPC(Non-Player Characters)的行为主要由开发者精心制作的预定义脚本决定,所以这些脚本预定义好的行为都是可预测的,完全不能根据游戏中玩家(Player)的操作在动态的游戏环境中产生更高级的变化和行为,这极大地阻碍了动态游戏环境中的沉浸式体验。因此,如果利用 LLM 来引导 NPC 的行为,使其具备自主性和适应性,就能够使互动更加微妙和有趣。
基于 AI 驱动的 NPC 可以从游戏玩家的行为中学习,逐渐适应动态变化的策略,从而提供具有挑战性且更少可预测性的游戏体验。
下面是一个使用 GPT-4V 模型,对游戏 Minecraft Dungeons 进行交互体验改进的 Agent 实现的应用任务:
NPC-Agent-Application-Task-based-GPT-4V
图中,通过不断地与 GPT-4V 互动反馈,得到一些基于 LLM 驱动的新场景和行为,最后一个生成的图片中 NPC 在战斗后的状态和场景,很难甚至无法通过预定义的脚本来实现。

2、使用 Agent 分析游戏

LLM 可以作为一个强大的语言工具,支持分析游戏中的文本数据,包括聊天日志、玩家反馈,以及叙述内容。
VLM 可以用来解析玩家游戏过程中,交互得到的大量图像、视频数据,以帮助分析游戏世界中的用户意图和动作。

3、游戏场景合成

场景合成在创建和增强沉浸式游戏环境的过程中,具有非常重要的作用。场景合成包括游戏中 3D 场景和环境的自动生成,或者半自动生成,比如地形的生成、对象的放置、逼真照明的创建,有时甚至还包括动态的天气系统。
另外,现代游戏制作通常以广阔、开放的世界环境为主要特色,而人工设计这些景观可能耗费大量时间和资源。通过使用场景合成能力,自动生成地形,同时利用程序或 AI 驱动的技术,使用较少的手动操作就可以生成复杂、逼真的景观/场景。
LLM 和 VLM 能够利用丰富的知识来设置各种规则,使输出的设计在视觉上更加新颖独特,而不像使用传统方式得到的更多是一些千篇一律、平淡无奇的创意。
例如,下图是基于 Minecraft Dungeons 游戏视频,使用了 VLM 模型预测生成的图像:
Masked-Video-Prediction-On-Unseen-Minecraft-Videos
上图中,通过屏蔽掉视频中画面的一些部分,使用 GPT-4V 预测生成的结果,可以对比一下原始图像和预测生成图像之间不同。

4、机器人

机器人(Robotics)是通过与环境不断地进行交互、获得反馈,持续学习改进性能,以完成人类期望它完成的任务。

  • 视觉运动控制(Visual Motor Control)

视觉运动控制(Visual Motor Control)是指,将视觉感知和运动动作相结合,使机器人能够更有效地执行任务。这种集成至关重要,因为它使机器人能够理解来自其环境的视觉数据,并相应地调整其动作以与环境精确地互动。视觉运动控制,有助于机器人适应环境状态快速变化的动态环境,能够基于视觉反馈对运动动作进行实时调整。
在安全操作的背景下,视觉信息对于检测执行错误、确认每个机器人动作序列先后关系,显得至关重要。在不受控的环境中,比如机器人对室内环境比较陌生,由于家具形状的变化、照明的变化等不可预测的因素,它们的行为可能会面临意想不到的结果。所以,利用视觉反馈不断验证每一步的结果,能够确保机器人系统稳健可靠地运行。

  • 语言条件操纵(Language Conditioned Manipulation)

语言条件操纵,需要机器人系统具有基于语言指令解释和执行任务的能力,通常有必要为人机交互提供一个直观和用户友好的界面,通过自然语言命令,用户可以以类似于人类交流的方式向机器人指定目标和任务,降低操作机器人系统的难度。

  • 技能优化(Skill Optimization)

最近的研究强调了 LLM 在机器人任务规划中的有效性。然而为了使任务更好地执行,尤其是那些涉及抓取等物理交互的任务,需要让机器人对环境有更深入的了解,而不仅仅是简单地解释人类指令。
对于机器人精确的接触点、手臂姿势等,这些对人类来说是直观的,但想要通过语言表达却非常困难,有一定的挑战性。因此,让机器人从场景中捕捉这些细微的间接线索,并将其有效转化为机器人的技能仍然是一个重大的挑战。机器人界也越来越专注于收集经过增强的数据集,或开发从人类的演示中直接获得技能的方法,包括示范学习、模仿学习,这对优化机器人的技能非常有帮助。

最近的研究已经证明,LLM/VLM 在特定环境中与人类交互学习过程中,机器人 Agent 表现出了巨大的潜力。一些和 LLM/VLM 有关的话题有:

  • 多模态系统(Multimodal Systems)
  • 任务规划和技能训练(Task Planning and Skill Training)
  • 在线优化(On-site Optimization)
  • 对话 Agent(Conversation Agents)
  • 导航 Agent(Navigation Agents)

5、医疗保健(Healthcare)

在医疗保健领域,LLM 和 VLM 可以充当诊断试剂、患者护理助理,甚至治疗辅助工具。虽然 AI 试剂在改善患者护理和挽救生命方面有巨大的潜力,但也存在可能的巨大风险,即滥用或仓促部署 AI 试剂可能危及全球千百万病人。

参考资源

Creative Commons License

本文基于署名-非商业性使用-相同方式共享 4.0许可协议发布,欢迎转载、使用、重新发布,但务必保留文章署名时延军(包含链接:http://shiyanjun.cn),不得用于商业目的,基于本文修改后的作品务必以相同的许可发布。如有任何疑问,请与我联系

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>