简单之美

目前，已经有研究提出了多模态 Agent AI（Multimodal Agent AI，MAA）的概念，类似这样的一个 MAA 系统，能够基于对多模态感知输入的理解，在一个给定的环境中生成有效的行为。例如，下面是一个交互增强的 Agent 系统，如图所示：上面这个多模态的 Agent AI 系统展示了基于 2D/3D 在跨现实（ross-reality）中实现生成，和进行编辑交互。我们对图中上面的会议室场景，说明如下：首先，在物理世界交互中，通过人类输入的指令，使用 DALLE-2 模型，通过文生图得到一个会议室场景图片。然后，通过 Knowledge Agent 问答系统，得到一个与会议相关的各种元素，如投影仪、桌子、椅子、白板等等。接着，通过虚拟现实（Virtual Reality） Agent 能够看到一个虚拟的会议室场景。最后，通过模拟器或一些 AR/MR 设备实现从物理世界与虚拟世界的交互，可以操作 AR/MR 设备完成特定任务，如远程会议的“现场”开会任务。另外两个例子（2D 到 3D 的交互；物理世界公交车场景到游戏场景的生成与交互）也是一样的，都实现了从物理世界到虚拟世界的映射与交互。新的 Agent 范式

石浩枫: 作者你自己看看你写的通顺吗，图layer一半有颜色一半没颜色，画的啥东西
gsgsgsl: 赞一个，前几年搞过kafka2.x版本的鉴权，几年有这方面需求，发现很多api变了，2.x版本的鉴权配置在3.x版...
dack: GPT-2中的相对位置编码请问有出处吗，在GPT-2的论文& #8221;Language Models are...
zhang: 你好，这一行“前面计算已经得到 QKT 矩阵，n=6，dk=8，则 A 的大小也是 6 x 6。”请问在下面的代码中为什么dk =...
derek: 何时才能出现伴侣Ai
丘比特: 请问博主，如果在窗口中用到广播状态，现在您有什么实现方案吗？
z: 寫的真好
方俊: 大佬好有耐心，从14年回复到19年哈哈
Yanjun: 图是用 Astah 和 OminiGraffle 画的
JacobZheng: 问个题外话，图是用什么工具画的啊
Derek Dekker: 感觉还挺难的
luosijie: 博主你好，请问您知道K距离方法出自哪篇文献吗，我该如何引用？

简单之美，难得简单，享受简单的唯美。

按标签浏览文章: VLM

多模态 AI Agent 系统设计和潜在应用场景