<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>简单之美 &#187; Tag &#187; Agent</title>
	<atom:link href="http://shiyanjun.cn/archives/tag/agent/feed" rel="self" type="application/rss+xml" />
	<link>http://shiyanjun.cn</link>
	<description>简单之美，难得简单，享受简单的唯美。</description>
	<lastBuildDate>Wed, 04 Mar 2026 07:04:53 +0000</lastBuildDate>
	<language>zh-CN</language>
		<sy:updatePeriod>hourly</sy:updatePeriod>
		<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.9.2</generator>
	<item>
		<title>多模态 AI Agent 系统设计和潜在应用场景</title>
		<link>http://shiyanjun.cn/archives/2724.html</link>
		<comments>http://shiyanjun.cn/archives/2724.html#comments</comments>
		<pubDate>Wed, 28 Feb 2024 13:16:15 +0000</pubDate>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
				<category><![CDATA[Agent]]></category>
		<category><![CDATA[LLM]]></category>
		<category><![CDATA[人工智能]]></category>
		<category><![CDATA[VLM]]></category>

		<guid isPermaLink="false">http://shiyanjun.cn/?p=2724</guid>
		<description><![CDATA[<p>目前，已经有研究提出了多模态 Agent AI（Multimodal Agent AI，MAA）的概念，类似这样的一个 MAA 系统，能够基于对多模态感知输入的理解，在一个给定的环境中生成有效的行为。例如，下面是一个交互增强的 Agent 系统，如图所示：

上面这个多模态的 Agent AI 系统展示了基于 2D/3D 在跨现实（ross-reality）中实现生成，和进行编辑交互。我们对图中上面的会议室场景，说明如下：
首先，在物理世界交互中，通过人类输入的指令，使用 DALLE-2 模型，通过文生图得到一个会议室场景图片。
然后，通过 Knowledge Agent 问答系统，得到一个与会议相关的各种元素，如投影仪、桌子、椅子、白板等等。
接着，通过虚拟现实（Virtual Reality） Agent 能够看到一个虚拟的会议室场景。
最后，通过模拟器或一些 AR/MR 设备实现从物理世界与虚拟世界的交互，可以操作 AR/MR 设备完成特定任务，如远程会议的“现场”开会任务。
另外两个例子（2D 到 3D 的交互；物理世界公交车场景到游戏场景的生成与交互）也是一样的，都实现了从物理世界到虚拟世界的映射与交互。
新的 Agent 范式</p>]]></description>
	<p>目前，已经有研究提出了多模态 Agent AI（Multimodal Agent AI，MAA）的概念，类似这样的一个 MAA 系统，能够基于对多模态感知输入的理解，在一个给定的环境中生成有效的行为。例如，下面是一个交互增强的 Agent 系统，如图所示：

上面这个多模态的 Agent AI 系统展示了基于 2D/3D 在跨现实（ross-reality）中实现生成，和进行编辑交互。我们对图中上面的会议室场景，说明如下：
首先，在物理世界交互中，通过人类输入的指令，使用 DALLE-2 模型，通过文生图得到一个会议室场景图片。
然后，通过 Knowledge Agent 问答系统，得到一个与会议相关的各种元素，如投影仪、桌子、椅子、白板等等。
接着，通过虚拟现实（Virtual Reality） Agent 能够看到一个虚拟的会议室场景。
最后，通过模拟器或一些 AR/MR 设备实现从物理世界与虚拟世界的交互，可以操作 AR/MR 设备完成特定任务，如远程会议的“现场”开会任务。
另外两个例子（2D 到 3D 的交互；物理世界公交车场景到游戏场景的生成与交互）也是一样的，都实现了从物理世界到虚拟世界的映射与交互。
新的 Agent 范式</p>			<content:encoded><![CDATA[<p>目前，已经有研究提出了多模态 Agent AI（Multimodal Agent AI，MAA）的概念，类似这样的一个 MAA 系统，能够基于对多模态感知输入的理解，在一个给定的环境中生成有效的行为。例如，下面是一个交互增强的 Agent 系统，如图所示：

上面这个多模态的 Agent AI 系统展示了基于 2D/3D 在跨现实（ross-reality）中实现生成，和进行编辑交互。我们对图中上面的会议室场景，说明如下：
首先，在物理世界交互中，通过人类输入的指令，使用 DALLE-2 模型，通过文生图得到一个会议室场景图片。
然后，通过 Knowledge Agent 问答系统，得到一个与会议相关的各种元素，如投影仪、桌子、椅子、白板等等。
接着，通过虚拟现实（Virtual Reality） Agent 能够看到一个虚拟的会议室场景。
最后，通过模拟器或一些 AR/MR 设备实现从物理世界与虚拟世界的交互，可以操作 AR/MR 设备完成特定任务，如远程会议的“现场”开会任务。
另外两个例子（2D 到 3D 的交互；物理世界公交车场景到游戏场景的生成与交互）也是一样的，都实现了从物理世界到虚拟世界的映射与交互。
新的 Agent 范式</p>]]></content:encoded>
			<wfw:commentRss>http://shiyanjun.cn/archives/2724.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>什么是 AI 智能体（AI Agent）</title>
		<link>http://shiyanjun.cn/archives/2632.html</link>
		<comments>http://shiyanjun.cn/archives/2632.html#comments</comments>
		<pubDate>Sun, 18 Feb 2024 12:43:25 +0000</pubDate>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
				<category><![CDATA[Agent]]></category>
		<category><![CDATA[人工智能]]></category>
		<category><![CDATA[LLM]]></category>

		<guid isPermaLink="false">http://shiyanjun.cn/?p=2632</guid>
		<description><![CDATA[<p>目前 LLM 技术发展非常迅速，虽然 LLM 看似已经具备了丰富的知识与足够的智慧，但是在一些场景下我们可能需要更加精确的答案，而不是得到一些幻觉类答案，或者答案不够实时，或者人类诉求太过复杂以至于 LLM 无法理解，等等，这些问题也是目前阻止很多 AI 应用落地的主要原因。
基于 AI Agent（AI 智能体）自身所具备的能力，同时借助于 LLM 所释放的潜力，或许在不久的将来能够不断优化改进，达到满足人类更方便、更智能地使用 AI 完成各种任务的需求，实现普惠 AI 的目标。
下面，首先了解一下 LLM 和 AI Agent 有什么不同：
人类与 LLM 之间的交互，是基于给定的 Prompt 提示词来实现的，而对于 Prompt 的设计不同 LLM 给出的对话回答质量也是不同的，所以需要人类通过一些特定的方法或经过多次尝试，才有可能逐步提高对话的精确度和满意度。可见，目前基于 LLM 的应用作为工具，能够在一定程度上提高人类日常生活、工作等的效率，同时反过来也对人类使用 LLM 提出了一定的要求，而且这一部分工作更多的是需要人类主动请求，而 LLM 被动执行动作来完成一次一次地</p>]]></description>
	<p>目前 LLM 技术发展非常迅速，虽然 LLM 看似已经具备了丰富的知识与足够的智慧，但是在一些场景下我们可能需要更加精确的答案，而不是得到一些幻觉类答案，或者答案不够实时，或者人类诉求太过复杂以至于 LLM 无法理解，等等，这些问题也是目前阻止很多 AI 应用落地的主要原因。
基于 AI Agent（AI 智能体）自身所具备的能力，同时借助于 LLM 所释放的潜力，或许在不久的将来能够不断优化改进，达到满足人类更方便、更智能地使用 AI 完成各种任务的需求，实现普惠 AI 的目标。
下面，首先了解一下 LLM 和 AI Agent 有什么不同：
人类与 LLM 之间的交互，是基于给定的 Prompt 提示词来实现的，而对于 Prompt 的设计不同 LLM 给出的对话回答质量也是不同的，所以需要人类通过一些特定的方法或经过多次尝试，才有可能逐步提高对话的精确度和满意度。可见，目前基于 LLM 的应用作为工具，能够在一定程度上提高人类日常生活、工作等的效率，同时反过来也对人类使用 LLM 提出了一定的要求，而且这一部分工作更多的是需要人类主动请求，而 LLM 被动执行动作来完成一次一次地</p>			<content:encoded><![CDATA[<p>目前 LLM 技术发展非常迅速，虽然 LLM 看似已经具备了丰富的知识与足够的智慧，但是在一些场景下我们可能需要更加精确的答案，而不是得到一些幻觉类答案，或者答案不够实时，或者人类诉求太过复杂以至于 LLM 无法理解，等等，这些问题也是目前阻止很多 AI 应用落地的主要原因。
基于 AI Agent（AI 智能体）自身所具备的能力，同时借助于 LLM 所释放的潜力，或许在不久的将来能够不断优化改进，达到满足人类更方便、更智能地使用 AI 完成各种任务的需求，实现普惠 AI 的目标。
下面，首先了解一下 LLM 和 AI Agent 有什么不同：
人类与 LLM 之间的交互，是基于给定的 Prompt 提示词来实现的，而对于 Prompt 的设计不同 LLM 给出的对话回答质量也是不同的，所以需要人类通过一些特定的方法或经过多次尝试，才有可能逐步提高对话的精确度和满意度。可见，目前基于 LLM 的应用作为工具，能够在一定程度上提高人类日常生活、工作等的效率，同时反过来也对人类使用 LLM 提出了一定的要求，而且这一部分工作更多的是需要人类主动请求，而 LLM 被动执行动作来完成一次一次地</p>]]></content:encoded>
			<wfw:commentRss>http://shiyanjun.cn/archives/2632.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
