Al Agent(人工智能代理)是一种能够感知环境、进行决策和执行动作的智能实体。旨在大模型技术驱动下,让人们以自然语言为交互方式高自动化地执行和处理专业或繁复的工作任务,从而极大程度释放人员精力。
Agent 其实基本就等于"大模型 +插件 +执行流程/思维链",分别会对应控制端(Brain / 大脑)、感知端(Preception)、执行端(Action) 环节。目前已经涌现了在游戏领域大放异彩的英伟达 Voyager 智能体、能够帮助个人完成简单任务的 Agent 助理 HyperWrite、以及主打个人情感陪伴的 Al 助理 Pi 等多款优秀的 Agent成果,Al Agent 的研究进展迅速。
将大模型作为 Al Agent 的核心大脑,就可以实现以往难以实现的将复杂问题拆解成可实现的子任务、类人的自然语言交互等能力。由于大模型仍存在大量的问题如幻觉、上下文容量限制等,通过让大模型借助一个或多个 Agent 的能力,构建成为具备自主思考决策和执行能力的智能体,成为了当前通往
AGI 的主要研究方向。
Agent是什么?
第一,从哲学意义上讲,“代理人”是指具有行动能力的实体,而“代理”一词则表示这种能力的行使或体现。
第二,从狭义上讲,“代理”通常是指有意行动的表现;相应地,“代理人”一词表示拥有欲望、信念、意图和行动能力的实体。
第三,需要注意,代理人不仅包括人类个体,还包括物理世界和虚拟世界中的其他实体。
第四,重要的是,“代理”的概念涉及个人的自主性,赋予他们行使意志、做出选择和采取行动的能力,而不是被动地对外部刺激做出反应。
当下的挑战?
第一,在特定行业场景中,通用大模型具有的泛化服务特性,很难在知识问答、内容生成、业务处理和管理决策等方面精准满足用户的需求。
第二,让通用大模型学习行业知识和行业语料成为行业大模型,再进一步学习业务知识和专业领域工具演进为场景大模型,是生成式 Al深入业务场景,承担更复杂任务的关键路径。
第三,让大模型的持续进化最终以 Al Agent的产品形态,开始了对业务的流程及其管理和服务模式的重构与优化。
Al Agent与大模型、RPA的差异?
第—,Al Agent 和大模型的区别在于,大模型与人类之间的交互是基于 prompt 实现的,用户 prompt 是否清晰明确会影响大模型回答的效果。
第二,Al Agent 的工作仅需给定一个目标,它就能够针对目标独立思考并做出行动。
第三,和传统的 RPA 相比,RPA 只能在给定的情况条件下,根据程序内预设好的流程来进行工作的处理,而 Al Agent 则可以通过和环境进行交互,感知信息并做出对应的思考和行动。
为什么 LLM能够作为 Agent的全新大脑?
第一,自主性(Autonomy):
自主性是指一个Agent在没有人类或其他人直接干预的情况下运行,并对其行动和内部状态拥有一定程度的控制。1) LLMs可以通过生成类似人类的文本参与对话,并在没有详细步骤指示的情况下执行各种任务的能力来展示一种自主性。2) LLMs能根据环境输入动态调整输出,体现出一定程度的自适应能力。3) LLMs能通过展示创造力来体现自主性,比如提出新颖的想法、故事或解决方案,而这些并没有明确编入它们的程序。
第二,反应性(Reactivity):
Agent的反应能力是指它对环境中的即时变化和刺激做出快速反应的能力。1) 利用多模态融合技术可以扩展语言模型的感知空间,使其能够快速处理来自环境的视觉和听觉信息。2)一个主要挑战是:LLM-based Agent在执行非文本操作时,需要一个中间步骤,即以文本形式产生想法或制定工具使用方法,然后最终将其转化为具体操作。这一中间过程会消耗时间,隆低响应速度。
第三,主动性(Pro-activeness):
积极主动指的是,Agent不仅仅会对环境做出反应,它们还能积极主动地采取以目标为导向的行动。1)直观上,LLMs 中的下一个标记预测范式可能不具备意图或愿望,但研究表明,它们可以隐式地生成这些状态的表征,并指导模型的推理过程。2) LLMs 具有很强的概括推理和规划能力,通过向大型语言模型发出类似“让我们一步一步地思考"的指令,我们可以激发它们的推理能力,如逻辑推理和数学推理。3) 大型语言模型也以目标重拟、任务分解和根据环境变化调整计划等形式显示了规划的新兴能力。
第四,社会能力(Social Ability):
社交能力指的是一个 Agent通过某种Agent交流语言与其他 Agent(包括人类)进行交互的能力。1) 自然语言交互能力,如理解和生成能力,能够以可解释的方式与其他模型或人类进行交互,这构成了 LLM-based Agent的社会能力的基石 2)可以通过协作和竞争等社会行为提高任务绩效(Meta GPT)。3) 通过输入特定的提示,LLM 也可以扮演不同的角色,从而模拟现实世界中的社会分工 4)当我们将多个具有不同身份的 Agent放入一个社会中时,可以观察到新出现的社会现象(Generative Agent)。
LLM对Agent的贡献?
Al Agent需要感知环境、做出决策并执行适当的行动。在这些关键步骤中,最重要的是理解输入给 Agent的内容、推理、规划、做出准确决策,并将其转化为可执行的原子动作序列,以实现最终目标。
第一,大型语言模型在语言和意图理解、推理、记忆甚至移情等方面具有强大的能力,可以在决策和规划方面发挥卓越的作用。
第二,再加上预先训练的知识,它们可以创建连贯的行动序列,并有效地执行。
第三,此外,通过反思机制,这些基于语言的模型可以根据当前环境提供的反馈不断调整决策和优化执行序列。
如何构建 Agent?
LLM-based Agent的概念框架,由大脑、感知、行动三个部分组成。
第一,作为控制器,大脑模块承担记忆、思考和决策等基本任务。
第二,感知模块负责感知和处理来自外部环境的多模态信息。
大脑模块:
大脑主要由一个大型语言模型组成,不仅存储知识和记忆,还承担着信息处理和决策等功能,并可以呈现推理和规划的过程,能很好地应对未知任务。第一,运行机制:为确保有效交流,自然语言交互能力至关重要。第二,在接收感知模块处理的信息后,大脑模块首先转向存储,在知识中检索并从记忆中回忆。第三,这些结果有助于 Agent制定计划、进行推理和做出明智的决定。第四,此外,大脑模块还能以摘要、矢量或其他数据结构的形式记忆 Agent过去的观察、思考和行动。第五,同时,它还可以更新常识和领域知识等知识,以备将来使用。第六,LLM-based Agent还可以利用其固有的概括和迁移能力来适应陌生场景。自然语言交互:作为一种交流媒介,语言包含着丰富的信息。除了直观表达的内容,背后还可能隐藏着说话者的信念、愿望和意图。
知识:
研究表明,在大规模数据集上训练的语言模型可以将各种知识编码到其参数中,并对各种类型的查询做出正确的反应。第一,语言知识:语言知识表现为一个约束系统,即语法,它定义了语言的所有和唯一可能的句子。它包括词法、句法、语义学和语用学。第二,常识知识:常识性知识指的是大多数人在幼年时就已掌握的世界常识,缺乏相应常识性知识的模型可能无法理解或误解其中的含义。第三,专业领域知识:专业领域知识是指与特定领域相关的知识,如编程、数学、医学等。它对模型有效解决特定领域内的问题至关重要。
记忆:
在本文的框架中,“记忆”存储了Agent过去的观察、思考和行动序列。面对复杂问题时,记忆机制能帮助行为主体有效地重新审视和应用先前的策略。此外,这些记忆机制还能使个体借鉴过去的经验,适应陌生的环境。
增强 LLM-based Agent记忆能力的方法:
第一,提高 Trransformer的输入长度限制,缓解这些长度限制的策略包括文本截断、分割输入,以及强调文本的关键部分。还有一些研究修改了注意力机制,以降低复杂性,从而适应较长的序列。第二,总结记忆:确保 Agent毫不费力地从历史互动中提取关键细节,一些方法利用提示简洁地整合记忆,而另一些方法则强调反思过程,以创建浓缩的记忆表征。1) 分层方法将对话精简为每日快照和总体总结。2)一些特定的策略将环境反馈转化为文本封装,从而加强了 Agent对未来参与的语境把握。3)此外,在multi-agent环境中,Agent交流的重要元素会被捕获并保留下来。第三,用向量或数据结构压缩记忆:通过采用合适的数据结构,提高记忆检索效率,促进对交互做出迅速反应。1) 为记忆部分、计划或对话历史嵌入向量。2) 将句子转化为三元组配置,还有一些方法将记忆视为独特的数据对象,从而促进不同的交互。 3) 此外,ChatDB 和 DB-GPT 将 LLMrollers与 SQL数据库整合在一起,通过 SQL 命令进行数据操作。
记忆检索方法:
自动检索的一个重要方法是考虑三个指标:最近性(Recency)、相关性(Relevance) 和重要性(Importance)。第一,记忆得分由这些指标加权组合而成,得分最高的记忆在模型的上下文中被优先考虑。第二,一些研究引入了交互式记忆对象的概念,即对话历史的表现形式,可以移动、编辑、删除或通过总结进行组合。第三,用户可以查看和操作这些对象,从而影响 Agent 对对话的感知。第四,其他研究也允许根据用户提供的特定命令进行删除等记忆操作。以上都是为了确保了记忆内容与用户的期望密切相关。
推理和规划:
推理:
以证据和逻辑为基础,是人类智力活动的根本,是解决问题、决策和批判性分析的基石。演绎、归纳和归纳是智力活动中常见的主要推理形式。第一,具有代表性的思维链(CoT)方法通过引导 LLM 在输出答案之前生成理由,已被证明能够激发大型语言模型的推理能力。第二,此外,提高 LLM 性能的策略,如自我一致性、自我修正、自我完善和选择推理等。第三,一些研究表明,分步推理的有效性可归因于训练数据的局部统计结构,与对所有变量进行训练相比,变量间局部结构化的依赖关系能产生更高的数据效率。
规划:
是人类在面对复杂挑战时采用的一种关键策略,规划有助于组织思维、设定目标和确定实现这些目标的步骤。LLM-based Agent提供了一个结构化的思维过程。第一,通过规划,Agent可将复杂的任务分解为更易于管理的子任务,并为每个子任务制定适当的计划。第二,此外,随着任务的进展,Agent可以利用内省来修改其计划,
确保计划更符合实际情况,从而适应并成功执行任务。规划包括两个阶段:计划制定和计划反思。
计划制定:
将总体任务分解成许多子任务。第一,一次性全面分解问题,一次性制定完整的计划,然后按顺序执行。第二,与此相反,其他研究(如 CoT 系列)则采用自适应策略,一次规划和处理一个子任务,从而更流畅地处理复杂的整体任务。第三,此外,有些方法强调分层规划。第四,而另一些方法则强调一种策略,即从树状结构的推理步骤中推导出最终计划。
计划反思:
制定计划后,必须对其优点进行反思和评估。第一,LLM-based Agent可利用内部反馈机制(通常是从已有模型中汲取灵感)来完善和改进其战略和规划方法。第二,为了更好地与人类的价值观和偏好保持一致,Agent会主动与人类接触,从而纠正一些误解,并将这些有针对性的反馈吸收到其规划方法中。第三,此外,它们还可以从有形或虚拟环境中获得反馈,如任务完成情况的提示或行动后的观察,帮助它们修改和完善计划。
感知模块
将 Agent的感知空间从纯文字领域扩展到包括文字、听觉和视觉模式在内的多模态领域。
文本输入:
文本输入中,除了明确的内容外,还隐藏着信念、愿望和意图,理解隐含含义对于 Agent掌握人类用户的潜在和潜在意图至关重要,从而提高 Agent与用户的交流效率和质量。第一,一些研究采用强化学习来感知隐含含义,并建立反馈模型以获得奖励。第二,这有助于推断说话者的偏好,从而使Agent做出更个性化、更准确的回应。第三,此外,由于Agent被设计用于复杂的真实世界环境,它将不可避免地遇到许多全新的任务。第四,理解未知任务的文本指示对Agent的文本感知能力提出了更高的要求。第五,经过指令调整的 LLM 可以表现出卓越的零样本指令理解和泛化能力,从而无需针对特定任务进行微调。
视觉输入:
通常包含大量有关世界的信息,包括 Agent周围环境中物体的属性、空间关系、场景布局等。因此,将视觉信息与其他模式的数据整合在一起,可以为 Agent提供更广泛的背景和更精确的理解,加深Agent对环境的感知。注意:一种直接的方法是为图像输入生成相应的文本描述,即图像标题。字幕可以直接与标准文本指令连接,并输入到 Agent中,字幕生成是一种低带宽方法,在转换过程中可能会丢失大量潜在信息,Agent对图像的关注可能会带来偏差。
听觉输入:Agent可以将 LLMs 用作控制中心,以级联方式调用现有工具集或模型库来感知音频信息。
其他输入:Agent可以拥有独特的触觉和嗅觉器官,从而在与物体交互时收集到更多详细信息,Agent还能清楚地感知周围环境的温度、湿度和亮度,从而采取环境感知行动。第一,InternGPT引入了指向指令,用户可以通过使用手势或移动光标来选择、拖动或绘制,从而与图像中难以描述的特定部分进行交互。第二,添加指向指令有助于为单个文本指令提供更精确的规范。第三,在此基础上,Agent还有可能感知更复杂的用户输入。例如,AR/R 设备中的眼球跟踪、身体动作捕捉等技术,甚至是脑机交互中的脑电波信号。第四,探索 Agent 如何感知更全面的输入是未来一个很有前景的方向。
行动模块
当一个 Agent拥有类似大脑的结构,具备知识、记忆、推理、规划和概括能力以及多模态感知能力时,它也有望拥有类似人类的各种行动来应对周围环境。在Agent的构建过程中,行动模块接收大脑模块发送的行动序列,并执行与环境互动的行动。
文本输出
工具使用
第一,专业化工具能让 LLM 以可插拔的形式增强其专业知识、调整领域知识并更适合特定领域的需求。第二,借助工具完成任务的 Agent则表现出更强的可解释性和鲁棒性。
理解工具:
Agent有效使用工具的前提是全面了解工具的应用场景和调用方法。利用 LLM 强大的 zero-shot learning 和 few-shot learning 能力,Agent可以通过描述工具功能和参数的 zero-shot demonstartion 或提供特定工具使用场景和相应方法演示的少量提示来获取工具知识。
使用工具:
Agent学习使用工具的方法主要包括从 demonstartion 中学习和从 reward中学习。第一,专门为 Agent设计工具,更加模块化,其输入输出格式也更适合 Agent,如果能提供说明和示范,LLM-based Agent还能通过生成可执行程序或将现有工具集成到功能更强大的工具中来创建工具,并能学会自我调试。
具身行动
能够主动感知、理解物理环境并与之互动,根据 LLM丰富的内部知识做出决策并产生特定行为来改变环境。第一,成本效益:通过利用 LLM 的内在知识,PaLM-E 等 Agent将机器人数据与一般视觉语言数据进行联合训练,在具身任务中实现了显著的转移能力,同时证明了几何输入表示法可以提高训练数据效率。第二,具身动作泛化:面对错综复杂、未知的真实世界环境,Agent必须具备动态学习和泛化能力。第三,具有新兴推理能力的 LLM 也能以zero-shot 或 demonstration 的方式无缝应用于复杂任务。第四,一些研究基于当前的环境反馈,动态生成、维护和调整高级行动计划,以便在部分可观测环境中最大限度地减少对先前知识的依赖,从而使计划落地。
基于 LLM的基本具身行动
主要包括观察、操纵和导航。
观察:观察是 Agent获取环境信息和更新状态的主要方式第一,使用预先训练好的视觉转换器(VT)作为文本和视觉信息的对齐模块,并标注特殊标记来表示多模态数据的位置。第二,声音空间(Soundspaces) 提出通过混响音频输入来识别物理空间几何元素,从而以更全面的视角加强 Agent的观察。操纵:具身 Agent的操纵任务包括物体重新排列、桌面操纵和移动操纵。第一,DEPS利用基于 LLM 的交互式规划方法来保持这种一致性,并在整个多步骤、长距离的推理过程中通过Agent的反馈来帮助纠错。第二,相比之下,AlphaBlock 则专注于更具挑战性的操作任务(例如使用积木制作笑脸),这就要求 Agent对指令有更扎实的理解。第三,AlphaBlock 构建了一个数据集,其中包括35 项复杂的高级任务,以及相应的多步骤规划和观察对,然后对多模态模型进行微调,以增强对高级认知指令的理解。
导航:
导航允许 Agent动态地改变其在环境中的位置,涉及多角度和多目标观测,以及基于当前探索的远距离操作。第一,在导航之前,对于具身 Agent来说,必须事先建立关于外部环境的内部地图,其形式通常为拓扑图、语义图或占用图。第二,通过利用预先训练好的 VLM 模型将图像中的视觉特征与物理世界的 3D 重构相结合,实现空间目标的精确定位,而不是传统的以点或物体为中心的导航行动。
具身行动的未来展望:
基于 LLM 的化身行动被视为虚拟智能与物理世界之问的桥梁,使Agent能够像人类一样感知和改变环境。