重写内容如下:机器之心报道
重新编辑:杜伟、陈萍
本文全面介绍了基于大语言模型(LLM)的智能体的构建、潜在应用和评估,为全面了解该领域的发展以及启发未来的研究具有重要意义。
在当前的人工智能时代,自主智能体被认为是通向通用人工智能(AGI)的一条有前途的道路。自主智能体是指能够通过自主规划和指令来完成任务的实体。在早期的开发模式中,决定智能体行动策略的功能主要是基于启发式方法,并在与环境的交互中逐步完善
然而,在自由开放的环境中,自主智能体的行动往往难以达到人类的熟练水平
近年来,大语言模型(LLM)取得了巨大的成功,并展现出实现类人智能的潜力。因此,由于其强大的能力,LLM 被越来越多地用作创建自主智能体的核心协调者,并且出现了各种各样的AI智能体。这些智能体通过模仿人类的决策过程,为更复杂和适应性更强的AI系统提供了可行的路径
基于LLM的自主智能体一览,包括工具智能体、模拟智能体、通用智能体和领域智能体
对于已经出现的基于LLM的自主智能体进行整体分析在当前阶段非常重要,这对于全面了解该领域的发展现状以及启发未来的研究具有重要意义
中国人民大学高瓴人工智能学院的研究人员对基于LLM的自主智能体进行了全面调研,重点关注了其构建、应用和评估三个方面
请点击以下链接查看论文:https://arxiv.org/pdf/2308.11432.pdf
他们提出了一个由四部分组成的统一框架,用于构建智能体。这四部分分别是:配置模块,用于表示智能体的属性;需要重新写作的内容是:记忆模块,用于存储历史信息;重写内容为:模块规划,用于制定未来的行动策略;行动模块,用于执行规划决定。在介绍了典型的智能体模块之后,研究者还总结了常用的微调策略,以增强智能体在不同应用场景中的适应性
接下来,研究人员概述了自主智能体的潜在应用,并探讨了它们对社会科学、自然科学和工程学领域的增益。最后,讨论了自主智能体的评估方法,包括主观和客观评估策略。下图展示了文章的整体结构
重写内容,不改变原意,需要重写为中文。不需要出现原句
需要重新写的内容是:https://github.com/Paitesanshi/LLM-Agent-Survey
重新构建基于LLM的自主智能体
为了提高基于LLM的自主智能体的效率,有两个方面需要考虑:首先,需要设计一个能够更好利用LLM的架构;其次,需要有效地学习参数
智能体架构设计:本文提出了一个统一的框架来总结之前研究中提出的架构,整体结构如图2所示,它由分析(profiling)模块、需要重新写作的内容是:记忆模块、重写内容为:模块规划以及需要进行重写的内容是:动作模块组成
总结而言,重新分析模块的目标是识别智能体的角色;记忆和重写内容为:模块规划可以将智能体置于动态环境中,使其能够回忆过去的行为并计划未来的动作;需要进行重写的内容是:动作模块负责将智能体的决策转化为具体的输出。这些模块之间,重新分析模块对记忆和重写内容为:模块规划有影响,而这三个模块共同影响需要进行重写的内容是:动作模块
重新分析模块
自主智能体通过特定角色来执行任务,例如程序员、教师和领域专家。重新分析模块旨在表明智能体的角色是什么,这些信息通常被写入输入提示中以影响 LLM 行为。在现有的工作中,有三种常用的策略来生成智能体配置文件:手工制作方法;LLM-generation 方法;数据集对齐方法。
需要重新写作的内容是:记忆模块
需要重新写作的内容是:记忆模块在 AI 智能体的构建中起着非常重要的作用。它记忆从环境中感知到的信息,并利用记录的记忆来促进智能体未来的动作。需要重新写作的内容是:记忆模块可以帮助智能体积累经验、实现自我进化,并以更加一致、合理、有效的方式完成任务。
重写内容为:模块规划
当人类面临复杂任务时,他们首先将其分解为简单的子任务,然后逐一解决每个子任务。重写内容为:模块规划赋予基于 LLM 的智能体解决复杂任务时需要的思考和规划能力,使智能体更加全面、强大、可靠。本文介绍了两种重写内容为:模块规划:没有反馈的规划以及有反馈的规划。
需要进行重写的内容是:动作模块
需要进行重写的内容是:动作模块的目的是将智能体的决策转化为具体的结果输出。它直接与环境进行交互,决定智能体完成任务的有效性。在本节中,我们将介绍动作目标、策略、动作空间和动作影响
本章除了介绍上述的四个部分外,还会探讨智能体的学习策略,其中包括从示例中学习、从环境反馈中学习以及从与人类的互动中学习
请参考下表,其中列出了之前的工作和本文的分类法之间的对应关系: 表 1:工作和分类法对应关系 | 工作 | 分类法 | |-----|-------| | A | X | | B | Y | | C | Z | 以上表格显示了之前的工作与本文所提出的分类法之间的对应关系
基于LLM的自主智能体应用
本文讨论了基于LLM的自主智能体对社会科学、自然科学和工程领域的革命性影响
例如,基于LLM的智能体可以用于设计和优化复杂的建筑、桥梁、水坝和道路等结构。之前,研究人员提出了一个交互式框架,人类建筑师和AI智能体在3D模拟中共同工作来构建结构环境。交互式智能体能够理解自然语言指令、放置模块、寻求建议并结合人类反馈,展示了在工程设计中人机协作的潜力
在计算机科学和软件工程领域,基于LLM的智能体具有自动化编码、测试、调试和文档生成的潜力。研究人员提出了ChatDev,这是一个端到端的框架,其中多个智能体通过自然语言对话进行沟通和协作,以完成软件开发生命周期。ToolBench可用于代码自动补全和代码推荐等任务。MetaGPT可以扮演产品经理、架构师、项目经理和工程师等角色,内部监督代码生成并提高最终输出代码的质量
以下是基于LLM的自主智能体的典型应用示例:
基于LLM的自主智能体评估
本文将讨论两种常用的评估策略:主观评估和客观评估
重新写作如下:主观评估是指通过互动、评分等多种方式对基于LLM的智能体的能力进行测试。在这种情况下,参与评估的人员通常是通过众包平台招募的;而一些研究人员认为众包人员的个体能力存在差异和不稳定性,因此也会使用专家注释来进行评估
在当前的一些研究中,我们可以使用LLM智能体作为主观评估者。例如,在ChemCrow研究中,EvaluatorGPT通过指定等级来评估实验结果,该等级既考虑任务的成功完成,又考虑基本思维过程的准确性。另外,ChatEval组建了一个基于LLM的多智能体裁判小组,通过辩论来评估模型的生成结果
相较于主观评估,客观评估具有许多优势。客观评估是指使用定量指标来评估基于LLM自主智能体的能力。本节将从指标、策略和基准的角度回顾和综合客观评估方法
在进行评估过程时,我们可以将这两种方法结合起来使用
以下是以前的工作与这些评估策略之间的对应关系的总结表格:
请参考原论文以获取更多信息