🟢 反应式
🔵 慎思式
🟣 混合式

反应式、慎思式与混合式 Agent 架构范式

从 Subsumption 到 BDI 到 LLM Agent 的演进之路

🟢 反应式架构 感知→行动
无内部模型
快速响应
Brooks 1986
🔵 慎思式架构 感知→建模→规划→行动
符号推理
最优决策
BDI 1990s
🟣 混合式架构 反应层 + 慎思层
分层集成
兼顾速度与深度
现代主流
作者 超级代码智能体
版本 架构范式版 · 第一版
出版日期 2026 年 3 月
全书规模 五编十五章
历史跨度 1986-2026 年

📖 全书目录

第一编 反应式 Agent 架构

序言:Agent 架构的演进与范式选择

在人工智能 70 年的发展历程中,Agent 架构(Agent Architecture)始终是核心议题之一。如何设计一个智能体的"大脑",使其能够感知环境、做出决策、执行行动,这一问题贯穿了 AI 从符号主义到连接主义、从反应式到慎思式再到混合式的整个演进历程。

本书的核心问题:在面对一个具体的 AI 应用场景时,我们应该选择反应式架构、慎思式架构还是混合式架构?每种架构范式的优势与局限是什么?如何在速度与深度、简单与复杂、鲁棒性与灵活性之间做出权衡?

三大架构范式的历史演进

🟢 反应式架构 (1986-)

代表人物:Rodney Brooks

核心思想:智能源于与环境的直接交互,无需内部世界模型。感知直接映射到行动(S→R)。

代表作品:Subsumption Architecture (1986)、包容式架构、行为网络

优势:快速响应、鲁棒性强、实现简单

局限:无法处理需要规划的任务、缺乏长期目标导向

🔵 慎思式架构 (1990s-)

代表人物:Anand Rao, Michael Georgeff, John Laird

核心思想:智能体需要内部世界模型,通过符号推理和规划做出最优决策。

代表作品:BDI 架构 (1991)、Soar、ACT-R、规划系统(STRIPS、PDDL)

优势:能够处理复杂任务、支持长期规划、可解释性强

局限:计算复杂、响应慢、对环境变化敏感

🟣 混合式架构 (1990s-)

代表人物:Nils Nilsson, Erann Gat, Marcel Schoppers

核心思想:结合反应式的快速响应与慎思式的深度推理,分层或并行集成两种范式。

代表作品:TouringMachines (1992)、AuRA (1990s)、3T 架构、LLM Agent 架构 (2023-)

优势:兼顾速度与深度、适应性强、实用性好

局限:设计复杂、层间协调困难、调试困难

为什么架构选择至关重要?

Agent 架构的选择直接决定了系统的:

  • 性能特征:响应速度、决策质量、资源消耗
  • 能力边界:能处理什么任务、不能处理什么任务
  • 可维护性:系统是否易于理解、调试、扩展
  • 适应性:对环境变化的鲁棒性、学习能力
  • 可解释性:决策过程是否透明、可追溯
"架构不是实现的细节,而是设计的灵魂。选择错误的架构,就像用锤子做螺丝刀的工作——不仅效率低下,而且永远无法做好。"
—— 本书核心洞察

本书的独特贡献

与现有 Agent 架构教材不同,本书具有以下特色:

  • 历史视角:从 1986 年 Brooks 的反应式革命到 2026 年 LLM Agent 的混合架构,40 年演进全景
  • 比较分析:系统性比较三大范式,提供量化评估指标
  • 实用指南:架构选择决策树、场景匹配矩阵、实现代码库
  • 现代视角:将经典架构理论与现代 LLM Agent 实践相结合
  • 跨领域应用:机器人、游戏 AI、自动驾驶、企业 Agent 等多领域案例

本书结构

第一编 反应式 Agent 架构:详解反应式架构的哲学基础、Subsumption 架构设计、行为网络实现,分析其在机器人领域的成功应用与局限性。

第二编 慎思式 Agent 架构:深入探讨 BDI 架构的形式化模型、规划与推理技术、知识表示方法,展示慎思式 Agent 在复杂任务中的优势。

第三编 混合式 Agent 架构:系统介绍混合式架构的设计原则、分层与并行集成策略、经典混合架构案例(TouringMachines、AuRA、3T),以及现代 LLM Agent 的混合架构实践。

第四编 架构比较与选择指南:提供三大范式的系统性比较、架构选择决策树、评估方法与基准测试,帮助读者在实际项目中做出明智选择。

第五编 现代应用与未来方向:探讨 LLM Agent 时代的架构演进、神经符号融合、多 Agent 系统架构、伦理与安全考量,展望未来发展方向。

"从反应式的'感知→行动',到慎思式的'感知→建模→规划→行动',再到混合式的'分层集成',Agent 架构的演进反映了 AI 对智能本质理解的不断深化。智能不是单一的能力,而是多层次、多机制的协同。"
—— 本书结语预告

—— 作者

2026 年 3 月 9 日 于数字世界

谨以此书献给 Rodney Brooks、Anand Rao、Michael Georgeff 等架构先驱

第 2 章 Subsumption 架构:包容式层级设计

2.1 Subsumption 架构的革命性思想

1986 年,Rodney Brooks 发表了划时代论文《A Robust Layered Control System for a Mobile Robot》,提出了Subsumption Architecture(包容式架构/层进式架构),彻底颠覆了传统 AI 的"感知 - 建模 - 规划 - 行动"范式。

Brooks 的核心洞察:传统 AI 的符号表征和复杂推理是"不必要的中间层"。真正的智能源于与环境的直接交互,通过简单的感知 - 行动规则(行为)的层级组织实现。

2.2 Subsumption 架构的核心原则

原则一:无内部世界模型(No World Model)

  • 传统 AI:维护精确的内部世界模型,基于模型推理
  • Subsumption:世界本身就是最好的模型(The world is its own best model)
  • Agent 直接从传感器读取信息,无需维护内部表征
  • 优势:避免模型误差、减少计算开销、实时响应

原则二:感知 - 行动直接映射(S→R)

  • 行为(Behavior)是感知到行动的映射函数
  • 形式化:Behavior: Perception → Action
  • 每个行为是简单的、模块化的、可独立测试的
  • 示例:避障行为 = if 前方有障碍物 then 转向

原则三:层级包容(Subsumption)

  • 行为按层级组织,高层行为可以"包容"(抑制或覆盖)低层行为
  • 低层:基本生存行为(如避障、漫游)
  • 中层:目标导向行为(如探索、导航)
  • 高层:复杂社会行为(如协作、通信)
  • 高层通过抑制信号控制低层,而非直接命令

原则四:增量式开发(Incremental Development)

  • 从最简单的行为层开始(Level 0)
  • 逐层添加更复杂的行为
  • 每层可独立测试,确保鲁棒性
  • 新增层不影响已有层的功能

2.3 Subsumption 架构的形式化模型

Subsumption 架构形式化定义
Subsumption 架构定义为层级结构:

Architecture = (L₀, L₁, L₂, ..., Lₙ)

每个层级 Lᵢ 包含:
  • 行为集合:Bᵢ = {bᵢ₁, bᵢ₂, ..., bᵢₘ}
  • 输入信号:Iᵢ(来自传感器或低层)
  • 输出信号:Oᵢ(到执行器或高层)
  • 抑制信号:Sᵢ(到/从其他层)

行为 b 的定义:
  b: (I, S) → (O, S')
  
  其中:
  • I: 输入感知
  • S: 抑制信号(来自高层)
  • O: 输出行动
  • S': 抑制信号(发送到低层)

层级间关系:
  • 低层 Lᵢ 的输出可作为高层 Lⱼ (j>i) 的输入
  • 高层 Lⱼ 可发送抑制信号 S 到低层 Lᵢ
  • 抑制机制:
    - 如果 S(b) = true,则行为 b 被抑制(不执行)
    - 高层行为优先于低层行为

执行语义:
  1. 所有层并行运行
  2. 每个行为独立计算输出
  3. 抑制信号决定哪些输出被屏蔽
  4. 最终行动 = 未被抑制的最高优先级输出
                    

2.4 Subsumption 架构的经典实现

案例:Herbert 机器人(Brooks, 1989)

Herbert 是一个在办公室环境中收集空可乐罐的机器人,使用 Subsumption 架构实现:

Herbert 的行为层级

Level 0
随机漫游:无目的地移动,避免碰撞。行为:if 前方无障碍 then 前进 else 随机转向
Level 1
避障:检测并避开障碍物。行为:if 超声波传感器检测到障碍 then 转向(抑制 Level 0 的前进)
Level 2
沿墙行走:沿着墙壁移动。行为:if 检测到墙 then 保持与墙平行(抑制 Level 0 的随机转向)
Level 3
检测罐子:识别可乐罐。行为:if 视觉系统检测到罐子 then 朝向罐子移动(抑制 Level 2)
Level 4
抓取罐子:接近并抓取罐子。行为:if 距离罐子<30cm then 伸出机械臂抓取(抑制 Level 3)
Level 5
寻找出口:找到门口离开房间。行为:if 持有罐子 and 检测到门 then 向门移动(抑制 Level 4)

2.5 Subsumption 架构的优势

优势维度 具体表现 实际效果
响应速度 感知直接映射到行动,无推理延迟 毫秒级响应,适合实时任务
鲁棒性 分布式行为,单点故障不影响整体 传感器失效时仍能基本运作
可维护性 模块化行为,独立测试与调试 新增功能不影响已有功能
可扩展性 增量式添加行为层 从简单到复杂逐步进化
实现简单 无需复杂推理引擎 有限计算资源下也能运行
环境适应 直接感知环境变化 动态环境中表现优异

2.6 Subsumption 架构的局限性

局限一:无法处理需要规划的任务

  • 问题:Subsumption 只有反应,没有前瞻
  • 示例:无法完成"先去 A 点取钥匙,再去 B 点开门"的多步骤任务
  • 原因:缺乏内部状态和目标表征

局限二:行为冲突难以解决

  • 问题:多个行为可能产生冲突输出
  • 示例:避障行为要求左转,导航行为要求右转
  • 解决:依赖抑制机制,但抑制规则设计复杂

局限三:难以实现复杂目标导向行为

  • 问题:缺乏长期目标维持机制
  • 示例:无法在干扰下坚持长期目标(如"收集 10 个罐子")
  • 原因:没有意图(Intention)表征

局限四:行为层数增加导致复杂度爆炸

  • 问题:层间抑制关系呈指数增长
  • 示例:10 层架构可能有 C(10,2)=45 种抑制关系
  • 结果:调试和理解变得极其困难
"Subsumption 架构的伟大之处在于它证明了:复杂智能行为可以从简单行为的层级组织中涌现。但它的局限也在于此:没有内部表征和推理,智能的上限被锁死在反应层面。"
—— 本书评析

2.7 Subsumption 架构的现代影响

尽管 Subsumption 架构有局限,但其思想深刻影响了后续 AI 发展:

  • 行为机器人学:奠定了现代行为机器人学基础
  • 混合架构:作为反应层被集成到混合架构中
  • 强化学习:S→R 映射与 RL 的策略函数同构
  • 端到端学习:深度学习的感知→行动映射是 Subsumption 的现代版本
  • LLM Agent:某些简单 Agent 仍使用反应式工具调用

2.8 本章小结

本章详解了 Subsumption 架构。关键要点:

  • 四大原则:无内部模型、S→R 映射、层级包容、增量开发
  • 形式化模型:层级结构、行为定义、抑制机制
  • 经典案例:Herbert 机器人的六层行为架构
  • 六大优势:快速、鲁棒、可维护、可扩展、简单、适应性强
  • 四大局限:无法规划、行为冲突、缺乏长期目标、复杂度爆炸
  • 现代影响:行为机器人学、混合架构、强化学习、端到端学习

第 5 章 BDI 架构:信念 - 愿望 - 意图模型

5.1 BDI 架构的哲学渊源

BDI(Belief-Desire-Intention)架构源于哲学中的实践推理(Practical Reasoning)理论,特别是 Michael Bratman 的意图理论。1988 年,Anand Rao 和 Michael Georgeff 将这一哲学理论形式化为计算架构,开创了慎思式 Agent 的新纪元。

Bratman 的核心洞察(1987):意图(Intention)不仅仅是愿望(Desire),而是对行动的承诺(Commitment)。这种承诺具有持续性、一致性和手段 - 端协调的特性,是有限理性 Agent 在复杂环境中有效行动的关键。

5.2 BDI 三元组的形式化定义

🔵 信念(Belief)

定义:Agent 对世界状态的认知表示(可能为假、不完备)。

特征:

  • 信息性:描述世界"是什么"
  • 可能为假:信念不一定是真理
  • 动态更新:通过感知和推理更新
  • 不完备:Agent 不可能知道一切

形式化:B(φ) 表示"Agent 相信φ为真"

示例:B(前方有障碍物)、B(电池电量低)

🟡 愿望(Desire)

定义:Agent 希望达成的状态或目标(可能冲突、不现实)。

特征:

  • 动机性:提供行动的理由
  • 可能冲突:多个愿望可能互斥
  • 不现实:可能无法实现
  • 无承诺:愿望不等于行动

形式化:D(φ) 表示"Agent 希望φ为真"

示例:D(到达目的地)、D(节省能源)

🟣 意图(Intention)

定义:Agent 承诺追求的目标(经过选择、一致的愿望)。

特征:

  • 承诺性:对行动的坚定承诺
  • 一致性:意图之间必须一致
  • 持续性:一旦形成,会持续追求
  • 手段 - 端协调:会制定计划实现意图

形式化:I(φ) 表示"Agent 意图使φ为真"

示例:I(走路径 A 到达目的地)

5.3 BDI 架构的逻辑公理系统

BDI 逻辑公理系统(Rao & Georgeff, 1991)
BDI 逻辑基于模态逻辑,包含以下公理:

一、信念逻辑(KD45 系统):
  K: B(φ→ψ) → (B(φ)→B(ψ))      // 信念对推理封闭
  D: B(φ) → ¬B(¬φ)               // 信念一致
  4: B(φ) → B(B(φ))              // 正内省
  5: ¬B(φ) → B(¬B(φ))            // 负内省

二、愿望逻辑(较弱的模态系统):
  K: D(φ→ψ) → (D(φ)→D(ψ))
  D: D(φ) → ¬D(¬φ)               // 愿望一致
  (无内省公理,Agent 可能不知道自己愿望)

三、意图逻辑:
  K: I(φ→ψ) → (I(φ)→I(ψ))
  D: I(φ) → ¬I(¬φ)               // 意图一致
  (意图具有更强的承诺性)

四、交互公理(关键):
  I1: I(φ) → D(φ)                // 意图一定是愿望
  I2: I(φ) → B(◇φ)               // 意图必须是可实现的
  I3: I(φ) → ¬D(¬φ)              // 意图不与愿望冲突
  I4: I(φ) → I(I(φ))             // 意图的自反性(知道自己意图)

五、理性约束:
  • 信念 - 愿望一致:B(φ) ∧ D(ψ) → ¬(φ→¬ψ)
  • 愿望 - 意图一致:D(φ) ∧ I(ψ) → ¬(φ→¬ψ)
  • 手段 - 端协调:I(φ) → ∃计划 P 使得 P 实现φ
                    

5.4 BDI Agent 的执行循环

BDI Agent 执行循环
算法:BDI Agent 主循环

输入:
  • 初始信念 B₀
  • 初始愿望 D₀
  • 计划库 PlanLibrary

过程:
  while true:
    1. 【感知】观察环境,获取感知 o
    2. 【信念更新】B ← UpdateBeliefs(B, o)
       // 基于新感知更新信念
    
    3. 【愿望生成】D ← GenerateOptions(B, D)
       // 基于当前信念生成候选愿望
    
    4. 【意图形成】I ← FilterIntentions(B, D, I)
       // 从愿望中选择一致的、可实现的作为意图
       // 考虑:可行性、效用、与现有意图一致性
    
    5. 【计划选择】P ← SelectPlan(B, I, PlanLibrary)
       // 为每个意图选择合适的计划
       // 计划 = 行动序列 [a₁, a₂, ..., aₙ]
    
    6. 【计划执行】Execute(P)
       // 执行计划中的行动
       // 监控执行,处理意外
    
    7. 【意图修正】
       if 计划失败 or 意图已实现 or 意图不再可行:
         I ← DropIntention(I)
         // 放弃该意图,重新 deliberation

关键特性:
  • 持续性:意图一旦形成,会持续追求
  • 动态性:根据环境变化调整信念和意图
  • 一致性:保持信念 - 愿望 - 意图的逻辑一致
                    

5.5 BDI 架构的实现系统

系统 年代 特点 应用领域
PRS (Procedural Reasoning System) 1989 第一个 BDI 实现,计划库驱动 NASA 航天器控制
dMARS 1996 分布式 BDI,支持多 Agent 空中交通管制
AgentSpeak(L) 1996 声明式 BDI 编程语言 教学与研究
Jason 2007 AgentSpeak 解释器,开源 多 Agent 系统研究
JACK 2000s 商业 BDI 平台,Java 集成 企业应用、国防
SPADE 2010s Python BDI 框架,XMPP 通信 物联网、智能电网

5.6 BDI 架构的优势

  • 可解释性强:信念 - 愿望 - 意图清晰可追溯,决策透明
  • 目标导向:意图提供长期目标维持,支持复杂任务
  • 灵活性:动态调整信念和意图,适应环境变化
  • 形式化基础:严格的逻辑语义,支持形式验证
  • 人类对齐:BDI 三元组符合人类实践推理直觉
  • 多 Agent 友好:易于扩展为社会推理(信任、承诺、规范)

5.7 BDI 架构的局限性

  • 计算复杂:信念更新、意图形成、计划选择都是 NP-hard 问题
  • 响应慢:慎思过程耗时,不适合实时任务
  • 知识工程瓶颈:需要手工构建信念规则、计划库,成本高
  • 环境假设强:假设环境部分可观测、变化不太快
  • 学习能力弱:传统 BDI 缺乏从经验中学习的能力

5.8 本章小结

本章详解了 BDI 架构。关键要点:

  • BDI 三元组:信念(认知)、愿望(动机)、意图(承诺)
  • 形式化基础:模态逻辑公理系统(KD45 信念、愿望逻辑、意图逻辑)
  • 执行循环:感知→信念更新→愿望生成→意图形成→计划选择→执行
  • 实现系统:PRS、dMARS、AgentSpeak、Jason、JACK、SPADE
  • 优势:可解释、目标导向、灵活、形式化、人类对齐
  • 局限:计算复杂、响应慢、知识工程瓶颈、学习能力弱

第 9 章 分层架构:反应层与慎思层的集成

9.1 分层架构的设计哲学

分层架构(Layered Architecture)是混合式 Agent 最主流的范式,其核心思想是:将反应层和慎思层组织为垂直层级,高层负责长期规划,低层负责快速响应

分层架构的核心洞察:智能不是单一机制,而是多层次能力的协同。低层提供快速、鲁棒的反应能力,高层提供深度、长远的规划能力。两者通过层间接口协调,实现"快速且深思熟虑"的决策。

9.2 经典分层架构:3T 架构

3T 架构概述

3T(Three-Tier)架构由 Bonasso 等人(1997)提出,是机器人领域最成功的混合架构之一。它将 Agent 分为三层:

3T 架构三层结构
┌─────────────────────────────────────────┐
│           慎思层 (Deliberative)         │
│  • 功能:长期规划、目标管理、推理       │
│  • 时间尺度:秒到分钟                   │
│  • 技术:BDI、规划器、世界模型          │
│  • 输出:任务序列(Task Sequence)      │
└─────────────────────────────────────────┘
                    │
                    │ 任务分解
                    ▼
┌─────────────────────────────────────────┐
│           执行层 (Executive)            │
│  • 功能:任务调度、监控、异常处理       │
│  • 时间尺度:100 毫秒到秒                │
│  • 技术:有限状态机、Petri 网            │
│  • 输出:技能调用序列(Skill Sequence) │
└─────────────────────────────────────────┘
                    │
                    │ 技能触发
                    ▼
┌─────────────────────────────────────────┐
│           反应层 (Reactive)             │
│  • 功能:实时控制、避障、稳定           │
│  • 时间尺度:毫秒级                     │
│  • 技术:Subsumption、PID 控制           │
│  • 输出:电机命令(Motor Commands)     │
└─────────────────────────────────────────┘
                    │
                    ▼
              物理世界(传感器/执行器)

层间通信:
  • 自上而下:任务分解、目标设定
  • 自下而上:状态报告、异常通知
  • 双向:监控与调整
                    

3T 架构各层详解

第一层:反应层(Reactive Layer)
  • 职责:实时控制,确保机器人基本生存(如避障、保持平衡)
  • 实现:Subsumption 行为、PID 控制器、反射弧
  • 特点:无内部状态、感知→行动直接映射、毫秒级响应
  • 示例:if 激光雷达检测到障碍<0.5m then 紧急停止
第二层:执行层(Executive Layer)
  • 职责:任务级调度,将高层任务分解为技能序列,监控执行
  • 实现:有限状态机(FSM)、Petri 网、行为树
  • 特点:有短期状态、处理任务间协调、百毫秒级响应
  • 示例:执行"导航到 A 点"任务:启动定位→规划路径→跟踪路径→到达检测
第三层:慎思层(Deliberative Layer)
  • 职责:长期规划,维护世界模型,生成任务序列
  • 实现:BDI 架构、PDDL 规划器、SLAM 建图
  • 特点:有完整世界模型、支持复杂推理、秒到分钟级响应
  • 示例:规划"探索整个大楼"任务:分解为逐层探索、标记已探索区域

9.3 分层架构的层间协调机制

机制一:任务分解(Task Decomposition)

慎思层将抽象目标分解为具体任务,传递给执行层:

任务分解示例
慎思层目标:
  "收集所有房间的垃圾"

任务分解(慎思层→执行层):
  Task 1: 导航到房间 A
  Task 2: 检测并抓取垃圾
  Task 3: 导航到垃圾桶
  Task 4: 丢弃垃圾
  Task 5: 导航到房间 B
  ...

执行层进一步分解(执行层→反应层):
  Task 1.1: 启动定位系统
  Task 1.2: 规划到房间 A 的路径
  Task 1.3: 执行路径跟踪
  Task 1.4: 检测到达

反应层执行:
  Skill 1.3.1: if 偏离路径 then 调整方向
  Skill 1.3.2: if 前方障碍 then 避障
  Skill 1.3.3: 保持速度 0.5m/s
                        

机制二:异常处理(Exception Handling)

低层检测到异常时,向上层报告,触发重新规划:

异常处理流程
正常流程:
  慎思层 → 任务 → 执行层 → 技能 → 反应层 → 执行

异常场景:路径被阻塞

异常处理:
  1. 反应层检测到障碍,尝试避障失败
  2. 反应层 → 执行层:报告"路径阻塞"异常
  3. 执行层 → 慎思层:报告"任务失败"
  4. 慎思层:重新规划路径
  5. 慎思层 → 执行层:新任务"走备用路径"
  6. 执行层 → 反应层:新技能序列

关键设计:
  • 异常分类:可恢复异常 vs 不可恢复异常
  • 异常传播:哪些异常需要上报,哪些本地处理
  • 恢复策略:重试、替代方案、放弃任务
                        

机制三:监控与中断(Monitoring & Interruption)

高层监控低层执行,必要时中断并接管:

  • 定期监控:执行层定期向慎思层报告进度
  • 关键事件监控:任务完成、失败、资源不足等事件立即上报
  • 中断机制:慎思层可中断当前任务,插入更高优先级任务
  • 示例:机器人正在导航,慎思层收到"电量低"警报,中断导航任务,插入"返回充电"任务

9.4 分层架构的优势

优势维度 具体表现 实际效果
兼顾速度与深度 反应层快速响应,慎思层深度规划 既能在毫秒级避障,又能完成复杂任务
模块化设计 各层独立开发、测试、维护 降低系统复杂度,便于团队协作
可解释性 决策过程分层追溯 易于调试和验证
适应性 反应层处理快速变化,慎思层处理长期趋势 在动态环境中表现稳健
可扩展性 可添加中间层或扩展各层功能 支持系统演进
工程成熟 3T 等架构经过 30 年实践验证 大量成功案例和工具支持

9.5 分层架构的挑战

  • 层间接口设计困难:如何定义清晰的任务/技能接口?
  • 时序协调复杂:不同时间尺度的层如何同步?
  • 信息流管理:哪些信息需要跨层传递?如何避免信息过载?
  • 冲突解决:当反应层和慎思层指令冲突时,谁优先?
  • 调试困难:跨层 bug 难以定位和复现
"分层架构的智慧在于:它承认智能的层次性。低层提供生存的基础,高层提供发展的可能。没有低层,高层是空中楼阁;没有高层,低层是无头苍蝇。"
—— 本书评析

9.6 本章小结

本章详解了分层混合架构。关键要点:

  • 设计哲学:垂直分层,高层规划、低层反应
  • 经典案例:3T 架构(慎思层、执行层、反应层)
  • 层间协调:任务分解、异常处理、监控与中断
  • 六大优势:兼顾速度与深度、模块化、可解释、适应性、可扩展、工程成熟
  • 五大挑战:接口设计、时序协调、信息流管理、冲突解决、调试困难

第 15 章 LLM Agent 时代的架构演进

15.1 LLM Agent 的架构特征

2023 年以来,以大语言模型(LLM)为核心的 Agent 系统兴起,带来了 Agent 架构的新范式。LLM Agent 既不是纯粹的反应式,也不是传统的慎思式,而是一种新型的混合架构

LLM Agent 的核心创新:LLM 作为"通用推理引擎",统一了感知理解、决策规划、行动生成。LLM 既是"大脑"(慎思),又是"接口"(反应),实现了前所未有的架构统一。

15.2 LLM Agent 的典型架构模式

模式一:ReAct 架构(Reason + Act)

ReAct(Yao et al., 2023)将推理和行动交织在一起,形成交替循环:

ReAct 架构执行流程
输入:用户任务"查询北京天气并告诉我的朋友"

ReAct 循环:
  Thought 1: 我需要先查询北京天气,然后找到朋友的联系方式,最后发送消息
  Action 1: 调用 weather_api("北京")
  Observation 1: "北京,晴,25°C"
  
  Thought 2: 天气查询完成,现在需要找到朋友的联系方式
  Action 2: 查询数据库 SELECT phone FROM contacts WHERE name="朋友"
  Observation 2: "138xxxx1234"
  
  Thought 3: 现在我有了天气和电话号码,可以发送短信了
  Action 3: 调用 sms_api("138xxxx1234", "北京今天晴,25°C")
  Observation 3: "短信发送成功"
  
  Thought 4: 任务完成
  Final Answer: "已查询北京天气(晴,25°C)并发送给朋友"

架构特点:
  • Thought:LLM 内部推理(慎思)
  • Action:调用外部工具(反应)
  • Observation:环境反馈(感知)
  • 循环:Thought→Action→Observation→Thought...
                        

模式二:分层 LLM 架构

将 LLM 部署在不同层级,形成类似 3T 的分层结构:

分层 LLM 架构
┌─────────────────────────────────────────┐
│      慎思层:LLM Planner                │
│  • 大模型(如 GPT-4)                    │
│  • 功能:任务分解、长期规划              │
│  • 输入:用户目标                        │
│  • 输出:任务序列 [Task₁, Task₂, ...]   │
└─────────────────────────────────────────┘
                    │
                    ▼
┌─────────────────────────────────────────┐
│      执行层:LLM Executor               │
│  • 中等模型(如 GPT-3.5)                │
│  • 功能:任务调度、工具选择              │
│  • 输入:单个任务                        │
│  • 输出:工具调用序列                    │
└─────────────────────────────────────────┘
                    │
                    ▼
┌─────────────────────────────────────────┐
│      反应层:规则/小模型                 │
│  • 规则引擎或小模型(如 TinyLLM)        │
│  • 功能:实时控制、安全监控              │
│  • 输入:传感器数据                      │
│  • 输出:紧急干预命令                    │
└─────────────────────────────────────────┘

优势:
  • 成本优化:大模型只做高层规划,减少调用
  • 延迟优化:低层快速响应,无需等待 LLM
  • 安全增强:反应层作为安全护栏
                        

模式三:多 Agent 协作架构

多个 LLM Agent 分工协作,每个 Agent 负责特定子任务:

  • Planner Agent:负责任务分解和规划
  • Executor Agent:负责执行具体任务
  • Critic Agent:负责审查和纠错
  • Memory Agent:负责记忆管理
  • Coordinator Agent:负责协调各 Agent
"多 Agent 架构的本质是:将单一 LLM 的认知负荷分散到多个专业化 Agent,通过协作实现更复杂的目标。这是'分而治之'策略在 LLM 时代的新体现。"

15.3 LLM Agent 与传统架构的对比

维度 反应式架构 BDI 慎思式 传统混合式 LLM Agent
决策机制 S→R 映射 BDI 推理 分层协调 LLM 生成
知识表示 无内部模型 符号逻辑 混合表示 神经网络权重
规划能力 强(符号规划) 中等 强(神经规划)
响应速度 毫秒级 秒到分钟 百毫秒到秒 秒级(依赖 API)
灵活性 低(固定行为) 中(计划库) 中高 极高(零样本)
可解释性 高(规则透明) 高(逻辑可追溯) 中高 中(Thought 链)
开发成本 高(知识工程) 中(Prompt 工程)
学习能力 无/强化学习 强(预训练 + 微调)

15.4 LLM Agent 架构的挑战

  • 幻觉问题:LLM 可能生成错误的信念和计划
  • 上下文限制:有限的上下文窗口限制了长期规划能力
  • 成本问题:频繁调用 LLM API 成本高昂
  • 延迟问题:LLM 推理延迟高,不适合实时任务
  • 安全问题:LLM 可能被注入攻击,产生危险行为
  • 一致性维护:多轮对话中保持信念和意图的一致性困难

15.5 未来方向:神经符号融合架构

展望未来,Agent 架构的发展趋势是神经符号融合(Neuro-Symbolic Integration):

  • LLM + 符号推理:LLM 负责感知和生成,符号系统负责逻辑验证
  • LLM + BDI:用 LLM 增强 BDI 的信念更新和计划生成
  • LLM + 反应层:LLM 高层规划 + 传统反应层实时控制
  • 可验证 LLM:形式化方法验证 LLM 决策的正确性
  • 持续学习:LLM Agent 从经验中持续学习,更新知识和策略
"从 1986 年 Brooks 的反应式革命,到 1990 年代 BDI 的慎思式兴起,再到 2020 年代 LLM Agent 的神经符号融合,Agent 架构的 40 年演进告诉我们:没有'最好'的架构,只有'最合适'的架构。未来的架构,必然是多元融合、因需而变的。"
—— 全书结语

15.6 本章小结

本章探讨了 LLM Agent 时代的架构演进。关键要点:

  • LLM Agent 特征:LLM 作为通用推理引擎,统一感知、决策、行动
  • 典型模式:ReAct、分层 LLM、多 Agent 协作
  • 与传统架构对比:灵活性极高,但成本、延迟、幻觉是挑战
  • 未来方向:神经符号融合、LLM+BDI、可验证 LLM、持续学习

参考文献与延伸阅读(1986-2026)

反应式架构经典(1986-2000)

  1. Brooks, R. A. (1986). "A Robust Layered Control System for a Mobile Robot." IEEE Journal of Robotics and Automation, 2(1), 14-23.
  2. Brooks, R. A. (1991). "Intelligence without Representation." Artificial Intelligence, 47(1-3), 139-159.
  3. Maes, P. (1989). "The Dynamics of Action Selection." IJCAI-89.
  4. Connell, J. H. (1990). "Minimalist Mobile Robotics." Academic Press.

慎思式架构经典(1990-2010)

  1. Rao, A. S., & Georgeff, M. P. (1991). "Modeling Rational Agents within a BDI-Architecture." KR-91.
  2. Bratman, M. E. (1987). "Intention, Plans, and Practical Reason." Harvard University Press.
  3. Georgeff, M., et al. (1999). "The Belief-Desire-Intention Model of Agency." ATAL-98.
  4. Laird, J. E. (2012). "The Soar Cognitive Architecture." MIT Press.
  5. Bordini, R. H., Hübner, J. F., & Wooldridge, M. (2007). "Programming Multi-Agent Systems in AgentSpeak Using Jason." Wiley.

混合式架构经典(1990-2020)

  1. Nilsson, N. J. (1994). "Teleo-Reactive Programs for Agent Control." JAIR.
  2. Gat, E. (1998). "Reliable Goal-Directed Reactive Control of Autonomous Mobile Robots." PhD Thesis, Virginia Tech.
  3. Bonasso, R. P., et al. (1997). "Experiences with an Architecture for Intelligent, Reactive Agents." JETAI.
  4. Arkin, R. C. (1998). "Behavior-Based Robotics." MIT Press.

LLM Agent 与现代架构(2023-2026)

  1. Yao, S., et al. (2023). "ReAct: Synergizing Reasoning and Acting in Language Models." ICLR 2023.
  2. Xi, Z., et al. (2025). "The Rise and Potential of Large Language Model Based Agents: A Survey." Science China Information Sciences.
  3. Weng, L. (2023). "LLM Powered Autonomous Agents." Lil'Log Blog.
  4. Bui, N. D. Q. (2026). "Building AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned." arXiv:2603.05344.