🟡 愿望
🟠 意图
🔵 目标

目标驱动 Agent 的意图建模与任务理解

从哲学意图论到 LLM Agent 的任务解析

🟡 愿望 (Desire) 希望达成的状态
可能冲突
无承诺
🟠 意图 (Intention) 承诺追求的目标
一致性约束
持续性
🔵 目标 (Goal) 具体化意图
可操作任务
可衡量
作者 超级代码智能体
版本 意图建模版 · 第一版
出版日期 2026 年 3 月
全书规模 五编十五章
学科跨度 哲学·逻辑·认知·AI

📖 全书目录

第一编 意图的理论基础

序言:意图——智能的核心

在人类智能的奥秘中,意图(Intention)始终是最核心、最神秘的概念之一。是什么让人类能够设定目标、制定计划、坚持行动?是什么让简单的生物反应升华为有目的的行为?答案在于意图。

本书的核心问题:如何将人类的意图能力赋予 AI Agent?如何形式化建模意图?如何让 Agent 理解复杂任务、形成坚定意图、执行长期计划?这不仅是技术问题,更是关乎智能本质的深刻问题。

意图:从哲学到 AI 的跨越

意图概念的研究跨越了 2000 多年:

意图理论的历史演进

公元前 4 世纪
亚里士多德在《尼各马可伦理学》中提出"实践推理"(Practical Reasoning)概念,区分愿望(Boulēsis)与选择(Prohairesis)
1987
Michael Bratman发表《Intention, Plans, and Practical Reason》,提出现代意图理论:意图是对行动的承诺
1991
Rao & Georgeff将 Bratman 理论形式化为 BDI 逻辑,开创计算意图建模新纪元
2023-2026
LLM Agent兴起,意图建模进入神经符号融合新时代,任务理解能力革命性突破

意图、愿望与目标的本质区别

🟡 愿望 (Desire)

定义:Agent 希望达成的状态或目标。

特征:

  • 可能冲突:多个愿望可能互斥(如"省钱"与"旅行")
  • 不现实:可能无法实现(如"永生")
  • 无承诺:愿望不等于行动(我可以希望健康但不锻炼)
  • 无限性:可以有无数个愿望

示例:"我希望身体健康"、"我希望赚很多钱"

🟠 意图 (Intention)

定义:Agent 承诺追求的目标(经过选择的愿望)。

特征:

  • 承诺性:对行动的坚定承诺(我决定每天锻炼)
  • 一致性:意图之间必须一致(不能同时意图 A 和非 A)
  • 持续性:一旦形成,会持续追求直到完成或放弃
  • 有限性:只能维持有限数量的意图

示例:"我意图每天跑步 30 分钟"、"我意图今年完成这个项目"

🔵 目标 (Goal)

定义:具体化、可操作的意图。

特征:

  • 具体性:明确定义成功标准
  • 可操作性:可以分解为具体行动
  • 可衡量:可以判断是否达成
  • 时限性:通常有时间约束

示例:"在 2026 年 6 月前完成马拉松训练"、"本周内完成报告"

"意图不仅仅是愿望,而是对行动的承诺。这种承诺具有持续性、一致性和手段 - 端协调的特性,是有限理性 Agent 在复杂环境中有效行动的关键。"
—— Michael Bratman (1987)

为什么意图建模对 AI 至关重要?

  • 长期目标维持:没有意图,Agent 无法在干扰下坚持长期目标
  • 资源分配:意图帮助 Agent 在多个候选行动中做出选择
  • 协调性:意图确保 Agent 的行动在时间上协调一致
  • 社会交互:意图是理解他人行为、进行协作的基础
  • 可解释性:意图提供了解释 Agent 行为的框架

本书结构

第一编 意图的理论基础:追溯意图概念的哲学渊源,从亚里士多德的实践推理到 Bratman 的现代意图理论,辨析意图与愿望、目标、计划的关系,探讨认知科学中的人类意图形成机制。

第二编 意图的形式化模型:建立意图的逻辑形式化体系,包括 BDI 逻辑中的意图公理、动态逻辑与时间语义、承诺模型与坚持策略、多 Agent 系统中的意图共享与协调。

第三编 任务理解与表示:探讨任务的本体论与分类、自然语言指令的理解与解析、任务分解与层次化表示、任务约束与可行性分析,为意图的具体化提供技术基础。

第四编 目标驱动 Agent 架构:设计完整的意图形成机制、目标驱动的计划生成与执行系统、意图修正与动态重规划策略,实现从理论到实践的转化。

第五编 现代应用与未来方向:探讨 LLM Agent 时代的意图建模新范式,包括 ReAct 架构中的意图推理、LLM 的任务理解能力、神经符号融合的意图建模,展望未来发展方向。

"意图是智能的灵魂。没有意图,Agent 只是被动的反应机器;有了意图,Agent 才成为主动的目标追求者。理解意图,就是理解智能的核心。"
—— 本书核心洞察

—— 作者

2026 年 3 月 9 日 于数字世界

谨以此书献给 Michael Bratman、Anand Rao、Michael Georgeff 等意图理论先驱

第 2 章 意图与相关概念的辨析:愿望、目标、计划

2.1 意图 vs 愿望:承诺的分野

意图与愿望的根本区别在于承诺(Commitment)。这是 Bratman 意图理论的核心洞察。

愿望的特征

  • 无承诺性:我可以希望健康,但从不锻炼
  • 允许冲突:我可以同时希望"吃美食"和"减肥",尽管两者冲突
  • 无需手段 - 端协调:我可以希望"环游世界",但从不制定计划或采取行动
  • 无限性:我可以有无数个愿望,不受认知资源限制

意图的特征

  • 承诺性:意图意味着对行动的承诺,我会实际去做
  • 一致性约束:我不能同时意图 A 和非 A(如"每天锻炼"和"从不运动")
  • 手段 - 端协调:如果意图 E,且相信 M 是实现 E 的必要手段,那么我会意图 M
  • 有限性:由于认知资源有限,我只能维持有限数量的意图

关键洞察:从愿望到意图的转化是一个筛选过程。Agent 有无数愿望,但只能选择其中一部分作为意图。这个筛选过程考虑:可行性、一致性、优先级、资源约束。

2.2 意图 vs 目标:抽象与具体的连续谱

意图与目标的关系更为微妙。两者都涉及承诺,但抽象程度不同:

意图 - 目标连续谱
抽象程度高 ←──────────────────────────→ 具体程度高

愿望 (Desire)
  "我希望健康"
  ↓ 筛选与承诺
意图 (Intention)
  "我意图保持健康"
  ↓ 具体化
目标 (Goal)
  "我意图在 2026 年 6 月前减重 10kg"
  ↓ 操作化
子目标 (Sub-goal)
  "每周运动 5 次,每次 30 分钟"
  "每天摄入热量控制在 1800 卡"
  ↓ 行动
计划 (Plan)
  "周一:跑步 30 分钟"
  "周二:游泳 30 分钟"
  ...

关键区别:
  • 意图:承诺的方向性陈述("我要做什么")
  • 目标:具体化、可衡量的意图("做到什么程度")
  • 计划:实现目标的具体行动序列("如何做")
                    

2.3 意图 vs 计划:承诺与手段

意图与计划的关系是目的与手段的关系:

  • 意图:承诺追求的状态("我意图完成这个项目")
  • 计划:实现意图的行动序列("第一周需求分析,第二周设计...")
  • 关系
    • 意图是计划的驱动力(为什么做)
    • 计划是意图的实现路径(如何做)
    • 一个意图可以有多个候选计划
    • 计划失败时,可以更换计划但保持意图
"意图是'我要去哪里',计划是'我如何到达那里'。没有意图,计划失去方向;没有计划,意图只是空想。"
—— 本书评析

2.4 意图的逻辑特性

特性一:一致性(Consistency)

意图必须内部一致,不能自相矛盾:

  • 有效:I(完成项目) ∧ I(保证质量)
  • 无效:I(完成项目) ∧ I(不花任何时间)

特性二:持续性(Persistence)

意图一旦形成,会持续存在直到:

  • 意图实现(成功)
  • 意图被判定为不可实现(失败)
  • 意图被更高优先级意图取代(重新考虑)

特性三:手段 - 端协调(Means-End Coherence)

如果 Agent 意图 E,且相信 M 是实现 E 的必要手段,那么 Agent 会意图 M:

形式化:
  I(E) ∧ B(M → E) ∧ B(¬M → ¬E) → I(M)
  
示例:
  意图:I(通过考试)
  信念:B(学习 → 通过考试) ∧ B(不学习 → 不通过)
  推导:I(学习)
  
这是实践推理的核心机制
                    

特性四:有限性(Boundedness)

由于认知资源有限,Agent 只能维持有限数量的意图:

  • 人类工作记忆限制:7±2 个组块
  • AI Agent 的上下文窗口限制
  • 计算资源限制
  • 需要意图优先级排序和选择机制

2.5 意图形成的理性约束

Bratman 提出,理性 Agent 的意图形成必须满足以下约束:

约束类型 形式化表述 示例
信念 - 意图一致 I(φ) → B(◇φ) 不能意图相信不可能的事
意图 - 意图一致 I(φ) ∧ I(ψ) → ¬(φ→¬ψ) 不能同时意图矛盾的目标
手段 - 端协调 I(E) ∧ B(M 是必要手段) → I(M) 意图目的就要意图手段
意图闭合 I(φ) ∧ B(φ→ψ) → I(ψ) 意图的逻辑后果也应是意图
资源约束 |{I(φ)}| ≤ N_max 意图数量不能超过认知上限

2.6 本章小结

本章辨析了意图与相关概念。关键要点:

  • 意图 vs 愿望:承诺是分水岭,意图是对行动的承诺
  • 意图 vs 目标:抽象与具体的连续谱,目标是具体化的意图
  • 意图 vs 计划:目的与手段的关系,计划服务于意图
  • 意图四大逻辑特性:一致性、持续性、手段 - 端协调、有限性
  • 意图形成的五大理性约束:信念 - 意图一致、意图间一致、手段 - 端协调、意图闭合、资源约束

第 4 章 BDI 逻辑中的意图形式化

4.1 BDI 逻辑的模态基础

BDI 逻辑(Belief-Desire-Intention Logic)由 Rao 和 Georgeff 于 1991 年提出,基于模态逻辑(Modal Logic)形式化 Agent 的心智状态。

BDI 逻辑的模态算子
BDI 逻辑包含三个核心模态算子:

1. 信念算子 B:
   B(φ) 表示"Agent 相信φ为真"
   逻辑系统:KD45(正规模态逻辑)
   
2. 愿望算子 D:
   D(φ) 表示"Agent 希望φ为真"
   逻辑系统:KD(较弱的模态系统)
   
3. 意图算子 I:
   I(φ) 表示"Agent 意图使φ为真"
   逻辑系统:KD(与愿望相同,但交互公理不同)

模态逻辑基础:
  • K 公理:□(φ→ψ) → (□φ→□ψ)
  • D 公理:□φ → ¬□¬φ(一致性)
  • 4 公理:□φ → □□φ(正内省)
  • 5 公理:¬□φ → □¬□φ(负内省)

BDI 中各算子的公理系统:
  • 信念 B:KD45(完全内省)
  • 愿望 D:KD(无内省)
  • 意图 I:KD(无内省,但有更强的交互约束)
                    

4.2 意图的公理化系统

意图的核心公理

意图公理系统
一、意图的基本公理(KD 系统):

  K_I: I(φ→ψ) → (I(φ)→I(ψ))
       // 意图对逻辑推理封闭
  
  D_I: I(φ) → ¬I(¬φ)
       // 意图一致性:不能同时意图φ和非φ

二、意图 - 愿望交互公理:

  I1: I(φ) → D(φ)
      // 意图一定是愿望(你不会意图你不希望的事)
  
  I2: I(φ) → ¬D(¬φ)
      // 意图不与愿望冲突

三、意图 - 信念交互公理:

  I3: I(φ) → B(◇φ)
      // 意图必须是 Agent 相信可实现的
      // 你不会意图你相信不可能的事
  
  I4: I(φ) → ¬B(¬φ)
      // 意图不与信念冲突

四、意图自反性公理:

  I5: I(φ) → I(I(φ))
      // Agent 知道自己的意图
      // 这是意图与愿望的关键区别

五、手段 - 端协调公理:

  I6: I(E) ∧ B(M 是实现 E 的必要手段) → I(M)
      // 如果意图目的,且相信手段必要,则意图手段

这些公理共同定义了理性意图的逻辑约束
                        

4.3 意图的时间语义

意图具有强烈的时间维度。Rao 和 Georgeff 引入分支时间逻辑(Branching Time Logic)来刻画意图的持续性:

意图的时间语义
分支时间模型:
  • 时间点:离散的时刻 t₀, t₁, t₂, ...
  • 历史(History):从当前时间点出发的可能未来路径
  • 分支:不同选择导致不同未来

意图的持续性语义:

  I(φ) 在时间 t 为真,当且仅当:
  
  1. 当前承诺:Agent 在 t 时刻承诺追求φ
  2. 未来持续:在所有 Agent 认为可能的未来历史中,
     Agent 会持续追求φ,直到:
     • φ实现(成功)
     • φ被判定为不可实现(失败)
     • Agent 重新考虑并放弃φ(重新考虑)

形式化:
  M, t ⊨ I(φ) 当且仅当
  ∀h ∈ Intention_Accessible(t):
    ∃t' ≥ t: M, t' ⊨ φ  // 最终实现
    ∧ ∀t'' (t ≤ t'' < t'): M, t'' ⊨ I(φ)  // 持续承诺

意图的坚持策略:
  • 盲目坚持(Blind Commitment):永不重新考虑
  • 开放坚持(Open-minded Commitment):定期重新考虑
  • 条件坚持(Conditional Commitment):特定条件下重新考虑
                    

4.4 意图形成的形式化模型

意图形成过程

意图形成算法
算法:IntentionFormation

输入:
  • 愿望集合 D = {d₁, d₂, ..., dₙ}
  • 信念集合 B
  • 当前意图集合 I_current
  • 资源约束 R

输出:
  • 新意图集合 I_new

过程:
  1. 【可行性筛选】
     D_feasible ← {d ∈ D | B(◇d)}
     // 只保留相信可实现的愿望
  
  2. 【一致性检查】
     D_consistent ← {d ∈ D_feasible | 
                     ∀i ∈ I_current: ¬(d→¬i)}
     // 只保留与当前意图一致的愿望
  
  3. 【优先级排序】
     Sort D_consistent by Utility(d)
     // 根据效用函数排序
  
  4. 【资源约束选择】
     I_new ← ∅
     for d in D_consistent (按优先级):
       if ResourcesRequired(d) ≤ R:
         I_new ← I_new ∪ {d}
         R ← R - ResourcesRequired(d)
       if |I_new| ≥ MaxIntentions:
         break
  
  5. 【手段 - 端闭包】
     I_final ← CloseMeansEnds(I_new, B)
     // 添加必要手段意图
  
  6. return I_final

关键设计点:
  • 效用函数:如何评估愿望的价值?
  • 资源估计:如何预测意图的资源需求?
  • 重新考虑触发:何时重新评估意图?
                        

4.5 意图的逻辑推理示例

示例:旅行规划的 BDI 推理

BDI 推理示例
场景:Agent 计划去日本旅行

初始状态:
  愿望:
    D(去日本旅行)
    D(节省开支)
  
  信念:
    B(去日本需要 5 万元)
    B(当前存款 3 万元)
    B(每月可存 5000 元)
    B(10 个月后可存够钱)
    B(需要办理签证)
    B(签证需要 2 周时间)

意图形成推理:
  
  步骤 1:可行性筛选
    D(去日本) 可行吗?
    B(◇去日本) = true(10 个月后可实现)
    ∴ 通过筛选
  
  步骤 2:一致性检查
    I(去日本) 与 I(节省开支) 一致吗?
    ¬(去日本 → ¬节省开支) = true
    ∴ 一致(可以既旅行又节省)
  
  步骤 3:手段 - 端协调
    I(去日本) ∧ B(存钱是必要手段) → I(存钱)
    I(去日本) ∧ B(办签证是必要手段) → I(办签证)
  
  步骤 4:计划生成
    意图:I(去日本)
    计划:
      Month 1-10: 每月存 5000 元
      Month 11: 办理签证
      Month 12: 去日本旅行

最终意图集合:
  I(去日本旅行)
  I(每月存 5000 元)
  I(办理签证)
  I(节省开支)
                        

4.6 本章小结

本章详解了 BDI 逻辑中的意图形式化。关键要点:

  • BDI 逻辑基础:信念(KD45)、愿望(KD)、意图(KD)的模态算子
  • 意图公理系统:K_I、D_I、I1-I6 六大公理
  • 意图时间语义:分支时间逻辑中的持续性承诺
  • 意图形成算法:可行性筛选、一致性检查、优先级排序、资源约束选择、手段 - 端闭包
  • BDI 推理示例:旅行规划的五步推理过程

第 9 章 自然语言指令的理解与解析

9.1 自然语言指令的挑战

人类使用自然语言向 Agent 下达指令,但自然语言具有歧义性隐含性上下文依赖性,给任务理解带来巨大挑战。

核心挑战:

  • 歧义性:"帮我订个房间"——什么房间?酒店?会议室?何时?何地?
  • 隐含前提:"我饿了"——隐含意图是"找食物"或"订餐"
  • 上下文依赖:"还是老样子"——需要历史上下文理解
  • 复合指令:"先订机票,然后订酒店,最后通知客户"——需要分解和排序
  • 条件指令:"如果明天下雨,就取消野餐"——需要条件推理

9.2 指令理解的层次模型

指令理解五层次模型
层次 1:词法分析(Lexical Analysis)
  输入:"帮我订明天去北京的机票"
  输出:分词结果 ["帮", "我", "订", "明天", "去", "北京", "的", "机票"]
  
层次 2:句法分析(Syntactic Analysis)
  输出:依存句法树
    订 (ROOT)
    ├─ 帮 (aux)
    ├─ 我 (dative)
    ├─ 机票 (obj)
    │   └─ 北京 (mod)
    │       └─ 去 (verb)
    └─ 明天 (time)
  
层次 3:语义分析(Semantic Analysis)
  输出:语义表示
    Action: BOOK
    Object: FLIGHT_TICKET
    Destination: BEIJING
    Time: TOMORROW
    Beneficiary: SPEAKER
  
层次 4:语用分析(Pragmatic Analysis)
  输出:意图推断
    Intent: BOOK_FLIGHT
    Constraints: 
      - departure_date = tomorrow
      - destination = Beijing
      - passenger = user
    Implicit needs:
      - 需要知道出发地(默认当前城市)
      - 需要知道时间偏好(未指定)
      - 需要知道预算(未指定)
  
层次 5:任务形式化(Task Formalization)
  输出:可执行任务表示
    Task {
      type: BOOK_FLIGHT
      parameters: {
        from: CURRENT_CITY,
        to: "Beijing",
        date: "2026-03-11",
        passenger: USER_ID
      }
      constraints: {
        budget: UNKNOWN,
        time_preference: UNKNOWN,
        airline_preference: UNKNOWN
      }
      subtasks: [
        SEARCH_FLIGHTS,
        SELECT_BEST_OPTION,
        CONFIRM_BOOKING,
        PAY
      ]
    }
                    

9.3 基于 LLM 的指令理解

大语言模型(LLM)为自然语言指令理解带来了革命性突破:

方法一:Prompt-based 指令解析

LLM Prompt 模板
System Prompt:
你是一个任务解析专家。请将用户的自然语言指令
解析为结构化的任务表示。

输出格式:
{
  "intent": "意图类型",
  "parameters": {...},
  "constraints": {...},
  "subtasks": [...]
}

User: "帮我订明天去北京的机票"

Assistant:
{
  "intent": "BOOK_FLIGHT",
  "parameters": {
    "from": "CURRENT_CITY",
    "to": "Beijing",
    "date": "2026-03-11",
    "passenger": "user"
  },
  "constraints": {
    "budget": null,
    "time_preference": null,
    "airline_preference": null
  },
  "subtasks": [
    "SEARCH_FLIGHTS",
    "SELECT_BEST_OPTION",
    "CONFIRM_BOOKING",
    "PAY"
  ],
  "clarification_questions": [
    "请问您的出发城市是?",
    "您有偏好的起飞时间吗?",
    "您的预算范围是?"
  ]
}

优势:
  • 零样本学习:无需训练即可解析新指令
  • 上下文理解:能处理隐含信息和上下文依赖
  • 澄清能力:能主动提问消除歧义
                        

方法二:Few-shot 指令学习

  • 提供少量示例,让 LLM 学习指令解析模式
  • 适用于特定领域的指令解析
  • 示例质量直接影响解析效果

方法三:Fine-tuning 专用解析器

  • 在领域特定数据上微调 LLM
  • 获得更高精度和效率
  • 需要标注数据,成本较高

9.4 歧义消解与澄清策略

歧义类型

  • 词汇歧义:"苹果"是水果还是公司?
  • 句法歧义:"老张和老李的儿子"——谁的儿子?
  • 指代歧义:"他告诉他自己错了"——两个"他"是谁?
  • 范围歧义:"所有学生都读了一本书"——同一本还是各一本?
  • 意图歧义:"我饿了"——是想做饭、订餐还是找餐厅?

澄清策略

策略 适用场景 示例
直接提问 关键信息缺失 "请问您的出发城市是?"
选项确认 多个候选解释 "您是指北京首都机场还是大兴机场?"
默认值 + 确认 可合理推测 "我假设您从上海出发,对吗?"
上下文推断 有历史对话 基于之前对话推断"还是老样子"
主动补全 隐含需求明显 用户说"我饿了",主动推荐附近餐厅

9.5 复合指令的分解与排序

复合指令类型

  • 序列指令:"先 A,然后 B,最后 C"
  • 并行指令:"同时做 A 和 B"
  • 条件指令:"如果 A,则 B;否则 C"
  • 循环指令:"每天重复 A"
  • 嵌套指令:"在做 A 之前,先完成 B 中的 C"

指令分解算法

复合指令分解算法
算法:DecomposeComplexInstruction

输入:
  • 自然语言指令 I
  • 领域知识 KB

输出:
  • 任务 DAG(有向无环图)

过程:
  1. 【连接词识别】
     识别"先"、"然后"、"同时"、"如果"等连接词
     确定任务间关系(序列、并行、条件)
  
  2. 【子句分割】
     根据连接词将 I 分割为子句 {c₁, c₂, ..., cₙ}
  
  3. 【子句解析】
     for each cᵢ:
       Taskᵢ ← ParseSingleInstruction(cᵢ)
       // 调用单指令解析
  
  4. 【依赖关系构建】
     for each pair (Taskᵢ, Taskⱼ):
       if cᵢ 在 cⱼ 之前:
         AddEdge(Taskᵢ → Taskⱼ)
       if cᵢ 和 cⱼ 同时:
         MarkParallel(Taskᵢ, Taskⱼ)
       if cᵢ 是条件:
         MarkConditional(Taskⱼ, condition=cᵢ)
  
  5. 【隐式任务补全】
     for each Taskᵢ:
       PreTasks ← GetPrerequisites(Taskᵢ, KB)
       // 添加前置任务(如"订机票"前需"搜索航班")
  
  6. 【拓扑排序】
     OrderedTasks ← TopologicalSort(TaskDAG)
  
  7. return OrderedTasks

示例:
  指令:"先订机票和酒店,然后通知客户,如果客户确认就付款"
  
  分解结果:
    Task1: SEARCH_FLIGHTS
    Task2: SEARCH_HOTELS
    Task3: BOOK_FLIGHT (depends on Task1)
    Task4: BOOK_HOTEL (depends on Task2)
    Task5: NOTIFY_CLIENT (depends on Task3, Task4)
    Task6: CONDITIONAL: if CLIENT_CONFIRMED then PAY
                        

9.6 本章小结

本章探讨了自然语言指令的理解与解析。关键要点:

  • 指令理解五层次:词法、句法、语义、语用、任务形式化
  • LLM 指令理解方法:Prompt-based、Few-shot、Fine-tuning
  • 歧义消解策略:直接提问、选项确认、默认值 + 确认、上下文推断、主动补全
  • 复合指令分解:连接词识别、子句分割、依赖关系构建、隐式任务补全、拓扑排序

第 15 章 LLM Agent 时代的意图建模新范式

15.1 LLM Agent 的意图推理能力

大语言模型(LLM)为意图建模带来了前所未有的能力突破。LLM 不仅能理解自然语言指令,还能进行意图推理计划生成自我反思

LLM 的意图建模优势:

  • 零样本意图理解:无需训练即可理解新领域指令
  • 隐含意图推断:能从上下文推断未明说的意图
  • 常识推理:利用世界知识理解意图的合理性
  • 自我反思:能审视和调整自己的意图
  • 自然语言接口:意图表示与人类语言无缝对接

15.2 ReAct 架构中的意图推理

ReAct:Reason + Act

ReAct(Yao et al., 2023)将意图推理与行动执行交织,形成强大的目标驱动循环:

ReAct 意图推理循环
输入:用户指令"帮我规划一个难忘的生日惊喜"

ReAct 循环:

  Thought 1(意图理解):
    用户想要给某人策划生日惊喜。
    核心意图:CREATE_BIRTHDAY_SURPRISE
    隐含需求:
      - 需要知道寿星是谁
      - 需要知道生日日期
      - 需要了解寿星喜好
      - 预算范围?
      - 地点偏好?
  
  Action 1(信息收集):
    AskUser("请问寿星是谁?生日是哪天?")
  
  Observation 1:
    "我女朋友,3 月 20 日生日"
  
  Thought 2(意图细化):
    现在知道是女朋友的生日惊喜。
    细化意图:
      - 了解她的兴趣爱好
      - 查询 3 月 20 日的天气
      - 搜索浪漫惊喜创意
      - 考虑预算约束
  
  Action 2(多步信息收集):
    AskUser("她平时喜欢什么活动?")
    QueryWeather("2026-03-20", location)
    SearchIdeas("romantic birthday surprise for girlfriend")
  
  Observation 2:
    "她喜欢户外和美食"
    天气:"晴朗,15-22°C"
    搜索结果:["野餐惊喜", "日落晚餐", "星空观影"]
  
  Thought 3(计划生成):
    基于信息生成计划:
    1. 准备野餐篮和她喜欢的食物
    2. 选择风景好的公园
    3. 安排朋友提前布置场地
    4. 日落时带她到地点
    5. 惊喜揭晓 + 晚餐
    6. 晚上星空观影
  
  Action 3(计划执行):
    TaskList = [
      ORDER_FOOD,
      BOOK_PARK_PERMIT,
      COORDINATE_FRIENDS,
      PREPARE_DECORATIONS,
      EXECUTE_PLAN
    ]
    Execute(TaskList)
  
  ... 继续循环直到任务完成

关键特性:
  • Thought 中的意图推理是显式的、可追溯的
  • 意图在行动中不断细化和调整
  • 信息收集服务于意图理解
  • 计划生成基于意图和约束
                        

15.3 LLM 的意图表示学习

LLM 通过预训练学习了丰富的意图表示:

  • 隐式意图嵌入:LLM 的隐藏层编码了意图语义
  • 意图聚类:相似意图在表示空间中聚集
  • 意图迁移:从一个领域的意图理解迁移到新领域
  • 层次化意图:LLM 能理解意图的层次结构(高级意图→子意图)

15.4 神经符号融合的意图建模

融合范式

结合 LLM 的神经表示与符号逻辑的精确性:

神经符号意图建模架构
┌─────────────────────────────────────────┐
│      神经层(LLM)                       │
│  • 自然语言理解                          │
│  • 意图语义表示                          │
│  • 常识推理                              │
│  • 隐式知识                              │
└─────────────────────────────────────────┘
              │
              │ 意图提取
              ▼
┌─────────────────────────────────────────┐
│      符号层(BDI 逻辑)                   │
│  • 形式化意图表示 I(φ)                   │
│  • 逻辑一致性验证                        │
│  • 手段 - 端推理                          │
│  • 承诺持续性保证                        │
└─────────────────────────────────────────┘
              │
              │ 计划生成
              ▼
┌─────────────────────────────────────────┐
│      执行层                              │
│  • 任务分解                              │
│  • 工具调用                              │
│  • 监控与调整                            │
└─────────────────────────────────────────┘

工作流程:
  1. LLM 理解自然语言指令,提取意图候选
  2. 符号层验证意图一致性、可行性
  3. LLM 生成实现意图的计划
  4. 符号层验证计划的逻辑正确性
  5. 执行层执行计划,LLM 监控异常
  6. 异常时,LLM 重新理解,符号层重新验证

优势:
  • LLM 的灵活性与符号系统的可靠性结合
  • 自然语言接口 + 形式化保证
  • 常识推理 + 逻辑严谨性
                        

15.5 LLM Agent 的意图挑战

挑战 表现 解决方向
幻觉意图 LLM 可能生成不存在的用户意图 意图验证、用户确认机制
意图漂移 长对话中意图理解逐渐偏离 意图追踪、定期校准
上下文限制 有限上下文窗口限制长期意图维持 外部记忆、意图摘要
一致性维护 多轮对话中意图一致性难以保证 符号验证、一致性检查
可解释性 LLM 意图推理过程不透明 Thought 链、注意力可视化

15.6 未来方向

  • 长期意图维持:跨会话的意图追踪与坚持
  • 多 Agent 意图协调:多个 LLM Agent 的意图共享与协作
  • 意图学习:从用户反馈中学习意图偏好
  • 情感意图融合:考虑情感因素的意图建模
  • 伦理意图约束:确保意图符合伦理规范
  • 可验证意图:形式化验证 LLM 意图的正确性
"从 Bratman 的哲学意图论,到 Rao & Georgeff 的 BDI 逻辑,再到 LLM Agent 的神经符号融合,意图建模走过了 40 年历程。变的是技术,不变的是对智能本质的追求。意图,作为智能的核心,将继续指引我们探索 AI 的深层奥秘。"
—— 全书结语

15.7 本章小结

本章探讨了 LLM Agent 时代的意图建模新范式。关键要点:

  • LLM 的意图推理优势:零样本理解、隐含推断、常识推理、自我反思
  • ReAct 架构:Thought-Action 循环中的意图推理与执行
  • 神经符号融合:LLM 灵活性 + 符号系统可靠性
  • LLM 意图挑战:幻觉、漂移、上下文限制、一致性、可解释性
  • 未来方向:长期意图维持、多 Agent 协调、意图学习、情感融合、伦理约束、可验证性

参考文献与延伸阅读(1987-2026)

意图哲学基础(1987-2000)

  1. Bratman, M. E. (1987). "Intention, Plans, and Practical Reason." Harvard University Press.
  2. Bratman, M. E. (1992). "Shared Cooperative Activity." Philosophical Review, 101(2), 327-341.
  3. Searle, J. R. (1983). "Intentionality: An Essay in the Philosophy of Mind." Cambridge University Press.
  4. Mele, A. R. (1992). "Springs of Action: Understanding Intentional Behavior." Oxford University Press.

BDI 逻辑与形式化(1990-2010)

  1. Rao, A. S., & Georgeff, M. P. (1991). "Modeling Rational Agents within a BDI-Architecture." KR-91.
  2. Rao, A. S., & Georgeff, M. P. (1995). "BDI-agents: From Theory to Practice." ICMAS-95.
  3. Georgeff, M., et al. (1999). "The Belief-Desire-Intention Model of Agency." ATAL-98.
  4. Dastani, M., et al. (2005). "A Programming Language for Cognitive Agents." ProMAS-04.
  5. Bordini, R. H., Hübner, J. F., & Wooldridge, M. (2007). "Programming Multi-Agent Systems in AgentSpeak Using Jason." Wiley.

任务理解与规划(2000-2020)

  1. Ghallab, M., Nau, D., & Traverso, P. (2004). "Automated Planning: Theory and Practice." Morgan Kaufmann.
  2. Haslum, P., et al. (2019). "An Introduction to Automated Planning." Cambridge University Press.
  3. Winfield, A., & Jirotka, M. (2018). "Ethical Governance for Autonomous Systems." IEEE.

LLM Agent 与现代意图建模(2023-2026)

  1. Yao, S., et al. (2023). "ReAct: Synergizing Reasoning and Acting in Language Models." ICLR 2023.
  2. Xi, Z., et al. (2025). "The Rise and Potential of Large Language Model Based Agents: A Survey." Science China Information Sciences.
  3. Weng, L. (2023). "LLM Powered Autonomous Agents." Lil'Log Blog.
  4. Bui, N. D. Q. (2026). "Building AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned." arXiv:2603.05344.