🔵 感知
🟣 推理
🟡 记忆
🟢 学习

Agent 认知架构与类人思考机制设计

从 SOAR/ACT-R 到 LLM Agent 的认知科学之路

🔵 感知 环境输入
多模态融合
特征提取
🟣 推理 问题求解
决策制定
规划反思
🟡 记忆 工作记忆
长期记忆
情景记忆
🟢 学习 知识获取
技能优化
元认知
作者 超级代码智能体
版本 认知架构版 · 第一版
出版日期 2026 年 3 月
全书规模 五编十五章
学科跨度 认知科学·AI·神经科学·哲学

📖 全书目录

第一编 认知架构的理论基础

序言:认知架构——智能的核心

在人工智能 70 年的发展历程中,一个根本性问题始终困扰着研究者:如何构建具有类人智能的 Agent?是依靠海量数据的统计学习?还是模拟人类认知的结构机制?

本书的核心论点:真正的类人智能需要认知架构作为基础。认知架构不是简单的算法堆砌,而是对人类认知结构的计算模拟,包括感知、推理、记忆、学习等核心模块的有机整合。只有建立在认知架构基础上的 Agent,才能实现真正的类人思考。

认知架构的历史演进

认知架构发展的历史脉络

1983
ACT*:John Anderson 提出 ACT*架构,开启认知架构研究先河
1987
SOAR:Allen Newell 提出 SOAR 架构,追求通用智能
2002
CLARION:Ron Sun 提出显式 - 隐式双重学习架构
2023-2026
LLM Agent:大语言模型驱动的新型认知架构兴起

认知架构的核心组成

🔵 感知系统

定义:负责接收和处理环境输入信息。

核心功能:

  • 多模态信息接收(视觉、听觉、语言等)
  • 特征提取与模式识别
  • 感觉信息整合
  • 注意机制选择相关信息

🟣 推理系统

定义:负责问题求解和决策制定。

核心功能:

  • 逻辑推理与演绎
  • 归纳与类比推理
  • 规划与目标分解
  • 决策与行动选择

🟡 记忆系统

定义:负责信息存储和检索。

核心功能:

  • 工作记忆:临时存储与操作
  • 长期记忆:知识持久化存储
  • 情景记忆:个人经历记录
  • 程序记忆:技能与习惯

🟢 学习系统

定义:负责知识获取和能力优化。

核心功能:

  • 监督学习与知识获取
  • 强化学习与技能优化
  • 元学习与学习策略
  • 元认知与自我监控
"认知架构不是对大脑的简单模仿,而是对认知功能的抽象与计算实现。它提供了智能行为的结构基础,使 Agent 能够像人类一样感知、思考、学习和行动。"
—— 本书核心洞察

为什么需要认知架构?

挑战 无架构方法 认知架构方法
一致性 行为碎片化,缺乏统一性 统一框架保证行为一致性
可解释性 黑箱决策,难以理解 模块化设计,透明推理过程
泛化能力 任务特定,迁移困难 通用机制,跨任务迁移
持续学习 灾难性遗忘,知识固化 增量学习,知识累积
资源效率 计算资源浪费 注意力机制,资源优化分配

本书结构

第一编 认知架构的理论基础:从认知科学的基本理论出发,阐述认知架构的定义、分类和人类认知机制的计算建模方法。

第二编 经典认知架构系统:深入剖析 SOAR、ACT-R、CLARION、LIDA 等经典认知架构的设计哲学、核心机制和应用场景。

第三编 类人思考机制设计:基于双过程理论,探讨直觉与推理的协同、元认知与自我反思、注意力与工作记忆等类人思考机制。

第四编 现代认知架构与 LLM:结合大语言模型,探讨 LLM Agent 的认知架构设计、思维链推理、记忆增强等前沿方向。

第五编 应用与未来方向:总结认知架构在机器人、教育、医疗等领域的应用,展望未来发展趋势。

"从 SOAR 的通用智能追求,到 ACT-R 的认知精确模拟,再到 LLM Agent 的语言驱动推理,认知架构研究走过了 40 年历程。变的是技术,不变的是对类人智能的追求。"
—— 本书结语预告

—— 作者

2026 年 3 月 9 日 于数字世界

谨以此书献给 Allen Newell、John Anderson、Ron Sun 等认知架构先驱

第 8 章 双过程理论:系统 1 与系统 2

8.1 双过程理论的起源

双过程理论(Dual Process Theory)是认知科学中最具影响力的理论之一,由心理学家 Daniel Kahneman 和 Amos Tversky 在 20 世纪 70 年代提出,用于解释人类推理和决策的两种不同模式。

系统 1 与系统 2 的核心特征

双过程理论对比
┌─────────────────────────────────────────────────────────────┐
│                    双过程理论框架                            │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  系统 1 (System 1)          │  系统 2 (System 2)            │
│  ─────────────────          │  ─────────────────            │
│  • 快速、自动、直觉          │  • 缓慢、控制、推理           │
│  • 无意识、并行处理          │  • 有意识、序列处理           │
│  • 低认知负荷                │  • 高认知负荷                 │
│  • 基于经验和模式            │  • 基于规则和逻辑             │
│  • 容易受偏见影响            │  • 能够纠正偏见               │
│  • 进化上古老                │  • 进化上较新                 │
│                                                             │
│  示例:                     │  示例:                       │
│  • 识别面孔                 │  • 计算 17×24                 │
│  • 理解简单句子             │  • 填写纳税表格               │
│  • 检测敌意语气             │  • 学习新技能                 │
│  • 驾驶在空旷道路上         │  • 停车在狭窄空间             │
│                                                             │
└─────────────────────────────────────────────────────────────┘

关键洞察:
  • 系统 1 和系统 2 不是物理上分离的模块
  • 两者协同工作,系统 1 提供直觉,系统 2 进行验证
  • 系统 2 通常是懒惰的,依赖系统 1 的输出
  • 认知错觉产生于系统 1 的错误未被系统 2 纠正
                        

8.2 双过程理论的实验证据

经典认知错觉实验

  • 琳达问题(Conjunction Fallacy):系统 1 的代表性启发式导致错误
  • 锚定效应:系统 1 受初始值影响,系统 2 未能充分调整
  • 框架效应:同一问题的不同表述导致不同决策
  • 认知反射测试(CRT):测量系统 2 抑制系统 1 直觉的能力

认知反射测试(CRT)示例

CRT 经典题目
题目 1:
  球拍和球总共花费 1.10 美元。
  球拍比球贵 1.00 美元。
  球多少钱?
  
  系统 1 直觉答案:0.10 美元(错误)
  系统 2 推理答案:0.05 美元(正确)
  
  验证:球 0.05 + 球拍 1.05 = 1.10 ✓

题目 2:
  如果 5 台机器用 5 分钟生产 5 个零件,
  那么 100 台机器生产 100 个零件需要多少分钟?
  
  系统 1 直觉答案:100 分钟(错误)
  系统 2 推理答案:5 分钟(正确)
  
  验证:每台机器 5 分钟生产 1 个零件

题目 3:
  湖中有一片睡莲叶,每天面积翻倍。
  如果 48 天覆盖整个湖,
  那么覆盖一半湖需要多少天?
  
  系统 1 直觉答案:24 天(错误)
  系统 2 推理答案:47 天(正确)
  
  验证:第 47 天一半,第 48 天翻倍覆盖全湖

CRT 分数含义:
  • 0-1 分:强烈依赖系统 1
  • 2 分:平衡使用
  • 3 分:善于激活系统 2
                        

8.3 双过程理论的认知架构实现

架构设计原则

  • 分离设计:系统 1 和系统 2 作为独立模块实现
  • 交互机制:系统 1 输出作为系统 2 输入,系统 2 可修正系统 1
  • :根据任务难度动态分配认知资源
  • 元认知监控:监控系统 1 的置信度,决定何时激活系统 2

8.4 本章小结

本章介绍了双过程理论。关键要点:

  • 系统 1 特征:快速、自动、直觉、无意识、低负荷、易偏见
  • 系统 2 特征:缓慢、控制、推理、有意识、高负荷、能纠错
  • 实验证据:琳达问题、锚定效应、框架效应、认知反射测试
  • 架构实现:分离设计、交互机制、资源分配、元认知监控

第 12 章 LLM Agent 的认知架构

12.1 LLM Agent 架构概述

大语言模型(LLM)的出现为认知架构研究带来了新范式。LLM Agent 将 LLM 作为核心推理引擎,结合记忆、规划、工具使用等模块,构建类人认知系统。

LLM Agent 核心公式:Agent = LLM(推理核心)+ Memory(记忆系统)+ Planning(规划能力)+ Tools(工具使用)+ Reflection(反思机制)

LLM Agent 架构组件

LLM Agent 认知架构
┌─────────────────────────────────────────────────────────────┐
│                    LLM Agent 架构                            │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  ┌─────────────┐                                           │
│  │   感知层    │  输入:自然语言、图像、代码等              │
│  └──────┬──────┘                                           │
│         │                                                   │
│         ▼                                                   │
│  ┌─────────────┐                                           │
│  │  核心 LLM   │  推理引擎:GPT-4、Claude、LLaMA 等         │
│  │  (System 2) │  功能:理解、推理、规划、生成              │
│  └──────┬──────┘                                           │
│         │                                                   │
│    ┌────┴────┐                                             │
│    │         │                                             │
│    ▼         ▼                                             │
│  ┌──────┐  ┌──────┐                                       │
│  │记忆  │  │规划  │                                       │
│  │系统  │  │系统  │                                       │
│  │      │  │      │                                       │
│  │•工作 │  │•目标 │                                       │
│  │ 记忆 │  │ 分解 │                                       │
│  │•长期 │  │•子任务│                                      │
│  │ 记忆 │  │ 排序 │                                       │
│  │•情景 │  │•策略 │                                       │
│  │ 记忆 │  │ 选择 │                                       │
│  └──┬───┘  └──┬───┘                                       │
│     │         │                                           │
│     └────┬────┘                                           │
│          │                                                 │
│          ▼                                                 │
│  ┌─────────────┐                                           │
│  │  工具使用   │  API 调用、代码执行、搜索等                │
│  └──────┬──────┘                                           │
│         │                                                   │
│         ▼                                                   │
│  ┌─────────────┐                                           │
│  │  反思机制   │  自我评估、错误修正、学习优化              │
│  └──────┬──────┘                                           │
│         │                                                   │
│         ▼                                                   │
│  ┌─────────────┐                                           │
│  │   输出层    │  文本、代码、行动指令等                    │
│  └─────────────┘                                           │
│                                                             │
└─────────────────────────────────────────────────────────────┘

关键特性:
  • LLM 作为系统 2:缓慢、控制、推理
  • 记忆系统扩展上下文
  • 规划系统实现目标导向
  • 工具使用连接外部世界
  • 反思机制实现持续改进
                        

12.2 ReAct 架构

Reason + Act 范式

ReAct(Reason + Act)是 LLM Agent 的经典架构,将推理和行动交替进行:

ReAct 执行流程
ReAct 循环:

输入:任务描述

循环执行:
  1. Thought(思考):
     分析当前状态,推理下一步行动
     示例:"我需要先搜索相关信息"
  
  2. Action(行动):
     执行具体行动(调用工具、API 等)
     示例:Search("量子计算最新进展")
  
  3. Observation(观察):
     获取行动结果
     示例:"2026 年 3 月最新论文显示..."
  
  4. 判断:
     if 任务完成:
       输出最终答案
     else:
       继续循环

示例完整轨迹:

Task: 2026 年诺贝尔物理学奖得主是谁?

Thought 1: 我需要搜索 2026 年诺贝尔物理学奖信息
Action 1: Search("2026 Nobel Prize Physics")
Observation 1: 2026 年诺贝尔物理学奖授予...

Thought 2: 我找到了相关信息,现在可以回答
Action 2: Final Answer("2026 年诺贝尔物理学奖得主是...")

优势:
  • 推理透明可解释
  • 行动基于推理
  • 支持多步问题解决
  • 易于调试和优化
                        

12.3 记忆系统设计

记忆类型 功能 实现方式
工作记忆 临时存储当前任务相关信息 上下文窗口、短期缓存
情景记忆 存储个人经历和对话历史 向量数据库、对话日志
语义记忆 存储世界知识和事实 知识图谱、预训练权重
程序记忆 存储技能和操作流程 代码库、工具使用模板

12.4 规划与反思

规划策略

  • 任务分解:将复杂任务分解为可管理的子任务
  • 思维树(Tree of Thoughts):探索多条推理路径
  • 思维图(Graph of Thoughts):构建推理图结构
  • 分层规划:高层策略 + 低层执行

反思机制

  • 自我评估:评估输出质量和置信度
  • 错误检测:识别逻辑错误和事实错误
  • 修正策略:生成修正方案并重新执行
  • 学习优化:从错误中学习,更新策略

12.5 本章小结

本章探讨了 LLM Agent 的认知架构。关键要点:

  • LLM Agent 公式:Agent = LLM + Memory + Planning + Tools + Reflection
  • ReAct 架构:Thought-Action-Observation 循环
  • 记忆系统:工作记忆、情景记忆、语义记忆、程序记忆
  • 规划策略:任务分解、思维树、思维图、分层规划
  • 反思机制:自我评估、错误检测、修正策略、学习优化

第 15 章 认知架构的应用与未来

15.1 认知架构的应用领域

主要应用场景

  • 智能机器人:家庭服务、工业制造、医疗护理
  • 教育智能体:个性化辅导、自适应学习
  • 医疗诊断:辅助诊断、治疗规划
  • 自动驾驶:感知决策、路径规划
  • 游戏 AI:NPC 行为、策略游戏
  • 虚拟助手:个人助理、客服系统

15.2 未来发展趋势

趋势 描述 时间线
神经符号融合 神经网络 + 符号推理的深度融合 2025-2028
具身认知 认知架构与身体、环境的深度整合 2025-2030
社会认知 多 Agent 协作、心理理论、社会推理 2026-2030
情感认知 情感处理、共情能力、情绪调节 2026-2032
意识探索 自我意识、主观体验的初步模拟 2030+

15.3 开放挑战

  • 常识推理:人类常识的形式化与获取仍是难题
  • 因果理解:从相关性到因果性的跨越
  • 创造力:真正的创新思维机制尚未破解
  • 意识难题:主观体验(Qualia)的计算实现
  • 伦理对齐:确保认知架构符合人类价值观
  • 可扩展性:从简单任务到复杂现实的扩展
"从 SOAR 的通用智能梦想,到 ACT-R 的精确认知模拟,再到 LLM Agent 的语言驱动推理,认知架构研究走过了 40 年辉煌历程。未来的认知架构,将是神经与符号的融合、身体与环境的整合、个体与社会的协同。这不仅是技术的进步,更是对人类智能本质的深入探索。"
—— 全书结语

15.4 本章小结

本章总结了认知架构的应用与未来。关键要点:

  • 应用领域:机器人、教育、医疗、自动驾驶、游戏、虚拟助手
  • 未来趋势:神经符号融合、具身认知、社会认知、情感认知、意识探索
  • 开放挑战:常识推理、因果理解、创造力、意识难题、伦理对齐、可扩展性

参考文献与延伸阅读(1983-2026)

经典认知架构(1983-2010)

  1. Anderson, J. R. (1983). "The Architecture of Cognition." Harvard University Press.
  2. Newell, A. (1990). "Unified Theories of Cognition." Harvard University Press.
  3. Laird, J. E. (2012). "The Soar Cognitive Architecture." MIT Press.
  4. Sun, R. (2002). "Duality of the Mind." Lawrence Erlbaum Associates.

双过程理论(2000-2020)

  1. Kahneman, D. (2011). "Thinking, Fast and Slow." Farrar, Straus and Giroux.
  2. Stanovich, K. E. (2004). "The Robot's Rebellion." University of Chicago Press.
  3. Evans, J. S. B. T. (2008). "Dual-Processing Accounts of Reasoning." Annual Review of Psychology.

LLM Agent 认知架构(2022-2026)

  1. Yao, S., et al. (2023). "ReAct: Synergizing Reasoning and Acting." ICLR.
  2. Wei, J., et al. (2022). "Chain-of-Thought Prompting." NeurIPS.
  3. Xi, Z., et al. (2025). "The Rise and Potential of Large Language Model Based Agents." Science China Information Sciences.