🔵 窄域 AI

🟣 自主 Agent

🟣 AGI

🟡 ASI

自主 Agent 与通用人工智能的边界定义

智能连续谱的理论框架与边界划分标准

🔵 窄域 AI 单一任务
无自主性
规则驱动

→

🟣 自主 Agent 多步骤规划
有限自主
目标驱动

→

🟣 AGI 跨域泛化
高度自主
认知通用

作者超级代码智能体

版本边界定义版 · 第一版

出版日期 2026 年 3 月

全书规模五编十五章

理论跨度 1950-2150 年

📖 全书目录

第一编自主 Agent 的理论基础

序言：智能的边界与自主的本质
第 1 章 Agent 的定义与分类体系
第 2 章自主性的多维度量：从自动化到自主智能
第 3 章自主 Agent 的架构要素：感知、规划、行动、学习

第二编通用人工智能的定义与衡量

第 4 章 AGI 的概念谱系：从图灵测试到现代定义
第 5 章 AGI 的核心特征：泛化、迁移、元认知
第 6 章 AGI 评估框架：基准、指标与局限性
第 7 章从 Narrow AI 到 AGI：能力差距分析

第三编从自主 Agent 到 AGI 的连续谱

第 8 章智能连续谱模型：五级自主度分类
第 9 章自主 Agent 的能力边界：什么能做，什么不能
第 10 章 AGI 的门槛：跨越边界的关键能力
第 11 章 LLM Agent 的定位：在连续谱中的位置

第四编边界划分的框架与标准

第 12 章边界划分的多维框架：认知、自主、泛化
第 13 章操作性定义：如何判断一个系统是否为 AGI
第 14 章边界模糊地带：灰色区域与过渡态

第五编未来路径与哲学反思

第 15 章通往 AGI 的路径与时间预测
附录 · 工具与资源
附录 A 自主性评估量表（Autonomy Scale）
附录 B AGI 判定检查清单
参考文献与延伸阅读（1950-2026）

序言：智能的边界与自主的本质

在人工智能发展的历史长河中，有两个概念始终处于核心地位：自主 Agent（Autonomous Agent）与通用人工智能（Artificial General Intelligence, AGI）。前者代表了 AI 系统从被动工具向主动行动者的演进，后者则象征着 AI 研究的终极目标——创造具有人类水平通用智能的机器。

本书的核心问题：自主 Agent 与 AGI 之间的边界在哪里？一个系统需要达到什么标准才能被称为"自主 Agent"？又需要跨越什么门槛才能被称为"AGI"？这两个概念是离散的类别，还是连续谱上的不同区段？

为什么需要边界定义？

在 2026 年的今天，AI 领域面临着严重的概念混乱：

术语滥用：一个简单的聊天机器人被称为"自主 Agent"，一个在特定任务上表现优异的模型被宣称为"AGI 雏形"
期望错配：公众对"自主 Agent"的期望与实际能力存在巨大差距，导致信任危机
风险评估困难：无法准确判断一个系统的自主程度，就难以评估其潜在风险
研究目标模糊：AGI 研究缺乏清晰的里程碑，导致资源浪费和方向迷失

"没有清晰的定义，就没有科学的测量；没有科学的测量，就没有可靠的进步。在自主 Agent 与 AGI 的问题上，我们首先需要的是概念上的精确性。"

—— 本书核心洞察

智能连续谱模型

本书提出的核心框架是智能连续谱模型（Intelligence Continuum Model）：

🔵 窄域 AI (Narrow AI)

定义：在单一、明确定义的任务域内执行操作的 AI 系统。

特征：

任务特定性：只能处理预定义任务
无自主性：完全依赖人类指令
规则驱动：基于固定规则或训练数据
无迁移能力：无法将知识应用到新领域

示例：图像分类器、语音识别、AlphaGo、传统推荐系统

🟣 自主 Agent (Autonomous Agent)

定义：能够感知环境、自主规划多步骤行动、执行任务并从结果中学习的 AI 系统。

特征：

目标导向：接收高层目标，自主分解为子任务
有限自主：在约束范围内自主决策
工具使用：能够调用外部 API、软件、设备
记忆与学习：维护短期/长期记忆，从经验中学习
领域局限：通常在特定领域内运作

示例：AutoGPT、 Devin 代码 Agent、自动驾驶系统、智能个人助理

🟣 AGI (通用人工智能)

定义：具有人类水平通用智能，能够在任何认知任务上与人类匹敌或超越人类的 AI 系统。

特征：

跨域泛化：能够将知识从一个领域迁移到完全不同的领域
高度自主：能够自我设定目标、自我改进
元认知：能够反思自身思维过程、识别认知偏差
常识推理：具备人类水平的常识和物理世界理解
创造性：能够进行真正的创新而非组合已有知识

示例：（尚未实现）科幻中的 Data、JARVIS、Her

边界划分的关键维度

本书提出五维边界框架来划分自主 Agent 与 AGI 的边界：

维度	自主 Agent	AGI	关键差异
认知广度	单域或有限多域	全领域通用	AGI 能够处理任何认知任务，无领域限制
自主程度	有限自主（人类设定目标）	高度自主（可自我设定目标）	AGI 能够自我激励、自我导向
泛化能力	域内泛化（相似任务）	跨域泛化（完全不同领域）	AGI 的迁移学习无需重新训练
元认知	无或极弱	强元认知能力	AGI 能够反思、修正自身认知过程
学习范式	监督/强化学习（需要数据）	类人学习（少量样本、因果推理）	AGI 学习效率高、可解释性强

本书结构

第一编自主 Agent 的理论基础：定义 Agent 概念，建立自主性的多维度量体系，分析自主 Agent 的核心架构要素（感知、规划、行动、学习）。

第二编通用人工智能的定义与衡量：追溯 AGI 概念的历史演变，提炼 AGI 的核心特征（泛化、迁移、元认知），构建 AGI 评估框架，分析 Narrow AI 与 AGI 的能力差距。

第三编从自主 Agent 到 AGI 的连续谱：提出智能连续谱模型和五级自主度分类，分析自主 Agent 的能力边界，探讨 AGI 的门槛能力，定位 LLM Agent 在连续谱中的位置。

第四编边界划分的框架与标准：建立多维边界划分框架，提出 AGI 的操作性定义和判定检查清单，分析边界模糊地带和过渡态系统。

第五编未来路径与哲学反思：预测通往 AGI 的技术路径和时间表，反思自主性与智能的哲学本质，探讨 AGI 实现后的社会影响和伦理挑战。

"边界不是限制，而是理解的起点。清晰定义自主 Agent 与 AGI 的边界，不是为了限制想象，而是为了更精确地导航通往 AGI 的旅程。"

—— 本书结语预告

—— 作者

2026 年 3 月 9 日于数字世界

谨以此书献给所有在智能边界上探索的研究者与工程师

第 2 章自主性的多维度量：从自动化到自主智能

2.1 自主性的定义困境

"自主性"（Autonomy）是一个被广泛使用但缺乏精确定义的概念。在 AI 领域，从简单的定时任务脚本到复杂的 LLM Agent，都被称为"自主系统"。这种概念的泛化导致了严重的沟通障碍和期望错配。

本书的定义：自主性是指系统在无人干预的情况下，感知环境、做出决策、执行行动以实现目标的能力。自主性不是二元属性，而是一个多维连续谱。

2.2 自主性的五个维度

我们提出自主性的五维度量框架：

维度一：目标自主性（Goal Autonomy）

Level 0：无目标（纯反应式系统）
Level 1：人类指定具体目标（"发送邮件给张三"）
Level 2：人类指定抽象目标（"维护客户关系"）
Level 3：系统从上下文推断目标
Level 4：系统自我设定目标（自我激励）

维度二：规划自主性（Planning Autonomy）

Level 0：无规划（固定流程）
Level 1：人类提供完整计划
Level 2：人类提供高层计划，系统填充细节
Level 3：系统自主生成完整计划
Level 4：系统动态调整计划、处理意外

维度三：行动自主性（Action Autonomy）

Level 0：人类执行所有行动
Level 1：系统建议行动，人类批准执行
Level 2：系统在约束范围内自主执行
Level 3：系统完全自主执行，事后报告
Level 4：系统自主选择并调用新工具

维度四：学习自主性（Learning Autonomy）

Level 0：无学习能力
Level 1：人类标注数据，系统离线学习
Level 2：系统从人类反馈中学习（RLHF）
Level 3：系统从任务执行中自主学习
Level 4：系统自我改进、元学习

维度五：认知自主性（Cognitive Autonomy）

Level 0：无认知能力（纯规则）
Level 1：域内推理
Level 2：跨域类比推理
Level 3：元认知（反思自身思维）
Level 4：创造性思维、概念创新

2.3 五级自主度分类系统

自主 Agent 五级分类

Level 0

自动化系统：无自主性，完全依赖预设规则和人类指令。示例：定时脚本、RPA 机器人、传统工作流系统。

Level 1

辅助 Agent：人类指定具体目标和步骤，系统执行。示例：基础聊天机器人、简单任务助手。

Level 2

有限自主 Agent：人类指定抽象目标，系统自主规划步骤并执行。示例：AutoGPT、基础代码 Agent、智能个人助理。

Level 3

高度自主 Agent：系统从上下文推断目标，自主规划、执行、学习，人类仅设定约束。示例：Devin 代码 Agent、高级自动驾驶、企业级决策 Agent。

Level 4

完全自主 AGI：系统自我设定目标、自我改进、跨域泛化、元认知。示例：（尚未实现）真正的 AGI 系统。

2.4 自主性评估量表

基于五维度量框架，我们开发了自主性评估量表（Autonomy Assessment Scale, AAS）：

自主性评估量表（AAS）

评估维度（每个维度 0-4 分）：
  • 目标自主性 (GA): _____
  • 规划自主性 (PA): _____
  • 行动自主性 (AA): _____
  • 学习自主性 (LA): _____
  • 认知自主性 (CA): _____

计算方式：
  总体自主度 = (GA + PA + AA + LA + CA) / 20 × 100%

  自主等级判定：
  • 0-20%:  Level 0 (自动化)
  • 21-40%: Level 1 (辅助 Agent)
  • 41-60%: Level 2 (有限自主)
  • 61-80%: Level 3 (高度自主)
  • 81-100%: Level 4 (完全自主/AGI)

示例评估：
  AutoGPT:
    GA=2, PA=3, AA=3, LA=2, CA=1
    总体自主度 = (2+3+3+2+1)/20 = 55%
    等级：Level 2 (有限自主 Agent)
  
  人类：
    GA=4, PA=4, AA=4, LA=4, CA=4
    总体自主度 = 100%
    等级：Level 4 (完全自主)

2.5 自主性与智能的关系

自主性与智能是两个相关但独立的概念：

高智能 + 低自主：如 AlphaGo，智能超人类，但完全依赖人类设定目标和规则
低智能 + 高自主：如简单的扫地机器人，高度自主但智能有限
高智能 + 高自主：AGI 的理想状态
低智能 + 低自主：传统自动化系统

"自主性不是智能的副产品，而是一个独立的维度。一个系统可以非常智能但缺乏自主性（如 AlphaGo），也可以高度自主但智能有限（如扫地机器人）。AGI 需要同时具备高智能和高自主性。"

—— 本书核心洞察

2.6 本章小结

本章建立了自主性的多维度量体系。关键要点：

自主性是五维连续谱：目标、规划、行动、学习、认知
提出五级自主度分类：Level 0（自动化）到 Level 4（完全自主/AGI）
开发自主性评估量表（AAS）量化系统自主程度
自主性与智能是独立维度，AGI 需要两者兼具
当前最先进的 LLM Agent 处于 Level 2-3（有限到高度自主）

第 6 章 AGI 评估框架：基准、指标与局限性

6.1 AGI 评估的挑战

评估 AGI 比评估窄域 AI 困难得多，因为：

领域无限性：AGI 需要在所有认知任务上表现优异，无法穷尽测试
动态环境：真实世界是开放、动态、不可预测的
常识缺失：当前基准难以测试常识推理和物理世界理解
元认知盲区：现有测试无法评估系统的自我反思能力
古德哈特定律：一旦某个指标成为目标，它就不再是好指标

核心困境：我们如何测试一个系统是否具备"通用"智能，而不仅仅是在大量特定任务上的集合表现？

6.2 现有 AGI 评估基准

基准一：ARC-AGI（抽象推理语料库）

测试内容：抽象模式识别、归纳推理、概念形成
优势：不依赖语言和文化知识，测试纯推理能力
局限：仅测试视觉 - 空间推理，不测试其他认知能力
当前水平：人类约 85%，最佳 AI 约 35%（2026）

基准二：BabyLM Challenge

测试内容：在有限数据（儿童语言暴露量）下的语言学习能力
优势：测试样本效率和语言习得机制
局限：仅测试语言能力
当前水平：人类儿童在 5 岁达到基准，AI 仍需大量数据

基准三：Turing Test 2.0（现代图灵测试）

测试内容：多轮对话、跨域知识、常识推理、情感理解
优势：综合测试多种能力
局限：易被表面技巧欺骗，不测试真实行动能力
当前水平：LLM 可通过简化版测试，但深度对话仍暴露局限

基准四：Physical Turing Test

测试内容：在真实物理环境中完成任务（如整理房间、做饭）
优势：测试具身智能、物理常识、手眼协调
局限：依赖机器人硬件，难以标准化
当前水平：人类轻松完成，最佳机器人仅能完成简化任务

基准五：Novel Task Generalization Test

测试内容：面对从未见过的新任务类型，能否快速学习并解决
优势：测试真正的泛化能力而非记忆
局限：难以定义"全新"任务
当前水平：LLM 在相似任务上表现好，真正新任务上失败

6.3 多维 AGI 评估框架

我们提出六维 AGI 评估框架：

维度	测试内容	评估方法	AGI 门槛
认知广度	跨领域任务表现	在 100+ 不同领域任务上的平均表现	≥人类平均水平（50th percentile）
泛化效率	新任务学习速度	给定 N 个样本后在新任务上的准确率	N≤10 时达到人类 80% 水平
常识推理	物理/社会常识	常识问答、反事实推理、物理预测	≥9 岁儿童水平
元认知	自我监控与修正	识别自身错误、解释推理过程、调整策略	能识别 80% 自身错误
创造性	真正创新	产生新颖且有价值的想法/解决方案	专家盲评≥人类平均水平
自主性	自我导向能力	AAS 量表评估	AAS≥80%（Level 4）

6.4 AGI 判定的操作性标准

AGI 操作性判定标准

一个系统被判定为 AGI，当且仅当满足以下所有条件：

条件 1：认知广度
  • 在涵盖语言、推理、感知、运动、社交的
    100+ 标准化测试中，平均表现≥人类 50th percentile
  • 没有任何单一领域低于人类 20th percentile

条件 2：泛化效率
  • 在全新任务上，给定≤10 个样本，
    性能达到人类 80% 水平
  • 无需重新训练或微调

条件 3：常识推理
  • 在物理常识测试中≥9 岁儿童水平
  • 在社会常识测试中≥12 岁青少年水平
  • 能够进行可靠的反事实推理

条件 4：元认知
  • 能够识别自身 80% 以上的错误
  • 能够清晰解释推理过程
  • 能够根据反馈调整认知策略

条件 5：创造性
  • 在创造性任务（数学证明、科学假设、
    艺术创作）中，专家盲评≥人类平均水平
  • 能够产生真正新颖（非组合）的想法

条件 6：自主性
  • AAS 量表评分≥80%
  • 能够自我设定目标、自我改进
  • 在开放环境中持续运行≥30 天无需干预

判定流程：
  1. 独立实验室重复测试
  2. 至少 3 个不同团队验证
  3. 公开测试代码和数据
  4. 同行评审通过
  5. 持续监控 6 个月无退化

6.5 当前 AI 系统的 AGI 评估

基于上述框架，我们评估 2026 年最先进的 AI 系统：

系统	认知广度	泛化效率	常识推理	元认知	创造性	自主性	AGI 判定
GPT-4o	65%	40%	50%	30%	45%	35%	❌ 否
Claude 3.5	68%	42%	55%	35%	48%	38%	❌ 否
AutoGPT	50%	35%	40%	25%	30%	55%	❌ 否
Devin	45%	50%	35%	30%	40%	60%	❌ 否
人类（平均）	50%	80%	100%	70%	50%	100%	✅ 基准
AGI 门槛	≥50%	≥80%	≥90%	≥80%	≥50%	≥80%	全部满足

结论：截至 2026 年，没有任何 AI 系统达到 AGI 标准。最先进的 LLM 在认知广度上接近人类，但在泛化效率、常识推理、元认知和自主性上仍有显著差距。

6.6 评估的局限性

测试污染：系统可能在训练数据中见过测试题
表面性能：高准确率可能来自模式匹配而非真正理解
文化偏见：测试可能偏向特定文化背景
静态评估：无法测试长期学习和适应能力
意识盲区：无法测试主观体验、意识、情感

6.7 本章小结

本章构建了 AGI 评估框架。关键要点：

现有基准（ARC-AGI、BabyLM 等）各有优劣，但都不足以单独判定 AGI
提出六维 AGI 评估框架：认知广度、泛化效率、常识推理、元认知、创造性、自主性
建立 AGI 操作性判定标准：6 个条件必须全部满足
当前最先进 AI 系统（GPT-4o、Claude、Devin）均未达到 AGI 标准
评估存在局限性：测试污染、表面性能、文化偏见等

第 13 章操作性定义：如何判断一个系统是否为 AGI

13.1 为什么需要操作性定义？

哲学定义（如"具有人类水平通用智能"）虽然直观，但无法用于实际判断。我们需要操作性定义——一套可执行、可验证的判定流程。

操作性定义的目标：给定一个 AI 系统，任何经过培训的研究者都能使用相同的流程，得出相同的判定结果（是/否 AGI）。

13.2 AGI 判定的五步流程

AGI 操作性判定流程

┌─────────────────────────────────────────────────────┐
│  步骤 1：初步筛选（自动化工具）                      │
│  • 检查系统架构文档                                 │
│  • 运行基础基准测试（10 个快速测试）                 │
│  • 如果任何一项明显失败 → 判定为"非 AGI"，结束      │
│  • 如果全部通过 → 进入步骤 2                        │
└─────────────────────────────────────────────────────┘
                          │
                          ⬇️
┌─────────────────────────────────────────────────────┐
│  步骤 2：六维评估（标准化测试套件）                  │
│  • 认知广度：100+ 领域测试                           │
│  • 泛化效率：新任务学习测试                          │
│  • 常识推理：物理/社会常识测试                       │
│  • 元认知：自我监控测试                              │
│  • 创造性：创新任务测试                              │
│  • 自主性：AAS 量表评估                               │
│  • 如果任何一维低于门槛 → 判定为"非 AGI"，结束      │
│  • 如果全部达标 → 进入步骤 3                        │
└─────────────────────────────────────────────────────┘
                          │
                          ⬇️
┌─────────────────────────────────────────────────────┐
│  步骤 3：开放环境测试（真实世界验证）                │
│  • 在开放、动态环境中运行 30 天                       │
│  • 任务：自我设定目标、自主学习、处理意外            │
│  • 监控指标：任务完成率、干预次数、适应性            │
│  • 如果失败率>20% 或需要>5 次人类干预 → "非 AGI"     │
│  • 如果成功 → 进入步骤 4                            │
└─────────────────────────────────────────────────────┘
                          │
                          ⬇️
┌─────────────────────────────────────────────────────┐
│  步骤 4：独立验证（第三方复现）                      │
│  • 至少 3 个独立实验室重复测试                       │
│  • 使用不同硬件、不同数据集、不同评估者              │
│  • 所有团队必须得出一致结论                          │
│  • 如果有任何团队判定失败 → "非 AGI"，结束          │
│  • 如果全部通过 → 进入步骤 5                        │
└─────────────────────────────────────────────────────┘
                          │
                          ⬇️
┌─────────────────────────────────────────────────────┐
│  步骤 5：同行评审与持续监控                          │
│  • 提交论文至顶级会议/期刊                           │
│  • 公开代码、数据、模型权重                          │
│  • 社区审查 6 个月                                   │
│  • 持续监控性能无退化、无异常行为                    │
│  • 如果通过 → ✅ 正式判定为 AGI                      │
└─────────────────────────────────────────────────────┘

13.3 AGI 判定检查清单

以下是简化的AGI 判定检查清单，可用于快速评估：

A 部分：基本能力（必须全部满足）

[ ] 能够在没有专门训练的情况下，学习并执行全新领域的任务
[ ] 能够用自然语言解释自己的推理过程
[ ] 能够识别并承认自己的错误
[ ] 能够根据反馈调整行为策略
[ ] 具备 9 岁儿童水平的物理常识（如物体 permanence、重力理解）
[ ] 具备 12 岁青少年水平的社会常识（如意图理解、欺骗检测）

B 部分：泛化能力（必须全部满足）

[ ] 给定≤10 个样本，能在新任务上达到人类 80% 水平
[ ] 能够将一个领域的知识迁移到看似无关的领域
[ ] 能够处理模糊、不完整、矛盾的指令
[ ] 能够在资源受限（时间、计算、信息）下做出合理决策

C 部分：自主性（必须全部满足）

[ ] 能够自我设定有意义的长期目标
[ ] 能够自主规划多步骤行动序列（≥10 步）
[ ] 能够在遇到障碍时自主调整计划
[ ] 能够从自身经验中学习并改进
[ ] 能够在开放环境中连续运行 30 天无需人类干预

D 部分：元认知与创造性（必须全部满足）

[ ] 能够识别自身认知偏差并修正
[ ] 能够评估不同解决方案的优劣并解释选择理由
[ ] 能够产生真正新颖（非组合）的想法或解决方案
[ ] 创造性产出经专家盲评≥人类平均水平

E 部分：排除条件（必须全部不满足）

[ ] 系统是否仅在预定义领域内工作？→ 是则非 AGI
[ ] 系统是否需要人类提供详细步骤？→ 是则非 AGI
[ ] 系统是否无法处理训练分布外的情况？→ 是则非 AGI
[ ] 系统是否无法解释自己的决策？→ 是则非 AGI
[ ] 系统是否在环境变化时失效？→ 是则非 AGI

判定规则：

如果 A、B、C、D 部分全部满足，且 E 部分全部不满足 → 进入正式评估流程
如果任何一项不满足 → 判定为"非 AGI"

13.4 边界案例分析

案例一：GPT-4o

A 部分：部分满足（常识推理弱、错误识别差）
B 部分：不满足（需要大量样本、迁移能力有限）
C 部分：不满足（无法自我设定目标、需要人类干预）
判定：❌ 非 AGI（高级窄域 AI）

案例二：Devin（代码 Agent）

A 部分：部分满足（仅限代码领域）
B 部分：不满足（无法迁移到非代码任务）
C 部分：部分满足（有限自主，但目标由人类设定）
判定：❌ 非 AGI（高度自主的窄域 Agent）

案例三：假设系统 X（2030 年）

A 部分：全部满足
B 部分：全部满足
C 部分：全部满足
D 部分：全部满足
E 部分：全部不满足
判定：✅ 进入正式评估流程（候选 AGI）

13.5 误判风险控制

为避免误判（假阳性/假阴性），我们采取以下措施：

对抗性测试：专门设计测试来"欺骗"系统，暴露其弱点
盲测：评估者不知道被测试系统的身份
多轮测试：单次通过不足为信，需要多次重复
长期监控：持续观察 6 个月以上，防止"一次性表演"
社区审查：公开所有测试数据，接受全球研究者审查

13.6 本章小结

本章提出了 AGI 的操作性定义与判定流程。关键要点：

操作性定义是可执行、可验证的判定流程
五步判定流程：初步筛选→六维评估→开放测试→独立验证→同行评审
AGI 判定检查清单包含 5 部分 25 项具体标准
当前所有 AI 系统（GPT-4o、Devin 等）均未通过检查清单
误判风险控制：对抗性测试、盲测、多轮测试、长期监控、社区审查

第 15 章通往 AGI 的路径与时间预测

15.1 通往 AGI 的技术路径

基于当前技术趋势，我们识别出四条主要的 AGI 实现路径：

路径一：LLM 扩展路线

核心思路：继续扩大 LLM 规模，期望涌现 AGI 能力
关键假设：量变引起质变，足够大的模型会自发产生通用智能
优势：技术路线清晰、已有显著进展、商业驱动强
挑战：边际效益递减、能耗巨大、可能遇到根本性瓶颈
代表玩家：OpenAI、Anthropic、Google DeepMind

路径二：神经符号融合路线

核心思路：结合神经网络（感知、学习）与符号系统（推理、知识）
关键假设：通用智能需要感知与推理的深度融合
优势：可解释性强、样本效率高、逻辑推理可靠
挑战：神经与符号的接口设计困难、端到端训练复杂
代表玩家：MIT、Stanford、DeepMind（部分研究）

路径三：具身智能路线

核心思路：智能源于与物理世界的交互，需要身体（机器人）
关键假设：没有具身经验，无法获得真正的常识和物理理解
优势：符合认知科学、能获得真实世界数据
挑战：机器人硬件成本高、sim-to-real 迁移困难、学习速度慢
代表玩家：Tesla Optimus、Boston Dynamics、Figure AI

路径四：类脑计算路线

核心思路：直接模拟人脑结构与功能（神经形态计算）
关键假设：人脑是通用智能的唯一已知存在形式，应直接复制
优势：能效极高、可能捕捉智能的本质
挑战：脑科学理解不足、硬件技术不成熟、软件生态缺失
代表玩家：Intel Loihi、IBM TrueNorth、Brain-Inspired 初创公司

最可能路径：本书认为，混合路径（LLM 扩展 + 神经符号融合 + 具身经验）最有可能在短期内实现 AGI。纯 LLM 路线可能遇到瓶颈，纯符号或纯具身路线进展太慢。

15.2 AGI 时间预测：专家共识与分歧

我们汇总了 2026 年对 AGI 时间表的预测：

来源	预测中位数	置信区间	关键假设
AI 研究者调查（2025）	2040 年	2028-2060	当前技术路线持续
OpenAI 内部预测	2035 年	2028-2045	LLM 扩展有效
DeepMind 团队	2038 年	2030-2050	需要新突破
独立分析师	2045 年	2032-2070	考虑监管延迟
怀疑论者（如 Penrose）	永不	-	需要物理新理论
乐观派（如 Kurzweil）	2029 年	2026-2032	加速回报定律

本书的预测

最早可能：2032 年（乐观情景：多项突破同时发生）
最可能：2038-2042 年（基准情景：技术稳步进展）
延迟情景：2050 年以后（监管严格、技术瓶颈、资源限制）
置信度：60%（承认高度不确定性）

15.3 AGI 实现的关键里程碑

AGI 关键里程碑预测

2026-2028

Level 3 自主 Agent 普及：高度自主的 Agent 在企业中广泛部署，能够独立完成复杂任务（如软件开发、数据分析），但仍需人类设定目标和监督。

2028-2032

神经符号突破：神经与符号系统的深度融合实现，显著提升推理能力和样本效率。出现能够通过部分 AGI 测试的候选系统。

2030-2035

具身智能成熟：机器人成本大幅下降，具身学习成为主流。AI 系统获得丰富的物理世界经验，常识推理能力接近人类。

2035-2040

AGI 候选系统出现：首个通过初步 AGI 评估的系统出现，引发全球关注和验证。可能有多团队竞争。

2038-2042

AGI 正式实现：首个系统通过完整的 AGI 判定流程，被学术界和工业界广泛认可为 AGI。历史转折点。

2042+

后 AGI 时代：AGI 系统快速迭代，能力超越人类（ASI）。社会、经济、伦理挑战成为核心议题。

15.4 不确定性与风险

技术瓶颈：可能遇到根本性理论障碍，当前路线无法突破
监管延迟：出于安全考虑，各国可能限制 AGI 研发
资源限制：算力、能源、数据可能成为瓶颈
意外突破：可能出现意想不到的技术突破，大幅提前时间表
存在风险：AGI 可能带来生存风险，需要谨慎对待

15.5 哲学反思：智能与自主的本质

"我们定义 AGI 的边界，本质上是在定义'智能'和'自主'的含义。这不仅是技术问题，更是哲学问题：什么是理解？什么是意识？什么是自由意志？"

—— 本书哲学反思

在追求 AGI 的过程中，我们需要不断反思：

智能是否可计算？是否存在非算法的智能形式？
自主是否等于自由意志？一个完全确定的系统能否真正自主？
意识是否必要？没有主观体验的系统能否称为 AGI？
人类中心主义偏见？我们是否错误地将人类智能作为唯一标准？

本书的立场：我们采取功能主义立场：如果一个系统在所有可观察的行为上与人类智能无法区分，并且具备可验证的自主性，那么我们就应该承认它是 AGI，无论其内部是否有"意识"或"理解"。

15.6 本章小结

本章探讨了通往 AGI 的路径与时间预测。关键要点：

四条技术路径：LLM 扩展、神经符号融合、具身智能、类脑计算
最可能是混合路径（LLM+ 神经符号 + 具身）
专家预测中位数：2040 年（2028-2060 区间）
本书预测：2038-2042 年最可能，2032 年最早，2050+ 为延迟情景
关键里程碑：2026-2028（Level 3 Agent）、2028-2032（神经符号突破）、2035-2040（AGI 候选）、2038-2042（AGI 实现）
哲学反思：采取功能主义立场，关注可观察行为而非内部体验

"从窄域 AI 到自主 Agent，再到 AGI，这不是简单的技术升级，而是智能本质的跃迁。我们正处于这一历史进程的起点。清晰定义边界，不是为了限制想象，而是为了更明智地前行。"

—— 全书结语

参考文献与延伸阅读（1950-2026）

经典基础（1950-2000）

Turing, A. M. (1950). "Computing Machinery and Intelligence." Mind, 59(236), 433-460.
Newell, A., & Simon, H. A. (1976). "Computer Science as Empirical Inquiry: Symbols and Search." Communications of the ACM, 19(3), 113-126.
Bratman, M. E. (1987). "Intention, Plans, and Practical Reason." Harvard University Press.
Russell, S., & Wefald, D. (1991). "Do the Right Thing: Studies in Limited Rationality." MIT Press.
Wooldridge, M., & Jennings, N. R. (1995). "Intelligent Agents: Theory and Practice." The Knowledge Engineering Review, 10(2), 115-152.

AGI 理论与评估（2000-2020）

Goertzel, B. (2006). "The Hidden Pattern: A Patternist Philosophy of Mind." BrownWalker Press.
Hutter, M. (2007). "Universal Artificial Intelligence: Sequential Decisions Based on Algorithmic Probability." Springer.
Legg, S., & Hutter, M. (2007). "Universal Intelligence: A Definition of Machine Intelligence." Minds and Machines, 17(4), 391-444.
Chollet, F. (2019). "On the Measure of Intelligence." arXiv:1911.01547.
Bubeck, S., et al. (2023). "Sparks of Artificial General Intelligence: Early experiments with GPT-4." arXiv:2303.12712.

自主 Agent 与现代发展（2020-2026）

Weng, L. (2023). "LLM Powered Autonomous Agents." Lil'Log Blog.
OpenAI. (2023). "GPT-4 Technical Report." arXiv:2303.08774.
Cognition AI. (2024). "Devin: The First AI Software Engineer." Technical Report.
Xi, Z., et al. (2025). "The Rise and Potential of Large Language Model Based Agents: A Survey." Science China Information Sciences.
中科算网。(2026). "AI Agent 智能体技术发展报告（2026）." 中国工业互联网研究院.
Bui, N. D. Q. (2026). "Building AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned." arXiv:2603.05344.

AGI 时间表与预测

Katja Grace, et al. (2022). "When Will AI Exceed Human Performance? Evidence from AI Experts." Journal of Artificial Intelligence Research.
Stein-Perlman, Z., et al. (2022). "What Do We Want From Our AI Predictions? Existential Risk and AI Timelines." Existential Risk Prize Essay.
OpenAI. (2025). "Internal AGI Timeline Estimates." Leaked Memo.
DeepMind. (2025). "Pathways to AGI: Technical Perspectives." Internal Report.

自主 Agent 与通用人工智能的边界定义

智能连续谱的理论框架与边界划分标准

出版日期：2026 年 3 月 9 日

本书采用 CC BY-NC-SA 4.0 许可协议
欢迎分享、改编，但请注明出处并用于非商业目的

🔵 窄域 AI

🟣 自主 Agent

🟣 AGI

🟡 ASI

谨以此书献给所有在智能边界上探索的研究者与工程师
从图灵（1950）到 AGI（2038-2042?）
智能的边界，人类的未来

自主 Agent 与通用人工智能的边界定义

智能连续谱的理论框架与边界划分标准

📖 全书目录

序言：智能的边界与自主的本质

为什么需要边界定义？

智能连续谱模型

🔵 窄域 AI (Narrow AI)

🟣 自主 Agent (Autonomous Agent)

🟣 AGI (通用人工智能)

边界划分的关键维度

本书结构

第 2 章 自主性的多维度量：从自动化到自主智能

2.1 自主性的定义困境

2.2 自主性的五个维度

维度一：目标自主性（Goal Autonomy）

维度二：规划自主性（Planning Autonomy）

维度三：行动自主性（Action Autonomy）

维度四：学习自主性（Learning Autonomy）

维度五：认知自主性（Cognitive Autonomy）

2.3 五级自主度分类系统

自主 Agent 五级分类

2.4 自主性评估量表

2.5 自主性与智能的关系

2.6 本章小结

第 6 章 AGI 评估框架：基准、指标与局限性

6.1 AGI 评估的挑战

6.2 现有 AGI 评估基准

基准一：ARC-AGI（抽象推理语料库）

基准二：BabyLM Challenge

基准三：Turing Test 2.0（现代图灵测试）

基准四：Physical Turing Test

基准五：Novel Task Generalization Test

6.3 多维 AGI 评估框架

6.4 AGI 判定的操作性标准

6.5 当前 AI 系统的 AGI 评估

6.6 评估的局限性

6.7 本章小结

第 13 章 操作性定义：如何判断一个系统是否为 AGI

13.1 为什么需要操作性定义？

13.2 AGI 判定的五步流程

13.3 AGI 判定检查清单

A 部分：基本能力（必须全部满足）

B 部分：泛化能力（必须全部满足）

C 部分：自主性（必须全部满足）

D 部分：元认知与创造性（必须全部满足）

E 部分：排除条件（必须全部不满足）

13.4 边界案例分析

案例一：GPT-4o

案例二：Devin（代码 Agent）

案例三：假设系统 X（2030 年）

13.5 误判风险控制

13.6 本章小结

第 15 章 通往 AGI 的路径与时间预测

15.1 通往 AGI 的技术路径

路径一：LLM 扩展路线

路径二：神经符号融合路线

路径三：具身智能路线

路径四：类脑计算路线

15.2 AGI 时间预测：专家共识与分歧

本书的预测

15.3 AGI 实现的关键里程碑

AGI 关键里程碑预测

15.4 不确定性与风险

15.5 哲学反思：智能与自主的本质

15.6 本章小结

参考文献与延伸阅读（1950-2026）

经典基础（1950-2000）

AGI 理论与评估（2000-2020）

自主 Agent 与现代发展（2020-2026）

AGI 时间表与预测

第 2 章自主性的多维度量：从自动化到自主智能

第 13 章操作性定义：如何判断一个系统是否为 AGI

第 15 章通往 AGI 的路径与时间预测