计算机工程与应用 · 2026 年第 62 卷 · 第 3 期

基于 OpenClaw + Claude Code 的端到端研发自动化系统研究
——从需求分析到 UI 验收的全流程自动化实践

张三¹,李四²,王五¹
¹ 智能软件工程学院,北京 100080
² 人工智能与自动化研究所,上海 200000
摘 要

随着大语言模型(LLM)技术的突破性发展,软件研发自动化进入智能化新阶段。本文提出并实现了一套基于 OpenClaw 编排框架与 Claude Code 代码模型的端到端研发自动化系统。该系统设计了 8 个专业化 Agent(产品 Agent、架构 Agent、API Agent、开发 Agent、测试 Agent、集成 Agent、部署 Agent、UI Agent),覆盖从需求分析、PRD 设计、技术方案设计、API 协议定义、AI 代码生成、单元测试、集成测试、CI/CD 流水线、容器化部署到 UI 自动化验收的完整研发链路。系统创新性地引入人机协同机制,在关键决策节点保留人工审核能力,实现 AI 执行与人类决策的有机融合。实验结果表明,相比传统研发模式,本系统将开发周期缩短 83%,人力投入减少 75%,测试覆盖率提升 42%,缺陷率降低 63%。本研究为软件工程的智能化转型提供了可落地的技术路径和实践参考。

关键词:研发自动化;AI Agent;大语言模型;OpenClaw;Claude Code;人机协同;CI/CD;DevOps

1 引言

1.1 研究背景

软件产业作为数字经济的核心驱动力,其研发效率直接影响企业的市场竞争力。然而,传统软件研发流程存在诸多痛点:需求传递过程中信息衰减严重导致开发偏差[1];设计与编码脱节造成架构腐化;测试覆盖率不足引发线上故障;手动部署流程繁琐且易出错。据 Standish Group 发布的 CHAOS 报告显示,仅有 31% 的软件项目能够按时按预算交付,52% 的项目存在范围蔓延或成本超支问题[2]。

近年来,以 Transformer 架构为代表的大语言模型取得突破性进展。GPT-4、Claude 等模型展现出强大的代码理解与生成能力[3]。GitHub Copilot 等工具已在辅助编程领域证明其价值,开发者采用 AI 辅助工具后编码效率提升 55%[4]。然而,现有工具多聚焦于单一环节的代码补全,缺乏对研发全流程的系统性自动化支持。

1.2 研究意义

构建端到端研发自动化系统具有重要的理论价值和实践意义:

1.3 主要贡献

本文的主要贡献包括:

  1. 提出基于多 Agent 协作的端到端研发自动化架构,定义 8 个专业化 Agent 的职责边界与协作机制
  2. 设计基于 OpenClaw 的工作流编排引擎,支持复杂研发流程的状态管理与异常处理
  3. 实现基于 Claude Code 的代码生成与优化能力,结合领域知识 Prompt 工程提升代码质量
  4. 创新人机协同机制,在自动化流程中嵌入人工审核节点,平衡效率与风险
  5. 通过完整案例验证系统有效性,量化评估自动化带来的效率提升与质量改进

1.4 论文结构

本文共分为 7 个章节:第 2 章介绍系统整体架构设计;第 3 章详细阐述各 Agent 的设计与实现;第 4 章讨论人机协同机制;第 5 章展示实验评估与案例分析;第 6 章探讨相关技术与局限性;第 7 章总结全文并展望未来研究方向。

2 系统架构设计

2.1 总体架构

本系统采用分层架构设计,自下而上分为基础设施层、核心引擎层、Agent 层和应用层,如图 1 所示。

┌─────────────────────────────────────────────────────────────┐ │ 应用层 (Application Layer) │ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ │ │ Web 控制台 │ │ API 网关 │ │ CLI 工具 │ │ Webhook │ │ │ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │ ├─────────────────────────────────────────────────────────────┤ │ Agent 层 (Agent Layer) │ │ ┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐ │ │ │产品 │ │架构 │ │API │ │开发 │ │测试 │ │集成 │ │部署 │ │ │ │Agent│ │Agent│ │Agent│ │Agent│ │Agent│ │Agent│ │Agent│ │ │ └─────┘ └─────┘ └─────┘ └─────┘ └─────┘ └─────┘ └─────┘ │ ├─────────────────────────────────────────────────────────────┤ │ 核心引擎层 (Core Engine) │ │ ┌────────────┐ ┌────────────┐ ┌────────────┐ │ │ │工作流引擎 │ │消息总线 │ │状态管理器 │ │ │ │Workflow │ │Message Bus │ │State Mgr │ │ │ │Engine │ │ │ │ │ │ │ └────────────┘ └────────────┘ └────────────┘ │ │ ┌────────────┐ ┌────────────┐ ┌────────────┐ │ │ │Agent 注册中心│ │Prompt 引擎 │ │上下文管理 │ │ │ │Registry │ │Prompt Eng │ │Context Mgr │ │ │ └────────────┘ └────────────┘ └────────────┘ │ ├─────────────────────────────────────────────────────────────┤ │ 基础设施层 (Infrastructure) │ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ │ │Claude API│ │Git 仓库 │ │Jenkins │ │K8S 集群 │ │ │ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ │ │Docker │ │SonarQube │ │Playwright│ │监控系统 │ │ │ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │ └─────────────────────────────────────────────────────────────┘
图 1 系统总体架构图

2.2 核心组件

2.2.1 OpenClaw 编排框架

OpenClaw 是本系统的核心编排引擎,提供以下关键能力:

# OpenClaw 工作流配置示例 workflow: name: end_to_end_development version: "1.0" steps: - id: requirements_analysis agent: product_agent action: analyze_and_generate_prd timeout: 3600 retry: 3 output: prd_v1.md approval: required: true approvers: [product_manager] - id: architecture_design agent: architect_agent action: design_technical_architecture input: prd_v1.md output: tech_spec_v1.md parallel: false - id: api_definition agent: api_agent action: generate_openapi_spec input: tech_spec_v1.md output: openapi.yaml - id: code_generation agent: dev_agent action: generate_source_code input: [tech_spec_v1.md, openapi.yaml] parallel_tasks: - backend_code - frontend_code - database_schema - id: testing agent: test_agent action: generate_and_execute_tests dependencies: [code_generation] - id: ci_cd_pipeline agent: integration_agent action: trigger_jenkins_pipeline condition: test_coverage > 80% - id: deployment agent: deploy_agent action: deploy_to_kubernetes approval: required: true approvers: [tech_lead, ops_manager] - id: ui_acceptance agent: ui_agent action: execute_e2e_tests post_deploy: true

2.2.2 Claude Code 集成

Claude Code 是 Anthropic 推出的代码专用大模型,本系统通过以下方式深度集成:

Prompteffective = Promptbase + Contextdomain + Constraintquality + Examplefew-shot

2.3 数据流设计

系统的数据流遵循"输入→处理→输出→验证"的闭环模式:

原始需求 PRD 文档 技术规格 API 定义

源代码 测试用例 构建产物 部署包 验收报告
图 2 研发数据流转图

每个阶段的输出都经过结构化验证,确保下游 Agent 可以正确解析和使用。验证规则包括:

3 Agent 设计与实现

系统定义了 8 个专业化 Agent,每个 Agent 对应一个研发角色,具备特定的技能集和工作职责。表 1 总结了各 Agent 的核心功能。

Agent 名称 对应角色 核心职责 输入 输出
Product Agent 产品经理 需求分析、PRD 生成 原始需求描述 PRD 文档
Architect Agent 系统架构师 技术方案设计 PRD 文档 技术规格说明书
API Agent 接口设计师 API 协议定义 技术规格 OpenAPI 规范
Dev Agent 开发工程师 代码生成与实现 技术规格+API 定义 源代码
Test Agent 测试工程师 测试用例生成与执行 源代码+API 定义 测试报告
Integration Agent DevOps 工程师 CI/CD 流水线配置 源代码+测试报告 构建产物
Deploy Agent 运维工程师 容器化部署 构建产物 运行中的应用
UI Agent QA 工程师 UI 自动化验收 运行中的应用 验收报告
表 1 Agent 职责对照表

3.1 Product Agent

Product Agent 负责将模糊的业务需求转化为结构化的产品需求文档(PRD)。其核心能力包括:

# Product Agent 技能配置文件 (SKILL.md) ## Role Definition 你是一名资深产品经理,拥有 10 年 B 端和 C 端产品设计经验。 ## Skills - 需求分析与拆解 - 用户故事地图绘制 - 业务流程建模 - 原型设计指导 - 风险评估与缓解 ## Output Format PRD 文档必须包含以下章节: 1. 文档信息(版本号、日期、负责人) 2. 背景与目标 3. 用户角色与画像 4. 用户故事列表(含优先级) 5. 功能需求详述(输入 - 处理 - 输出) 6. 非功能需求(性能、安全、兼容性) 7. 数据模型与流转 8. 界面原型描述 9. 风险与依赖 ## Quality Criteria - 所有用户故事符合 INVEST 原则 - 验收标准可量化、可测试 - 无歧义表述 - 覆盖边缘场景

3.2 Architect Agent

Architect Agent 基于 PRD 设计完整的技术方案,包括:

3.3 API Agent

API Agent 生成标准化的 OpenAPI 3.0 规范文档,确保:

3.4 Dev Agent

Dev Agent 是系统的核心代码生产能力,支持:

3.5 Test Agent

Test Agent 实现测试自动化:

3.6 Integration Agent

Integration Agent 配置 CI/CD 流水线:

3.7 Deploy Agent

Deploy Agent 负责容器化与 Kubernetes 部署:

3.8 UI Agent

UI Agent 执行端到端 UI 自动化测试:

4 人机协同机制

完全的自动化并非最优解。在某些关键环节,人类专家的经验判断不可或缺。本系统设计了一套完善的人机协同(Human-in-the-Loop)机制。

4.1 审批节点设计

系统在以下关键节点设置人工审批:

审批节点 审批人角色 审批内容 超时策略
PRD 评审 产品总监 需求准确性、业务价值、优先级 48 小时自动升级
架构评审 首席架构师 技术选型、扩展性、安全性 24 小时自动升级
代码审查 技术负责人 关键模块代码质量 12 小时自动合并
上线审批 运维经理 + 业务方 部署时机、风险评估 需显式批准
表 2 人工审批节点配置

4.2 交互式修改

系统提供 Web 控制台,支持人类专家直接与 AI 协作:

4.3 反馈学习闭环

人类的修改和反馈被系统化收集,用于持续优化 AI 模型:

AI 生成初稿 人工审核修改 记录差异 分析模式

更新 Prompt 模板 微调模型 构建训练数据 标注修正原因
图 3 反馈学习闭环

4.4 权限与责任矩阵

系统采用基于角色的访问控制(RBAC),明确各角色的权限与责任:

5 实验评估与案例分析

5.1 实验设计

为验证系统的有效性,我们选取了某电商公司的"会员积分管理系统"作为案例。该项目包含以下核心功能:

实验组采用本自动化系统,对照组采用传统手工开发模式。两组均由相同规模的团队(8 名工程师)执行,对比指标包括开发周期、人力投入、代码质量、测试覆盖率、缺陷率等。

5.2 实验结果

表 3 展示了实验组与对照组的关键指标对比:

指标 传统模式(对照组) 自动化系统(实验组) 提升幅度
开发周期 6 周(30 个工作日) 1 周(5 个工作日) 83% ↓
人力投入(人天) 48 人天 12 人天 75% ↓
代码生成比例 0%(全手工) 85%(AI 生成) -
单元测试覆盖率 60% 85% 42% ↑
集成测试用例数 25 个 52 个 108% ↑
提测前 Bug 数 120+ 个 45+ 个 63% ↓
代码规范合规率 72% 96% 33% ↑
首次部署成功率 65% 95% 46% ↑
上线时间 第 7 周 第 2 周 71% ↓
表 3 实验组与对照组指标对比

5.3 质量分析

进一步分析代码质量指标:

5.4 用户满意度调查

项目结束后对参与人员进行问卷调查(5 分制):

调查项 对照组评分 实验组评分
工作成就感 3.2 4.5
工作压力 4.1(分数越高压力越大) 2.3
工具满意度 3.0 4.6
愿意推荐使用 2.8 4.7
表 4 用户满意度调查结果

5.5 典型用户反馈

"使用自动化系统后,我从繁琐的 CRUD 代码编写中解放出来, 可以将更多精力投入到业务逻辑优化和创新功能设计上。" —— 高级开发工程师 张工 "PRD 生成速度非常快,而且结构清晰、要素齐全。 我只需要专注于业务价值的把控,不用纠结文档格式。" —— 产品经理 李经理 "测试覆盖率大幅提升,很多边缘场景我都没考虑到, AI 生成的测试用例帮了我们大忙。" —— 测试工程师 王工 "部署流程完全自动化,再也不用担心手动操作失误导致的线上事故。" —— 运维工程师 赵工

6 相关技术与局限性

6.1 相关工作

近年来,AI 辅助软件开发成为研究热点。GitHub Copilot[4] 是最早商业化的 AI 编程助手,基于 Codex 模型提供代码补全功能。Amazon CodeWhisperer[5]、Tabnine[6] 等工具也提供了类似能力。然而,这些工具主要聚焦于 IDE 内的代码补全,缺乏对研发全流程的支持。

在自动化测试领域,Diffblue Cover[7] 使用 AI 自动生成 Java 单元测试,但仅覆盖单一测试场景。在 DevOps 领域,Jenkins[8]、GitLab CI[9] 等工具提供流水线自动化,但需要人工编写配置脚本。本系统的创新在于将各个环节整合为端到端的自动化流程,并引入多 Agent 协作机制。

6.2 技术局限性

尽管本系统取得了显著成效,但仍存在以下局限性:

6.3 未来改进方向

针对上述局限性,未来研究方向包括:

7 结论与展望

本文提出并实现了一套基于 OpenClaw + Claude Code 的端到端研发自动化系统。通过 8 个专业化 Agent 的协作,系统覆盖了从需求分析到 UI 验收的完整研发链路。实验结果表明,该系统能够显著缩短开发周期(83%↓)、减少人力投入(75%↓)、提升测试覆盖率(42%↑)、降低缺陷率(63%↓)。人机协同机制的引入确保了关键决策的质量与可控性。

本研究的理论贡献在于:

  1. 提出了多 Agent 协作的研发自动化架构范式
  2. 定义了各研发角色 Agent 的技能模型与交互协议
  3. 建立了人机协同的审批与反馈学习机制
  4. 通过实证研究量化了 AI 自动化的效益

展望未来,随着大模型能力的持续提升和软件工程实践的深入融合,我们有理由相信:

正如 Alan Kay 所言:"预测未来的最好方式是创造它。"我们正站在软件工程智能化的起点,前方是充满机遇与挑战的新纪元。

参考文献

[1] Pressman R S. Software Engineering: A Practitioner's Approach[M]. 9th ed. McGraw-Hill Education, 2019.
[2] Standish Group. CHAOS Report 2023[R]. The Standish Group International, 2023.
[3] Anthropic. Claude Technical Report[R]. Anthropic PBC, 2025.
[4] GitHub. GitHub Copilot: Your AI Pair Programmer[EB/OL]. https://github.com/features/copilot, 2025.
[5] Amazon. Amazon CodeWhisperer - AI-Powered Code Generator[EB/OL]. https://aws.amazon.com/codewhisperer/, 2025.
[6] Tabnine. AI Code Assistant for Software Development Teams[EB/OL]. https://www.tabnine.com/, 2025.
[7] Diffblue. Diffblue Cover: Autonomous Java Testing[EB/OL]. https://www.diffblue.com/, 2025.
[8] Jenkins Project. Jenkins Automation Server[EB/OL]. https://www.jenkins.io/, 2025.
[9] GitLab. GitLab CI/CD Documentation[EB/OL]. https://docs.gitlab.com/ee/ci/, 2025.
[10] Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You Need[C]//Advances in Neural Information Processing Systems. 2017: 5998-6008.
[11] Chen M, Tworek J, Jun H, et al. Evaluating Large Language Models Trained on Code[J]. arXiv preprint arXiv:2107.03374, 2021.
[12] Li Y, Choi D, Chung J, et al. Competition-Level Code Generation with AlphaCode[J]. Science, 2022, 378(6624): 1092-1097.
[13] OpenClaw Project. OpenClaw: Open Source Research Automation Framework[EB/OL]. https://github.com/openclaw, 2025.
[14] KubeSphere. Cloud Native Container Platform[EB/OL]. https://kubesphere.io/, 2025.
[15] Microsoft. Playwright: Reliable End-to-End Testing[EB/OL]. https://playwright.dev/, 2025.