基于 OpenClaw + Claude Code 的端到端研发自动化系统
覆盖需求→PRD 设计→技术方案设计→API 开发→AI Coding→测试→部署→验收全流程
毫秒级监控数据采集与展示,15 秒抓取间隔,确保数据新鲜度
基于机器学习的异常检测与告警,P0 级告警 5 分钟内响应
支持人工干预与人机协作的监控节点,记录每次人工介入
| 组件类别 | 技术选型 | 说明 |
|---|---|---|
| 指标采集 | Prometheus + OpenTelemetry | 云原生标准监控方案 |
| 指标存储 | Prometheus TSDB + Thanos | 长期存储与高可用 |
| 可视化 | Grafana v10.2+ | 丰富的仪表盘生态 |
| 告警管理 | Alertmanager v0.26+ | 告警路由、抑制、静默 |
| 链路追踪 | Jaeger/Tempo | 分布式追踪 |
| 指标名称 | 类型 | 单位 | 描述 | 标签 |
|---|---|---|---|---|
| agent_tasks_total | Counter | 个 | 任务执行总数 | agent_type, task_type, status |
| agent_active_tasks | Gauge | 个 | 当前活跃任务数 | agent_type |
| agent_task_duration_seconds | Histogram | 秒 | 任务执行时长 | agent_type, task_type |
| agent_llm_tokens_total | Counter | tokens | LLM Token 消耗量 | agent_type, model, token_type |
| agent_llm_calls_total | Counter | 次 | LLM 调用次数 | agent_type, model, status |
| 指标名称 | 类型 | 单位 | 描述 |
|---|---|---|---|
| pipeline_stage_duration_seconds | Histogram | 秒 | 阶段执行时长 |
| pipeline_success_rate | Gauge | % | 流程成功率 |
| human_intervention_count | Counter | 次 | 人工干预次数 |
| quality_gate_pass_rate | Gauge | % | 质量门禁通过率 |
监控需求输入处理延迟、结构化准确率、LLM 理解效果、需求变更追踪
监控 PRD 生成质量评分、文档完整性、需求覆盖率、版本迭代
监控代码生成速度、编译通过率、测试覆盖率、代码质量评分
监控测试用例生成数量、缺陷发现率、测试执行时长、回归通过率
监控部署成功率、部署时长、回滚次数、健康检查通过率
from src.common.metrics import monitor_agent, track_llm_call
# 使用装饰器进行 Agent 任务监控
@monitor_agent(agent_type="demand_agent", task_type="requirement_analysis")
def analyze_requirement(requirement_text: str):
# 自动记录:
# - 任务开始/结束时间
# - 执行时长
# - 成功/失败状态
# - 错误类型
return structured_result
# LLM 调用监控
@track_llm_call(agent_type="ai_coder", model="claude-sonnet-4")
def generate_code(specification):
# 自动记录:
# - Token 消耗 (input/output)
# - API 调用延迟
# - 调用成功/失败
return generated_code
响应时间:5 分钟
通知渠道:电话 + 短信 + IM
• Agent 服务宕机
• 数据完全丢失
• 安全事件
响应时间:15 分钟
通知渠道:短信 + IM
• 错误率>10%
• 核心功能不可用
• LLM API 大规模失败
响应时间:1 小时
通知渠道:IM + 邮件
• 延迟超过阈值
• 资源使用率高
• 成本超预算
响应时间:4 小时
通知渠道:邮件
• 测试覆盖率下降
• 非关键功能异常
• 性能轻微下降
# Agent 错误率过高告警
- alert: HighAgentErrorRate
expr: |
sum(rate(agent_errors_total[5m])) by (agent_type)
/ sum(rate(agent_tasks_total[5m])) by (agent_type) > 0.1
for: 5m
labels:
severity: P1
annotations:
summary: "Agent {{ $labels.agent_type }} 错误率超过 10%"
# LLM Token 消耗异常告警
- alert: HighLLMTokenConsumption
expr: |
sum(rate(agent_llm_tokens_total[1h])) > 100000
for: 1h
labels:
severity: P2
annotations:
summary: "LLM Token 消耗速率异常"
# 流程阶段阻塞告警
- alert: PipelineStageBlocked
expr: |
avg(pipeline_stage_duration_seconds) by (stage_name) > 3600
for: 1h
labels:
severity: P2
全局展示所有 AI Agent 的运行状态、任务统计、错误率趋势、LLM 消耗分析
追踪从需求到部署的全流程执行情况、质量门禁、人工干预统计
深度分析 LLM 使用情况和成本构成、预算执行率、成本效率指标