🔭 Prometheus 监控指标体系

基于 OpenClaw + Claude Code 的端到端研发自动化系统

📅 版本:v1.0
🗓️ 日期:2026-03-15
👨‍💻 作者:Super Code Agent
☁️ 环境:Production

🎯 项目概述

4
监控层级
50+
核心指标
38+
告警规则
3
Grafana 仪表盘

监控目标

🔍
全链路追踪

覆盖需求→PRD 设计→技术方案设计→API 开发→AI Coding→测试→部署→验收全流程

实时可观测

毫秒级监控数据采集与展示,15 秒抓取间隔,确保数据新鲜度

🧠
智能告警

基于机器学习的异常检测与告警,P0 级告警 5 分钟内响应

🤝
人机协同

支持人工干预与人机协作的监控节点,记录每次人工介入

🏗️ 监控架构设计

Presentation Layer - Grafana Dashboards
▼ PromQL Queries
Data Processing - Prometheus Cluster + Thanos
▼ Pull/Push
OpenTelemetry Collector
Node Exporter
Custom Exporters
Kube-State-Metrics
▼ Instrumentation
Demand Agent
PRD Agent
AI Coder
Test Agent
Deploy Agent

技术栈选型

组件类别 技术选型 说明
指标采集 Prometheus + OpenTelemetry 云原生标准监控方案
指标存储 Prometheus TSDB + Thanos 长期存储与高可用
可视化 Grafana v10.2+ 丰富的仪表盘生态
告警管理 Alertmanager v0.26+ 告警路由、抑制、静默
链路追踪 Jaeger/Tempo 分布式追踪

📊 核心指标体系

Agent 层核心指标

指标名称 类型 单位 描述 标签
agent_tasks_total Counter 任务执行总数 agent_type, task_type, status
agent_active_tasks Gauge 当前活跃任务数 agent_type
agent_task_duration_seconds Histogram 任务执行时长 agent_type, task_type
agent_llm_tokens_total Counter tokens LLM Token 消耗量 agent_type, model, token_type
agent_llm_calls_total Counter LLM 调用次数 agent_type, model, status

业务流程指标

指标名称 类型 单位 描述
pipeline_stage_duration_seconds Histogram 阶段执行时长
pipeline_success_rate Gauge % 流程成功率
human_intervention_count Counter 人工干预次数
quality_gate_pass_rate Gauge % 质量门禁通过率

🤖 Agent 监控埋点设计

📝
需求分析 Agent

监控需求输入处理延迟、结构化准确率、LLM 理解效果、需求变更追踪

📋
PRD 设计 Agent

监控 PRD 生成质量评分、文档完整性、需求覆盖率、版本迭代

💻
AI Coding Agent

监控代码生成速度、编译通过率、测试覆盖率、代码质量评分

🧪
测试 Agent

监控测试用例生成数量、缺陷发现率、测试执行时长、回归通过率

🚀
部署 Agent

监控部署成功率、部署时长、回滚次数、健康检查通过率

监控埋点代码示例

from src.common.metrics import monitor_agent, track_llm_call # 使用装饰器进行 Agent 任务监控 @monitor_agent(agent_type="demand_agent", task_type="requirement_analysis") def analyze_requirement(requirement_text: str): # 自动记录: # - 任务开始/结束时间 # - 执行时长 # - 成功/失败状态 # - 错误类型 return structured_result # LLM 调用监控 @track_llm_call(agent_type="ai_coder", model="claude-sonnet-4") def generate_code(specification): # 自动记录: # - Token 消耗 (input/output) # - API 调用延迟 # - 调用成功/失败 return generated_code

🚨 告警策略设计

P0 - Critical

严重告警

响应时间:5 分钟

通知渠道:电话 + 短信 + IM


• Agent 服务宕机
• 数据完全丢失
• 安全事件

P1 - High

高级告警

响应时间:15 分钟

通知渠道:短信 + IM


• 错误率>10%
• 核心功能不可用
• LLM API 大规模失败

P2 - Medium

中级告警

响应时间:1 小时

通知渠道:IM + 邮件


• 延迟超过阈值
• 资源使用率高
• 成本超预算

P3 - Low

低级告警

响应时间:4 小时

通知渠道:邮件


• 测试覆盖率下降
• 非关键功能异常
• 性能轻微下降

核心告警规则

# Agent 错误率过高告警 - alert: HighAgentErrorRate expr: | sum(rate(agent_errors_total[5m])) by (agent_type) / sum(rate(agent_tasks_total[5m])) by (agent_type) > 0.1 for: 5m labels: severity: P1 annotations: summary: "Agent {{ $labels.agent_type }} 错误率超过 10%" # LLM Token 消耗异常告警 - alert: HighLLMTokenConsumption expr: | sum(rate(agent_llm_tokens_total[1h])) > 100000 for: 1h labels: severity: P2 annotations: summary: "LLM Token 消耗速率异常" # 流程阶段阻塞告警 - alert: PipelineStageBlocked expr: | avg(pipeline_stage_duration_seconds) by (stage_name) > 3600 for: 1h labels: severity: P2

📈 Grafana 仪表盘设计

🎛️
Agent 监控总览

全局展示所有 AI Agent 的运行状态、任务统计、错误率趋势、LLM 消耗分析

  • 在线 Agent 数量
  • 活跃任务趋势图
  • 错误率热力图
  • Token 消耗 Top10
🔄
研发流程监控

追踪从需求到部署的全流程执行情况、质量门禁、人工干预统计

  • 各阶段执行时长
  • 流程成功率
  • 质量门禁通过率
  • 端到端交付周期
💰
LLM 成本分析

深度分析 LLM 使用情况和成本构成、预算执行率、成本效率指标

  • Token 消耗趋势
  • 模型分布饼图
  • 成本效率分析
  • 预算预警仪表

🚀 实施路线图

Phase 1: 基础框架搭建 (Week 1-2)

  • 部署 Prometheus + Grafana + Alertmanager
  • 配置基础监控指标采集
  • 实现通用监控埋点 SDK
  • 搭建 OpenTelemetry Collector

Phase 2: Agent 层监控 (Week 3-4)

  • 实现各 Agent 的监控埋点
  • 开发 Agent 专用 Exporter
  • 配置 Agent 相关告警规则
  • 创建 Agent 监控仪表盘

Phase 3: 服务层监控 (Week 5-6)

  • API 网关监控集成
  • 数据库/缓存监控
  • 消息队列监控
  • 服务性能指标采集

Phase 4: 业务流程监控 (Week 7-8)

  • 研发流程节点埋点
  • 质量门禁指标集成
  • 人机协同监控
  • 业务 SLI/SLO 定义

Phase 5: 优化与完善 (Week 9-10)

  • 告警规则调优
  • 仪表盘美化与优化
  • 性能基准测试
  • 文档完善与培训

📦 交付产物清单

📄
Markdown 文档
  • 01_监控指标体系设计方案.md
  • 02_系统架构设计文档.md
  • 03_产品说明文档.md
🐍
Python 源代码
  • src/common/metrics.py - 核心指标定义
  • src/agents/monitors.py - Agent 监控埋点
  • src/services/service_monitor.py - 服务监控
⚙️
配置文件
  • config/prometheus/prometheus.yml
  • config/prometheus/rules/*.yml
  • config/grafana/dashboards/*.json