🔭 Prometheus 监控指标体系

基于 OpenClaw + Claude Code 的端到端研发自动化系统

📅 版本：v1.0

🗓️ 日期：2026-03-15

👨‍💻 作者：Super Code Agent

☁️ 环境：Production

📑 目录导航

🎯 项目概述
🏗️ 监控架构设计
📊 核心指标体系
🤖 Agent 监控埋点
🔧 服务层监控
🚨 告警策略设计
📈 Grafana 仪表盘
🚀 实施路线图

🎯 项目概述

监控层级

50+

核心指标

38+

告警规则

Grafana 仪表盘

监控目标

🔍

全链路追踪

覆盖需求→PRD 设计→技术方案设计→API 开发→AI Coding→测试→部署→验收全流程

⚡

实时可观测

毫秒级监控数据采集与展示，15 秒抓取间隔，确保数据新鲜度

🧠

智能告警

基于机器学习的异常检测与告警，P0 级告警 5 分钟内响应

🤝

人机协同

支持人工干预与人机协作的监控节点，记录每次人工介入

🏗️ 监控架构设计

Presentation Layer - Grafana Dashboards

▼ PromQL Queries

Data Processing - Prometheus Cluster + Thanos

▼ Pull/Push

OpenTelemetry Collector

Node Exporter

Custom Exporters

Kube-State-Metrics

▼ Instrumentation

Demand Agent

PRD Agent

AI Coder

Test Agent

Deploy Agent

技术栈选型

组件类别	技术选型	说明
指标采集	Prometheus + OpenTelemetry	云原生标准监控方案
指标存储	Prometheus TSDB + Thanos	长期存储与高可用
可视化	Grafana v10.2+	丰富的仪表盘生态
告警管理	Alertmanager v0.26+	告警路由、抑制、静默
链路追踪	Jaeger/Tempo	分布式追踪

📊 核心指标体系

Agent 层核心指标

指标名称	类型	单位	描述	标签
agent_tasks_total	Counter	个	任务执行总数	agent_type, task_type, status
agent_active_tasks	Gauge	个	当前活跃任务数	agent_type
agent_task_duration_seconds	Histogram	秒	任务执行时长	agent_type, task_type
agent_llm_tokens_total	Counter	tokens	LLM Token 消耗量	agent_type, model, token_type
agent_llm_calls_total	Counter	次	LLM 调用次数	agent_type, model, status

业务流程指标

指标名称	类型	单位	描述
pipeline_stage_duration_seconds	Histogram	秒	阶段执行时长
pipeline_success_rate	Gauge	%	流程成功率
human_intervention_count	Counter	次	人工干预次数
quality_gate_pass_rate	Gauge	%	质量门禁通过率

🤖 Agent 监控埋点设计

📝

需求分析 Agent

监控需求输入处理延迟、结构化准确率、LLM 理解效果、需求变更追踪

📋

PRD 设计 Agent

监控 PRD 生成质量评分、文档完整性、需求覆盖率、版本迭代

💻

AI Coding Agent

监控代码生成速度、编译通过率、测试覆盖率、代码质量评分

🧪

测试 Agent

监控测试用例生成数量、缺陷发现率、测试执行时长、回归通过率

🚀

部署 Agent

监控部署成功率、部署时长、回滚次数、健康检查通过率

监控埋点代码示例

                
from src.common.metrics import monitor_agent, track_llm_call

# 使用装饰器进行 Agent 任务监控
@monitor_agent(agent_type="demand_agent", task_type="requirement_analysis")
def analyze_requirement(requirement_text: str):
    # 自动记录：
    # - 任务开始/结束时间
    # - 执行时长
    # - 成功/失败状态
    # - 错误类型
    return structured_result

# LLM 调用监控
@track_llm_call(agent_type="ai_coder", model="claude-sonnet-4")
def generate_code(specification):
    # 自动记录：
    # - Token 消耗 (input/output)
    # - API 调用延迟
    # - 调用成功/失败
    return generated_code
                
            

🚨 告警策略设计

P0 - Critical

严重告警

响应时间：5 分钟

通知渠道：电话 + 短信 + IM

• Agent 服务宕机
• 数据完全丢失
• 安全事件

P1 - High

高级告警

响应时间：15 分钟

通知渠道：短信 + IM

• 错误率>10%
• 核心功能不可用
• LLM API 大规模失败

P2 - Medium

中级告警

响应时间：1 小时

通知渠道：IM + 邮件

• 延迟超过阈值
• 资源使用率高
• 成本超预算

P3 - Low

低级告警

响应时间：4 小时

通知渠道：邮件

• 测试覆盖率下降
• 非关键功能异常
• 性能轻微下降

核心告警规则

                
# Agent 错误率过高告警
- alert: HighAgentErrorRate
  expr: |
    sum(rate(agent_errors_total[5m])) by (agent_type)
    / sum(rate(agent_tasks_total[5m])) by (agent_type) > 0.1
  for: 5m
  labels:
    severity: P1
  annotations:
    summary: "Agent {{ $labels.agent_type }} 错误率超过 10%"

# LLM Token 消耗异常告警
- alert: HighLLMTokenConsumption
  expr: |
    sum(rate(agent_llm_tokens_total[1h])) > 100000
  for: 1h
  labels:
    severity: P2
  annotations:
    summary: "LLM Token 消耗速率异常"

# 流程阶段阻塞告警
- alert: PipelineStageBlocked
  expr: |
    avg(pipeline_stage_duration_seconds) by (stage_name) > 3600
  for: 1h
  labels:
    severity: P2
                
            

📈 Grafana 仪表盘设计

🎛️

Agent 监控总览

全局展示所有 AI Agent 的运行状态、任务统计、错误率趋势、LLM 消耗分析

在线 Agent 数量
活跃任务趋势图
错误率热力图
Token 消耗 Top10

🔄

研发流程监控

追踪从需求到部署的全流程执行情况、质量门禁、人工干预统计

各阶段执行时长
流程成功率
质量门禁通过率
端到端交付周期

💰

LLM 成本分析

深度分析 LLM 使用情况和成本构成、预算执行率、成本效率指标

Token 消耗趋势
模型分布饼图
成本效率分析
预算预警仪表

🚀 实施路线图

Phase 1: 基础框架搭建 (Week 1-2)

部署 Prometheus + Grafana + Alertmanager
配置基础监控指标采集
实现通用监控埋点 SDK
搭建 OpenTelemetry Collector

Phase 2: Agent 层监控 (Week 3-4)

实现各 Agent 的监控埋点
开发 Agent 专用 Exporter
配置 Agent 相关告警规则
创建 Agent 监控仪表盘

Phase 3: 服务层监控 (Week 5-6)

API 网关监控集成
数据库/缓存监控
消息队列监控
服务性能指标采集

Phase 4: 业务流程监控 (Week 7-8)

研发流程节点埋点
质量门禁指标集成
人机协同监控
业务 SLI/SLO 定义

Phase 5: 优化与完善 (Week 9-10)

告警规则调优
仪表盘美化与优化
性能基准测试
文档完善与培训

📦 交付产物清单

📄

Markdown 文档

01_监控指标体系设计方案.md
02_系统架构设计文档.md
03_产品说明文档.md

🐍

Python 源代码

src/common/metrics.py - 核心指标定义
src/agents/monitors.py - Agent 监控埋点
src/services/service_monitor.py - 服务监控

⚙️

配置文件

config/prometheus/prometheus.yml
config/prometheus/rules/*.yml
config/grafana/dashboards/*.json