AI 驱动工作流 - 自动化项目分析与线上问题修复

供稿来自:@吴安乐

一、引言

此前我们已详细介绍了从需求梳理到提测&部署的AI辅助工作流

在 Devops 生命周期中,上线后的可持续维护是保障系统稳定运行的关键环节。本文聚焦线上持续监测阶段,深入探讨如何通过AI驱动实现自动化的性能分析与问题修复,构建完整的可持续维护闭环。

二、方案简介

现状与挑战

虽然有监控工具能及时发现问题,但后续的诊断与修复强依赖人工。日常开发任务重,对于非严重问题无法及时抽出时间完成修复,从而沉淀为技术债务。

例如,Sentry用于错误追踪,Prometheus/Grafana用于性能监控,研发人员需手动分析日志、定位根因、编写修复代码等工作。

系统概述

本文提出的AI驱动可持续维护系统包含两大核心模块:

  • 自动化线上问题修复:AI实时监控Sentry问题 → AI 自动修复代码并创建MR → 飞书通知详情 → 人工最后确认
  • 自动化线上性能分析:监控项目性能指标与构建产物 → 自动识别性能瓶颈 → 生成优化建议

核心目标

  • 人工零干预:从问题出现到修复方案生成(MR)完全自动化,减少人工 90% 的工作量。
  • 人工确认机制:mr 生成后飞书实时通知,研发人员仅需关注最终审查与合并
  • 缩短问题修复时间:从错误发生到修复方案生成,最短可在3分钟内完成
  • 可视化与可追溯性:提供完整的错误趋势监控和修复记录留存,便于审计与复盘

三、核心原理与架构设计

架构

  • 触发层:Sentry webhook、飞书监控模块捕获事件。
  • 执行层:阿里云运行自定义Docker镜像,调用Claude Code(无头模式)执行性能分析,代码分析与修复。
  • 交互层:飞书aPaaS推送通知、展示数据看板,人工确认MR。
  • 存储层:修复记录、性能数据留存于飞书数据库,支持SQL查询与可视化。

工具

  • docker 镜像
  • claude code:AI cli 编程工具,支持无头模式自动化运行
  • mcpqm-lighthouse-mcp 前端性能监控与优化工具、lark-mcp:飞书生态中的监控与告警模块、codeup-mcp:代码托管与流水线集成工具
  • Headless Chrome:无头浏览器,包含 chrome 全部内核,用于前端性能分析的虚拟环境
  • 定制化提示词:提示词
  • 飞书APAAS 应用
  • 阿里云流水线:AI 流程执行的核心容器

流程

自动化线上问题修复
自动化线上性能分析

四、成果展示

修复案例

五、总结

基于 AI +claude code等 AI cli 工具,我们能轻易构建一个无所不能的AI Agent。就像第一次工业革命的蒸汽机,基于蒸汽机,可以实现火车,轮船等一系列改变世界的伟大发明

展示评论