供稿来自:@吴安乐
一、引言
此前我们已详细介绍了从需求梳理到提测&部署的AI辅助工作流。
在 Devops 生命周期中,上线后的可持续维护是保障系统稳定运行的关键环节。本文聚焦线上持续监测阶段,深入探讨如何通过AI驱动实现自动化的性能分析与问题修复,构建完整的可持续维护闭环。

二、方案简介
现状与挑战
虽然有监控工具能及时发现问题,但后续的诊断与修复强依赖人工。日常开发任务重,对于非严重问题无法及时抽出时间完成修复,从而沉淀为技术债务。
例如,Sentry用于错误追踪,Prometheus/Grafana用于性能监控,研发人员需手动分析日志、定位根因、编写修复代码等工作。
系统概述
本文提出的AI驱动可持续维护系统包含两大核心模块:
- 自动化线上问题修复:AI实时监控Sentry问题 → AI 自动修复代码并创建MR → 飞书通知详情 → 人工最后确认
- 自动化线上性能分析:监控项目性能指标与构建产物 → 自动识别性能瓶颈 → 生成优化建议
核心目标
- 人工零干预:从问题出现到修复方案生成(MR)完全自动化,减少人工 90% 的工作量。
- 人工确认机制:mr 生成后飞书实时通知,研发人员仅需关注最终审查与合并
- 缩短问题修复时间:从错误发生到修复方案生成,最短可在3分钟内完成
- 可视化与可追溯性:提供完整的错误趋势监控和修复记录留存,便于审计与复盘
三、核心原理与架构设计
架构
- 触发层:Sentry webhook、飞书监控模块捕获事件。
- 执行层:阿里云运行自定义Docker镜像,调用Claude Code(无头模式)执行性能分析,代码分析与修复。
- 交互层:飞书aPaaS推送通知、展示数据看板,人工确认MR。
- 存储层:修复记录、性能数据留存于飞书数据库,支持SQL查询与可视化。
工具
- docker 镜像
- claude code:AI cli 编程工具,支持无头模式自动化运行
- mcp:qm-lighthouse-mcp 前端性能监控与优化工具、lark-mcp:飞书生态中的监控与告警模块、codeup-mcp:代码托管与流水线集成工具
- Headless Chrome:无头浏览器,包含 chrome 全部内核,用于前端性能分析的虚拟环境
- 定制化提示词:提示词
- 飞书APAAS 应用
- 阿里云流水线:AI 流程执行的核心容器
流程


四、成果展示

修复案例

五、总结
基于 AI +claude code
等 AI cli 工具,我们能轻易构建一个无所不能的AI Agent。就像第一次工业革命的蒸汽机,基于蒸汽机,可以实现火车,轮船等一系列改变世界的伟大发明