故障记录索引
沉淀可复用的排障路径:从“信号 → 定位 → 缩小范围 → 修复/回滚 → 复盘改进”。
模板(复制一份开始写)
在 docs/journal/faultrecord/ 下新建一条故障记录(例如 2025-12-25-api-5xx.md),按下面模板补齐即可:
标题:<服务/集群> <现象>(YYYY-MM-DD)
影响:<用户/请求/区域>;<SLA/错误率/时长>
时间线:
- T0 发现:<告警/工单/用户反馈>
- T+? 定位:<关键指标/日志/变更>
- T+? 缩小范围:<组件/节点/版本/发布批次>
- T+? 恢复:<回滚/修复>(验证方式:<SLO/业务探测>)
根因:
- <一句话根因>
处置记录(命令/变更):
- <命令 1>
- <命令 2>
改进项:
- [ ] <行动项>(Owner:<name>,DDL:<date>)