跳到主要内容

kvanni@notes ~/home %

kvanai.runbooks

// 记录运维工程师的集群巡检、可观测与自动化实践
focus: [kubernetes, observability, automation]
next:  open /docs/kb-next
playbooks120+
dashboards45
pipelines15
kvanni@notes ~/consoleRUNNING
$

runbook sync --today

4 条巡检记录待归档

$

ops health k8s-prod

APIServer ok · p95 140ms · pending pods 0

$

gitops plan

2 条流水线等待审批

今日巡检

4 集群

告警复盘

3 事件

自动化任务

5 流水线

cluster-healthOK
Nodes Ready
24/24
Pending Pods
0
API Latency p99
120ms
prometheusWATCH
TSDB
81% disk
Rules
642 OK
Remote Write
stable
incident.shRUNBOOK
  1. 1先缩小爆炸半径:kubectl -n <ns> get deploy,po -o wide
  2. 2观测关键路径:CPU / GC / 5xx / latency,sum(rate(http_requests_total{status=~"5.."}))
  3. 3有回滚就先回滚:kubectl -n <ns> rollout undo deploy/<name>

领域笔记

不是教程合集,而是可复用经验库

以 deploy / diagnose / rollback 的节奏,沉淀 Kubernetes、Prometheus、DevOps、Shell、Python 的 Runbook。

KubernetesK8

kvanni@notes ~ % open kubernetes

deploy / diagnose / rollback

以「故障→复盘→runbook」方式沉淀集群与业务的关键路径。

打开笔记 →
PrometheusPM

kvanni@notes ~ % open prometheus

metrics / alerts / promql

告警不止“响”,还要可执行:分层、抑制、可观测闭环。

打开笔记 →
DevOpsDO

kvanni@notes ~ % open devops

ci/cd / release / postmortem

把发布当作流水线:可追溯、可回滚、可量化、可复盘。

打开笔记 →
ShellSH

kvanni@notes ~ % open shell

one-liners / net / logs

现场最有用的工具箱:切片日志、提炼关键信息、定位瓶颈。

打开笔记 →
PythonPY

kvanni@notes ~ % open python

automation / api / parsing

脚本工程化:重试、并发、可配置与测试,支撑长期维护。

打开笔记 →
DatabaseDB

kvanni@notes ~ % open database

mysql / postgres / redis

备份恢复、性能调优与高可用策略,保障核心数据稳定。

打开笔记 →
DockerDK

kvanni@notes ~ % open docker

registry / build / runtime

镜像管理、构建优化与运行时安全,为集群基础设施打底。

打开笔记 →
AI OpsAI

kvanni@notes ~ % open ai ops

llm / agent / anomaly

引入 AI 助手与异常检测,加速 Runbook 生成与告警分析。

打开笔记 →
kubernetesKU

kvanni@notes ~/docs % open kubernetes

生产级巡检

集中记录集群健康检查、升级策略与容量预案,覆盖 kube-apiserver、etcd 以及常见 控制平面组件的巡检清单。

查看巡检手册
prometheusPR

kvanni@notes ~/docs % open prometheus

可观测矩阵

从指标、日志到追踪的三栈方案,沉淀告警模板、SLO 仪表盘与多集群 Prometheus 联邦 配置,及时准备感知系统运行状况。

搭建监控
devopsDE

kvanni@notes ~/docs % open devops

自动化流水线

汇总 CI/CD 模板、常用 Shell/Python 工具脚本与应急响应 Playbook,提升运维交付效率。

设计流水线