A
返回 工具
工具2026/05/095 分鐘閱讀

Engineering Runbook 技能指南

工程運維手冊 — 服務概覽 / 警報表 / Dashboard 鏈接 / 常見操作流程 / On-call 輪值表 / 事件響應清單,單頁 HTML 輸出。

技能概述

Eng Runbook 生成單頁工程運維手冊,包含服務摘要、警報表(警報名 / 嚴重級別 / 含義 / 首次響應)、Dashboard 鏈接、常見操作流程(帶可複製命令)、On-call 輪值表(week / primary / secondary / backup)和事件響應清單(5 個編號步驟)。代碼塊使用等寬字體。

觸發關鍵字

  • runbook、ops doc、on-call guide、SRE doc、service runbook、運維手冊

什麼時候用

  • 新服務上線後編寫運維文檔
  • On-call 工程師交接班參考
  • 事件響應時快速查找操作流程
  • 服務故障排查手冊

使用方法

自然語言觸發

幫我寫個 auth service 嘅 runbook
生成運維手冊,包含警報和常見操作
Write a runbook for our payment service

指定技能

用 eng-runbook 技能生成

工作流程

  1. 讀取 DESIGN.md — 獲取設計系統 token
  2. 解析服務信息 — 從 brief 中提取服務名稱、Owner 團隊、嚴重級別
  3. 生成布局
    • Header strip:服務名、Owner team、severity tier、version
    • 服務摘要段落 + 依賴列表
    • 警報表:alert name / severity / what it means / first response
    • Dashboards & links 列表
    • 常見操作流程(3-4 個)帶 code blocks(deploy / rollback / rotate keys)
    • On-call rotation 表(week / primary / secondary / backup)
    • Incident response checklist(5 個編號步驟)
  4. 輸出 HTML — 單文件內聯 CSS,語義化 HTML,代碼塊使用 monospace

輸出格式

單文件 HTML 運維手冊:

  • 服務 Header + 摘要
  • 警報表 + Dashboard 鏈接
  • 常見操作流程(可複製命令)
  • On-call 輪值表
  • 事件響應清單

實際例子

例子 1:Auth Service Runbook

用戶:「Write a runbook for our auth service — alerts, dashboards, common procedures, on-call rotation.」

生成:

  • Alerts:auth_latency_p99 > 500ms (P1) / token_error_rate > 5% (P2)
  • Procedures:deploy rollback / key rotation / cache flush
  • On-call:Week 23 Primary=張三 / Secondary=李四 / Backup=王五
  • Incident Response:1) Confirm alert 2) Check dashboards 3) Rollback if needed 4) Page owner 5) Post-incident review

相關技能