技能概述
Eng Runbook 生成單頁工程運維手冊,包含服務摘要、警報表(警報名 / 嚴重級別 / 含義 / 首次響應)、Dashboard 鏈接、常見操作流程(帶可複製命令)、On-call 輪值表(week / primary / secondary / backup)和事件響應清單(5 個編號步驟)。代碼塊使用等寬字體。
觸發關鍵字
- runbook、ops doc、on-call guide、SRE doc、service runbook、運維手冊
什麼時候用
- 新服務上線後編寫運維文檔
- On-call 工程師交接班參考
- 事件響應時快速查找操作流程
- 服務故障排查手冊
使用方法
自然語言觸發
幫我寫個 auth service 嘅 runbook
生成運維手冊,包含警報和常見操作
Write a runbook for our payment service
指定技能
用 eng-runbook 技能生成
工作流程
- 讀取 DESIGN.md — 獲取設計系統 token
- 解析服務信息 — 從 brief 中提取服務名稱、Owner 團隊、嚴重級別
- 生成布局:
- Header strip:服務名、Owner team、severity tier、version
- 服務摘要段落 + 依賴列表
- 警報表:alert name / severity / what it means / first response
- Dashboards & links 列表
- 常見操作流程(3-4 個)帶 code blocks(deploy / rollback / rotate keys)
- On-call rotation 表(week / primary / secondary / backup)
- Incident response checklist(5 個編號步驟)
- 輸出 HTML — 單文件內聯 CSS,語義化 HTML,代碼塊使用 monospace
輸出格式
單文件 HTML 運維手冊:
- 服務 Header + 摘要
- 警報表 + Dashboard 鏈接
- 常見操作流程(可複製命令)
- On-call 輪值表
- 事件響應清單
實際例子
例子 1:Auth Service Runbook
用戶:「Write a runbook for our auth service — alerts, dashboards, common procedures, on-call rotation.」
生成:
- Alerts:auth_latency_p99 > 500ms (P1) / token_error_rate > 5% (P2)
- Procedures:deploy rollback / key rotation / cache flush
- On-call:Week 23 Primary=張三 / Secondary=李四 / Backup=王五
- Incident Response:1) Confirm alert 2) Check dashboards 3) Rollback if needed 4) Page owner 5) Post-incident review