エラーバジェット駆動のSRE:SLOから運用判断を導く方法
導入
リリース凍結や信頼性投資の判断に自動化する仕組み。SLOとエラーバジェットを軸に、継続的インテグレーション・デプロイ(CI/CD)の世界では必須な知識である。
背景・現状の課題
中級エンジニアからCTOまで、信頼性を高く保つことが重要な企業においては、リリース凍結や運用判断には人間の感覚が必須となる。しかし、人間の感覚は積極的に使うことができない場合もある。それらを自動化する仕組みが必要となる。
具体的なアプローチ・実装パターン
方法1:SLOに基づいたエラーバジェット計算
SLOを超えるエラーの割合を計算し、リリース凍結や信頼性投資の判断に使用する。
方法2:エラーバジェットとSLO間の相関分析
エラーバジェットとSLOの間の相関を分析し、リリース凍結や信頼性投資の判断に使用する。
方法3:マシン学習モデルを利用したエラーバジェット予測
マシン学習モデルを使用し、エラーバジェットを予測し、リリース凍結や信頼性投資の判断に使用する。
実装上の落とし穴と対策
エラーバジェット計算や相関分析、マシン学習モデルを使用する場合には、収集できないデータや不正確なデータの影響があることから注意する必要がある。
まとめ
SLOとエラーバジェットを軸に、リリース凍結や信頼性投資の判断を自動化する仕組み。中級エンジニアからCTOまで、これらを理解しておくことが重要な知識である。