SRE サイトリライアビリティエンジニアリング

読んでいる・・・、けど、濃い。
これに読み終わったなんて言える日は来るのか.

サイトリライアビリティエンジニアリング(SRE)とは、Googleで培われたシステム管理とサービス運用の方法論です。 GoogleのSREチームの主要メンバーによって書かれた本書は、ソフトウェアのライフサイクル全体にコミットすることで世界最大規模のソフトウェアシステムがどのように構築、導入、監視、維持されているのかを解説します。
はじめにリスク管理やサービスレベル目標、リリースエンジニアリングなどSREの行動の基礎となる原則について解説し、次にインシデント管理や障害の根本原因分析、SRE内でのソフトウェア開発など大規模分散コンピューティングシステムを構築し運用するSREの実践について詳述します。 さらにSREのトレーニングやコミュニケーションなどの管理について紹介します。 急速にスケールするサービスを高い信頼性で運用する方法を解説する本書はエンジニア必携の一冊です。

前職はずっと大規模な会計システムの保守をしていたわけで、「今あるものを保つ」ことの難しさはかなり知っている方だと思う。
最悪の事故が起こるまで人は何をしていたかでも思ったことだけど、失敗の復旧にはものすごい労力がかかるので、過剰と言えるくらいの自動化、予防、準備が必要になる。このような動きは直感に反することが多い。
目に見える部分で結果が出ているときに、それが砂上の楼閣であることを本気で考えられる人は殆どいない。それができるごく一部だけが長い時間を着実に積み重ねていくことができ、福利の恩恵を受けることができる。