連携は増えるのに、「失敗したあとの戻し方」が語れないとき

この記事はどんな人向けか
  • システム間連携や自動化が増えたが、障害時の対応が都度手探りだと感じている方
  • 正常系の設計書はあるが、例外系が「その時考える」になっている開発・運用の方
  • 外部サービス障害時に、社内の誰が何を停めるか決まっていないプロダクト担当の方

連携が増えるほど、図は複雑になります。複雑でも、正常系の矢印は描けます。描けると、レビューは通りやすい。通るとリリースは気持ちよい。気持ちよさの裏で、失敗したときの物語が未定義のままだと、夜の電話が怖くなります。怖さは胆量の話だけではなく、手順が頭の外にないという状態の話です。外にない手順は、事件が起きた瞬間に各所で即興されます。即興は悪ではありません。即興が毎回なら、組織は疲弊します。疲弊は、ダッシュボードの緑では見えにくいです。

tugiloの相談では、連携の設計レビューで「この矢印が切れたら?」を一つだけ必ず聞きます。一つでよいです。全部の分岐を先取りするのではなく、最も痛い一本を選びます。最も痛いとは、顧客データが二重になる、金額がズレる、在庫がマイナスになる、など、ビジネスが壊れやすい線です。線が選べると、戻し方は短く書けます。短く書けると、運用は夜に強くなります。


正常系の美しさは、例外系の薄さを隠しやすい

正常系は教本のように整えられます。整うほどプレゼンは成功します。成功の反対は失敗ではなく、曖昧です。曖昧な例外系は、「監視で検知」に逃げがちです。監視は必要ですが、監視は戻し方ではありません。検知のあとに誰が何をするかが無いと、アラートは増えるだけで終わります。終わり方は、現場のストレスとして残ります。

戻し方の最小単位は三行でもよいです。第一に、止めるか止めないか。第二に、データを戻すか伏せるか前進修復か。第三に、顧客へ何をいつ言うか。三行が無いと、夜はチャットが増えます。増えたチャットは、翌日ログになりません。ならないログは、また次の夜を呼びます。

「ついでに足す」が増えるほど、リリースは遠のくと遠くない関係です。連携の「ついでにもう一本」は、例外の組み合わせを爆発させます。爆発は悪夢というより、テスト不能領域の拡大です。拡大を止めるには、増やす前に戻しの型を一つ増やす。


「とりあえずリトライ」は台本ではなく習慣になりやすい

リトライは便利です。便利だから、最初の処方箋になります。なりがちなほど、二重送信や逆順到着の地雷を踏みます。踏んだ地雷は、ログの隅に埋まります。埋まるほど、原因は後追いになりにくいです。

台本とは、リトライの回数、間隔、止める条件、人間へのエスカレ条件を短く固定することです。固定は硬さに聞こえます。硬さは、夜の迷いを減らすための骨です。骨が無いと、現場は毎回違うダンスをします。ダンスは華やかですが、運用は覚えられません。

本番と検証でパラメータが違うほど、障害時の演技は難しくなります。難しくなると、手順書は読まれません。読まれない手順書は、結局キーパーソンの頭に戻ります。頭に戻る知識は、休暇と相性が悪いです。相性が悪いほど、連携は人依存になります。人依存を減らすのは、完璧な自動化だけではありません。短い停止の合図と、誰が止めるかの名前です。

外部SaaSが絡むほど、「仕様としてそうなっている」が増えます。増えると、自社側の戻しが狭くなります。狭い戻しの上では、台本は簡潔であるほど強いです。簡潔とは、四文以内で止めることです。四文を超えると、夜は読まれません。読まれない手順は存在しないのと同じです。データの整合性が金銭に直結するほど、巻き戻しは怖いです。怖いから止めること自体が忌避され、前進修復だけが増えがちです。月に一度の掃除の儀式をカレンダーに入れると、汚れは説明可能になります。

障害時に何より重いのは技術だけではなく、誰が顧客や受託先へ何をいつ言うかです。言葉が無いと、社内は忙しく動いても外向きの時間軸が止まります。止まると信頼は削られます。削られ方は、システムの可用性より会話の空白に現れることがあります。


まとめ:連携の完成度は、正常系の枚数ではなく夜の説明力で決まる

連携を増やすことは、悪ではありません。増やすほど、壊れ方の辞書が要ります。辞書は厚くなくていい。最初は一章でよい。一章あるだけで、オンコールに入ります。オンコールに入ると、朝は楽になります。朝が楽になると、また連携を増やせます。増やせる伸びしろは、台本の有無で決まります。

次の連携設計のレビューで、「この矢印が切れたら誰が止める?」を一つだけ質問してみてください。答えが出ないなら、それはまだ早い増加かもしれません。早い増加は、昼の成功と夜の不安を同時に届けます。届く前に、戻しの一行を置く。置けると、連携は資産に近づきます。

連携の資産性は、ファイル数では測れません。測れるのは、新しい人が一週目に迷いどころを越えられるかです。越えられるほど、ノウハウは文書化されています。文書化は面倒です。面倒でも、夜の電話が減るなら安いです。安いは、精神衛生の話です。また、連携が増えるほど「壊れたら電話して」の暗黙契約が増えます。暗黙は小さなチームでは回ります。回らなくなった瞬間に、台本が要ります。台本は冷たいとは限りません。冷たくない台本は、相手を責めずに次の行動を指定します。

連携のテストは、正常系だけだと気持ちよく終わります。終わり方は開発を前に進めます。運用を前に進めるには、意図的に一本切る演習が要ることがあります。演習は面倒です。面倒でも、本番初日の夜より安いです。安いは総コストの話です。

ログが増えるほど、検索は仕事になります。仕事になるほど、障害時の最初の一手は「どのログを見るか」に依存します。依存を減らすには、障害の型ごとに最初に開く画面を一つ決める。決まると、オンコールの学習コストは下がります。下がると、連携は人に優しくなります。

連携を増やすほど、「止められる人」がボトルネックになります。止められるとは、権限の話だけではなく、状況を短く説明できることです。説明できないと、止める判断は遅れます。遅れは、ダメージの拡大として現れます。拡大を防ぐには、止める権限を分散させるのではなく、止める合図を共通化します。合図は、チャットの固定スタンプでも、監視の色一つでも構いません。共通の合図があると、夜の会話は短くなります。

冪等性という言葉は冷たいですが、現場の安心に直結します。同じ処理が二度走っても壊れない、という性質は、リトライを台本にする前提です。前提が無いままリトライだけ増やすと、顧客には同じ通知が届き、社内には二重計上が残ります。二重は、後から削るより前から防ぐ方が安いことが多いです。防ぐ設計は完璧を目指さず、二重になったら検知できるところまでで始めてよいです。

外部システムの仕様変更は、連携の静かな変化要因です。告知があっても、現場の組み込み日がズレます。ズレたまま本番に出ると、正常系の図は昔のままです。図が嘘ではなくても、運用の頭は嘘になります。四半期に一度でも、連携先の変更履歴と自社の台本を突き合わせる儀式があると、夜は楽になります。楽さは、怠惰ではなく、説明責任の余白です。

データの補正がシステムの外で手入力で済むほど、ログに残りません。残らない補正は、次の障害の原因になります。原因が見えない障害は、また即興を呼びます。即興を減らすには、補正にも一行の理由欄を義務にするだけで十分なことがあります。義務は負担に聞こえますが、夜の混乱と比べれば小さいことが多いです。

連携のリードタイムが長いほど、「その間に壊れたら」が増えます。増えるほど、台本は時間軸付きであるほど強いです。何時までに止める、何時までに再開を宣言する、程度でよい。精密なSLAでなくても、境界があると人は動けます。動けない夜は、境界が無い夜です。

本番だけ特別扱いの手順が増えるほど、演習は現実から遠ざかります。遠ざかると、台本は美しいまま使われません。使われない台本は、キーパーソンの記憶とセットで初めて価値があります。価値を記憶から文書へ移すには、四文の制限を守る。守れるなら、次の新人にも渡せます。

夜に強い連携ほど、昼の打ち合わせでは地味に見えます。地味さは評価されにくいですが、地味さが続くほど本番長期では勝ちやすいです。勝ちを可視化する最小単位は、「先月の夜対応時間」の推移です。推移が下がるなら、台本は育っています。

連携・自動化の設計と、障害時の運用まで一緒に整えませんか?

正常系だけが美しいと、夜が怖くなります。tugiloでは例外の物語と最小の台本から、現場に合う形で伴走します。お気軽にご相談ください。