はじめに
2024/08/06に、PagerDuty主催の「PagerDuty on Tour」に現地参加してきました。
その時のメモをまとめておきます。
PagerDutyとは
PagerDuty(ペイジャーデューティ)は、リアルタイムのインシデント管理プラットフォームです。
企業のIT運用や開発チームが障害対応を迅速かつ効率的に行うためのツールを提供します。システム障害やアプリケーションの異常を検知し、適切な担当者にアラートを送信することで、障害対応に費やす時間の軽減や解決までのスピードを向上させます。
また、インシデントの追跡やポストモーテム作成、ワークフローの自動化をサポートし、組織全体のオペレーショナル・レジリエンスを強化します。
インシデント管理とは?〜システム障害を未然に防ごう〜|インシデント管理プラットフォーム│PagerDuty
イベントの概要
PagerDuty on Tourは、システム障害対応の未来を徹底議論する年に1度の祭典であり、テーマは「AIと自動化の新時代におけるオペレーショナル・レジリエンスの再構築」です。
なお、PagerDuty on Tourの振り返りウェビナーが開催されるそうです。
興味がある方はぜひどうぞ。
日時:2024/08/20 12:00〜13:00
場所:ウェビナー
セッションのメモ
全てではないですが、いくつかのセッションメモを記載します。
PagerDutyとJR東日本情報システムとの対談
- 顧客のニーズはどう変わった?
- XXXサービスについて。当初は単一の予約しかできなかった。
- タッチレス、シームレス、1チケット複数人対応のニーズが出てきて、それに伴いトラッフィックも増えた
- 現在、200-300のサービスあり。いかに早く復旧させるか、人工もかかる
- アクセスが集中する時期は、GW、お盆、年末年始
- XXXサービスについて。当初は単一の予約しかできなかった。
- 7/19の世界規模のインシデント対応について
- 当初はサイバーアタックかと思った。東日本ではほぼインパクトはなかったが、グループ全体では影響あり。
- 教訓として、プラットフォームの偏りがあった。分散がテーマだなと。
- 顧客に原因は関係ない、サービスが使えるかどうか。
- モダナイゼーションを推進するにあたっての課題は?
- 古いデザインをどう変えるか、運用もどう変えていくか
- リーダーシップで重要なことは?
- 同じ価値観を持つこと、共有すること
AIと自動化が実現するオペレーショナル・エクセレンス
- 7/19の世界規模の障害発生時について
- システムが動かないため、普段と異なるオペレーションとなっただろう
- 普段と比べて、以下の項目が増えた
- インシデント件数 192%
- 通知件数 290%
- 実行されたワークフロー 1425%増
- PagerDutyを導入している企業は、修復にかかる時間は+29%で済んでいる
- 生成AIの導入機運は高まっている
- PagerDuty Advanceの日本語版提供開始予定は9/30
トヨタCCoEのインシデント管理効率化に向けた挑戦
- 開発者体験の向上にはインシデント管理の向上も必要
- 付加価値のある作業に集中するにはどうするか
- 作業を3つに分類
- 付加価値のある作業
- 付加価値はないが、やらなければならない作業
- 例えば、次の工程に部品を運ぶ
- 無駄な作業
- 作業を3つに分類
- どうするか
- 無駄な作業はやめる
- 付加価値はないがやらなければならない作業は、自動化などにより人にやらせない
- PagerDutyはterraformで管理している
センターオペレーション改革でのイベント管理業務の自動化について
- pagerdutyの導入事例を紹介
- 従来の運用は人に依存していた、今後はオペから脱却しないといけない
- 従来の対応
- 負荷が高いなら人を増やす
- 今後の対応
- 仕組みやシステムによる自動化、効率化。人に頼らない
- 従来の対応
- PagerDuty選定のポイント
- 監視に特化し選定
- アラートのトリアージや通知がよかった
- アラート月5000件のうち、本当に対応が必要なものは2、3割?だった
- 監視に特化し選定
- アラートの条件25000個をpagerdutyと整理した
- PagerDutyの始め方
- 利用の正しい理解、監視の再デザイン(機能と比較したり)
- pagerdutyの障害時にどうするか、ミニマムスタート(ai除外
- 目指したいこと
- chatによるオペレーション。検知も復旧も自動化
これからの企業のAI活用とビジネス戦略〜AIが超加速する予測不能な未来をチャンスに出来る要諦と実例〜
- 生成AIは、不足の事態を言語化し、対応をする
- 経営で扱えなかった非構造化データを扱える
- コスト削減、人の置き換えというレベルではない。ゲームチェンジが起きる
- DXの三つの目的
- 業務DX、事業DX、価値DX
- 価値DXを行うには、業務DX、事業DXは必要
- AIだからこそできること
- 前の工程のAIモジュールが次の工程のAIモジュールにつなぐ
- End to End AIの未来
- モジュールAIを連結した価値DXの実行へ
- 前の工程のAIモジュールが次の工程のAIモジュールにつなぐ
- 変化は掛け算で起きるのに対して、予測は足し算でおこなう。そのため、変化を予測するのは難しい
- 今までは目的から手段で物事を考えていたが、今後は今ある手から組み合わせて何ができるかを考えていく
- コントロール力の拡充を重視する
- 正解主義から、修正主義へ
- 予測可能から、操縦可能へ
セッション資料
- 約10年間MIXIのインフラを 支えてきたPagerDutyの活用事例 / PagerDuty on Tour 2024 - Speaker Deck
- エンタープライズ企業の障害対応革新 – PagerDuty導入とその成果/pagerduty-usecase-of-aeon - Speaker Deck
- オンコール運用をほんの少し効率的に行うためのTips - Speaker Deck
- DatadogとPagerDutyで改善するシステム障害対応 - Speaker Deck
おわりに
以前から界隈で聞く「アラート疲れ」に対する解決策の一つが、PagerDutyのようなアラートのトリアージなんだろうなと思いました。
あわせて、システムをシステムでどう監視/運用していくか(AIOps)に取り組んでいかなければならないなと考えています。
セッション以外では、ここ最近、イベントに参加する度にオンラインでは交流があってもオフラインでは初めてという方と挨拶が続いてうれしいことばかり。
引き続きイベントに参加/情報収集をし、自社で生かしていきたいと思います。