mito’s blog

IT技術メインの雑記。思い立ったが吉日。

Cloud Operator Days Tokyo 2023 参加レポート

はじめに

Cloud Operator Days Tokyo 2023(以下、CODT2023)に、登壇とクロージングイベントへ現地参加してきました。
いくつかのセッションと現地参加の感想を記載しています。

Cloud Operator Days Tokyo - Cloud Operator Days Tokyo 2023


セッション動画の資料感想

内製開発のすゝめ〜NTT 東日本が取り組んだクラウド内製化開発の歩みと、社外展開の壁、持続可能な開発体制〜

event.cloudopsdays.com

  • 登壇者
  • 内製開発チーム作りのポイントが見どころ
    • 生成系AIを教育者とする
  • 内製開発はコスト削減に繋がらない


全面的に動的閾値監視(Anomaly Detection)を採用して分かったメリットデメリットについて

event.cloudopsdays.com

  • 登壇者
  • セブン銀行の監視の話
    • 動的閾値が向いているもの向いていないもの、具体的なフローの提示など、こちらの解釈が不要でそのまま知見を受け入れられそう
    • 実障害とそれを動的閾値で検知できたかまで記載
      • ここまで公開していてありがたい


業界初Generative AI オブザーバビリティ・アシスタント登場〜次世代AIOpsによる運用業務の変革

event.cloudopsdays.com

  • 登壇者
    • New Relic 株式会社 清水 毅さん
  • 運用業務にAIをどう活かすか活かせるかが分かりやすかったです。
    • 例えば、AIで障害解決までの時間を超短縮する
  • 動画が格好いい!


クラウドネイティブで監視は何がかわるのか? ~レストランに例えて、考えてみた~

event.cloudopsdays.com

  • 登壇者
    • 株式会社アシスト 中村 利一さん
  • 具体的にどうする?という話ではなく、概念の話
    • クラウドネイティブの監視はこう変わっていくよと、理解しやすいと思いました
    • ゴーストレストランの理解が必要


クロージングイベントの現地参加感想

現地参加のみで、ディスカッションへの参加や懇親会が開催されました。

トラブルシューティング&オブザーバビリティ(&APM

オブザーバビリティの定義

  • 既知の未知、未知の未知
    • 【既知】気づける
      • 【既知】理解できる
        • 実用的な監視  - 気づいた後に対処できる 特定の機能が使えない
      • 【未知】理解できない
        • とりあえずの監視
        • 対処できない リソース使用率が上がっている
    • 【未知】気づけない
      • 【既知】理解できる
        • 実用的な監視予備軍
        • 障害発生して後手対応になったが、次回から監視で気づける
      • 【未知】理解できない ★★ ここが対応できることがオブザーバビリティ ★★
        • 監視できていない
        • 障害発生したが減員が分からず監視もできない
          • どうするの?
            • アプリがあらゆるイベントでログをだせるようにしろ、そして取れ。解析しやすいように構造化しておけ
  • 監視をオブザーバビリティへ、レベルアップさせる

    • クラウドネイティブ環境の監視は「オブザーバビリティ」
    • 未知の未知を、既知の既知にできるか
  • QA

    • ログのストレージコストの相談は5本指に入る
      • どこまでログ取るかは試行錯誤が必要
      • 事前に予測できない、従量課金
      • 全体のインフラコストに対して、何割あてるかみたいな議論をしたほうがいいかもしれない
    • ログをLLMで解析してる?
      • XXXはやってる。モデルを作るのには、ユーザのログは使っていない(使えない)。解析に使っている
      • XXXはやってない


ハイブリッドクラウド

ハイブリッドクラウドの定義

  • 消極的と積極的がある。
  • 消極的でも積極的でもない
    • 意図があったりなかったりのそれぞれの部署がある
    • 会社の政治理由
  • プライベートクラウド
    • うまみ
      • バージョンアップのタイミングが社内調整できる
    • つらみ
      • HWが調達できない
  • パブリッククラウド
    • つらみ
      • 文化。パブクラのFWが使えず、パブクラからわざわざ社内のFWを通し、パブクラに戻すことも


クラウドセキュリティ

セキュリティ対策は何をしているか

  • セキュリティ対策
    • 現場の落とし所と現場からの正論・理想論のぶつけ合い、リスク許容・コスト観点
    • ここはやらなくていいよ集というガイドを決める
  • 基準
    • ツール基準なら、今まで使ってきて問題がないから今も使っている
  • 責任を押し付けるのではなく、共有してアドバイス貰う
    • 知らないからこそ、あなた担当だろという押しつけは散見される


モダン開発におけるAIOpsの重要な役割:ぐるなびが目指す効率的な運用戦略

完全オフラインのようなので、一部メモのみ。

  • クラウド利用における運用の変化
    • 障害発生
      • アラート通知は、開発担当にもいく
        • 開発も一時切り分けをする
    • モダン開発におけるモニタリング
      • アプリケーションは絶えず変化し続ける
        • どこのアラートが把握しにくい
        • 単一のリソースを監視しても、サービスが異常かわからない
    • どうするべきか
      • オブザーバビリティが大事
        • 運用効率化は、サービス状態の把握/可視化が第一歩
      • AIOpsの大事な役割
        • 限られた時間の中で最も不足しているのは経験
          • それをAIOpsで補完する
            • 補完するもの、運用経験において大事な側面
              • 状態の把握、傾向の分析、深い調査力
        • 最小の工数で、一人前のインフラエンジニアに仕立て上げる
  • AIOpsで大事なこと
    • マイクロサービスでは、特定のサービスの異常を検知するだけでは、原因特定が難しい時がある
      • 関連するサービスの異常を紐づける
    • 閾値監視は失敗
    • DevにOpsが入るだけでなく、OpsにもDevが入る
    • 過検出や過検知は発生する
      • 誤検知ではない
      • 最終的には経験が鍵


パネルディスカッション

AIOpsは運用のどこで使うの?使えるの?

  • AI製品を使うのではなく、裏でAIが動いていたという状態が自然
  • AIOpsによるAzureサービス品質の向上
  • 代表的な保守意見
    • ジュニアがAIを使うと危険、学習しない
  • みんなで運用に役立てよう
  • 実際に利用しての効果と課題
    • 運用コストは特に下がらない
      • 理解しようとして使う人たちだから
      • 最後に判断するのはエンジニア
    • コストは下がるけど、品質も下がるなら良くない
  • 生成系AIは使える?
    • 使える
      • ジュニアは新しいアイディアを形にできる
      • エキスパートはさらに仕事ができる
      • 間にいる人は、ただ経験が得られないだけになる?
        • 危機感を持ったほうが良い
    • ChatGPTは出来ないと回答してくれないので、ずっと質問を続けるジュニアもいる
      • 人間でも頑張って教えてくれる先輩はいたが。。。
    • 一番いいと思った例
      • 自然言語の問い合わせを、XXXQLに変換する質問
        • マーケが効果的に使っていた
          • エンジニアに分析を依頼すると、1週間とか時間がかかる
          • エンジニアは勉強すればいいというが、それが正とは限らない
  • 変化するスキルセット
    • 自分は次何をするべきか、考えられる人物が残る
    • AI適用による技術の空洞化のリスク
      • そういうものと受け入れるだけ
      • なくなる仕事はそんなにないと思うが、ものすごく生産性が高まる


所感

濃密な時間を過ごせました。内製化はどうなのか(自動化と同じで周回すると考えが変わる)、オンプレミスの解像度をあげないとだめなのではなどと考えさせられました。
また、オンラインイベントに参加していただいたのに、対面交流がなかった人達とも挨拶できてヨシ!
12月のCNDT2023もぜひ現地参加したい。