Observability の整理

update 2020/8/23

Observability(オブザーバビリティ) の理解

  • 分類(一般的には以下の3つを指している)
    • Metrics
    • Logging
    • Tracing
  • CNCF Landscape より

関連リンク

2020/5/22 開催のSRE Lounge より

~~~ FiNCでは主に Datadog を使って監視を行っているのですが、幾つかの問題があります。 サービスごとに設定がまばら(例: あるサービスで監視が漏れている) 1つの監視が全てのサービスを見ていて、サービス個別の事情に対処できない(例: 閾値の違い) サービスが増えるたびに手動で設定が必要 こういった問題に対処するため、Datadog も一部は Terraform 化し、各マイクロサービスごとに分散管理していきたいと考えています。 また、所謂”プロダクションレディ”に最低限必要となる共通の監視やダッシュボードなどを(ほぼ)自動的に作成するような仕組みも、コード化により作っていけると考えています。 ~~~

SRE NEXT より

  • https://sre-next.dev
    • 2020/1/25
  • [D3] Practices for Making Alerts Actionable
    • YouTube
    • 資料
    • memo
      • クラウド上での監視で(オンプレ由来のルールでは)アラートが増加
      • アクションできない(静観アラート)が増加 -> 復旧アクションをすることなく事象が収まってしまうもの
      • アラートの判定条件を適切化
      • 振り分けの適切化
      • チャレンジ:「自動復旧」
        • 影響の少ないところから、徐々に
  • [C4] SLO Review
  • [B5] New RelicのSREに学ぶSREのためのNew Relic活用法
  • [C7] 実践Observability
    • YouTube
    • 資料
    • memo
      • Trace, Metrics, logs の特徴を説明
      • テストもObservability にとって大事。リリースしてからのテストが大事
      • モノリス -> M/S への変革
      • Istio がなかなか動かなかった
      • 分散システムにおいてObservability が重要(一部)
      • 実践をしながら、理論に立ち返ると監視の理解がすすむ

Observability Japan Online #1 より

勉強会情報

メモ

  • 内容的に勉強になるが、資料が公開されていない
    • YouTube を見ていくことになる

オブザーバビリティ成熟モデルについて

  • Getting Started 計測を始める
    • Metrics 定期的にグループ化、収集された測定値の集合
    • Event ある瞬間に発生する個別のアクション
    • Logs 特定のコードブロックが実行されたときにシステムが生成するシンプルなテキスト行
    • Trace 異なるコンポーネント間のトランザクションの因果連鎖
  • Step1: Reactive 受動的対応
    • 行動例
      • サービス停止への対応
      • アラートへの対応
      • 障害対応の改善
    • 指標例
      • サービス停止率
      • 障害発生率
      • MTTR
    • Step2: Proactive 積極的対応
      • 行動例
        • 不安定さをなくす
        • パフォーマンスの改善
        • サービスレベルの策定
        • ユーザ体験の定義と計測
      • 指標例
        • エラー発生率
        • レスポンスタイム
        • SLI/SLO の策定割合
        • パフォーマンス別離脱率
    • Step3: Predictive 予測的対応
      • 行動例
        • ちょうどよいスケーリング
        • 避難訓練(わざと障害起こす
        • 実験的デプロイ(実際にデプロイして見ないと分からないことがおおい
      • 指標例
        • (やっと)コストの削減
        • エラーバジェットの消費率
        • デプロイ頻度(いい組織との因果関係は検証必要
    • Step4: Data Driven データ駆動
      • 行動例
        • デプロイの評価
        • 顧客満足度の向上
        • カオスエンジニアリング
      • 指標例
        • ビジネス指標の向上
        • CSAT/Netスコアの改善
        • 環境によらないサービスの継続
  • そーだいさん(曽根壮大さん)
    • ツールを変えると運用が変わるんです。運用が変わると何が変わると思います?
    • 文化が変わるんです。文化がプロダクトを育てるんですよ

オブザーバビリティについて(仮)

  • Google でOperations をご担当されている方
  • StackDriver -> Operations
  • オブザーバビリティ
    • Logs
    • Traces
    • Metrics
  • Metrics
    • 自分で意思を持って計測内容を実装する
    • 時系列データ
  • Profiler(各社出してきている)
    • Google/pprof
      • データの可視化
      • Goは標準で同梱されている
      • Google 本番でもバンバン動いている
      • 開発時のCI/CDだけでない
    • 長い時間計測する
    • 統計データスタックトレース
    • CPU使用時間などの決まったメトリックスを収集
    • パフォーマス問題などに使う

Webエンジニアのための監視システム実践ガイド

Observability Meetup #1

  • New Relic が開催した勉強会

Observability 勉強会情報

Qiita

Speakerdeck

SlideShare

Prometheus と APM

Prometheus

NewRelic

Elastic

Datadog

Other