Observability の整理 - san-tak Tech memo

update 2020/8/23

Observability(オブザーバビリティ) の理解

分類（一般的には以下の３つを指している）
- Metrics
- Logging
- Tracing
CNCF Landscape より
- Observability and Analysis カテゴリ
  - Monitoring: Prometheus, New Relic, DATADOG, AppDynamics,
  - Logging: fluentd, elastic, splunk, sumo logic,
  - Tracing: JAEGER,
  - Chaos Engineering:

2020/5/22 開催のSRE Lounge より

https://sre-lounge.connpass.com/event/175323/
AWSコンソールを5年間ぽちぽちしてましたが、やっとTerraformに完全移行しました。-マイクロサービスインフラの移行とその運用について-
- マイクロサービス構成のIaC化(Terraform) の苦労話
- ドキュメンテーションの促進
- 次のチャレンジは、監視のIaC化

~~~ FiNCでは主に Datadog を使って監視を行っているのですが、幾つかの問題があります。サービスごとに設定がまばら（例: あるサービスで監視が漏れている） 1つの監視が全てのサービスを見ていて、サービス個別の事情に対処できない（例: 閾値の違い）サービスが増えるたびに手動で設定が必要こういった問題に対処するため、Datadog も一部は Terraform 化し、各マイクロサービスごとに分散管理していきたいと考えています。また、所謂”プロダクションレディ”に最低限必要となる共通の監視やダッシュボードなどを（ほぼ）自動的に作成するような仕組みも、コード化により作っていけると考えています。 ~~~

SRE NEXT より

https://sre-next.dev
- 2020/1/25
[D3] Practices for Making Alerts Actionable
- YouTube
- 資料
- memo
  - クラウド上での監視で（オンプレ由来のルールでは）アラートが増加
  - アクションできない（静観アラート）が増加　-> 復旧アクションをすることなく事象が収まってしまうもの
  - アラートの判定条件を適切化
  - 振り分けの適切化
  - チャレンジ：「自動復旧」
    - 影響の少ないところから、徐々に
[C4] SLO Review
- YouTube
- 資料
[B5] New RelicのSREに学ぶSREのためのNew Relic活用法
- YouTube
- 資料
[C7] 実践Observability
- YouTube
- 資料
- memo
  - Trace, Metrics, logs の特徴を説明
  - テストもObservability にとって大事。リリースしてからのテストが大事
  - モノリス -> M/S への変革
  - Istio がなかなか動かなかった
  - 分散システムにおいてObservability が重要（一部）
  - 実践をしながら、理論に立ち返ると監視の理解がすすむ

Observability Japan Online #1 より

勉強会情報

2020/03/17(火) 19:00 〜 21:00
https://observability.connpass.com/event/168837/
https://twitter.com/hashtag/o11yjp?src=hashtag_click
Blog など
- https://budougumi0617.github.io/2020/03/21/observability_japan_online/
- https://logmi.jp/tech/articles/322844

メモ

内容的に勉強になるが、資料が公開されていない
- YouTube を見ていくことになる

オブザーバビリティ成熟モデルについて

Getting Started 計測を始める
- Metrics 定期的にグループ化、収集された測定値の集合
- Event ある瞬間に発生する個別のアクション
- Logs 特定のコードブロックが実行されたときにシステムが生成するシンプルなテキスト行
- Trace 異なるコンポーネント間のトランザクションの因果連鎖
Step1: Reactive 受動的対応
- 行動例
  - サービス停止への対応
  - アラートへの対応
  - 障害対応の改善
- 指標例
  - サービス停止率
  - 障害発生率
  - MTTR
- Step2: Proactive 積極的対応
  - 行動例
    - 不安定さをなくす
    - パフォーマンスの改善
    - サービスレベルの策定
    - ユーザ体験の定義と計測
  - 指標例
    - エラー発生率
    - レスポンスタイム
    - SLI/SLO の策定割合
    - パフォーマンス別離脱率
- Step3: Predictive 予測的対応
  - 行動例
    - ちょうどよいスケーリング
    - 避難訓練（わざと障害起こす
    - 実験的デプロイ（実際にデプロイして見ないと分からないことがおおい
  - 指標例
    - （やっと）コストの削減
    - エラーバジェットの消費率
    - デプロイ頻度（いい組織との因果関係は検証必要
- Step4: Data Driven データ駆動
  - 行動例
    - デプロイの評価
    - 顧客満足度の向上
    - カオスエンジニアリング
  - 指標例
    - ビジネス指標の向上
    - CSAT/Netスコアの改善
    - 環境によらないサービスの継続
そーだいさん（曽根壮大さん）
- ツールを変えると運用が変わるんです。運用が変わると何が変わると思います？
- 文化が変わるんです。文化がプロダクトを育てるんですよ

オブザーバビリティについて（仮）

Google でOperations をご担当されている方
StackDriver -> Operations
オブザーバビリティ
- Logs
- Traces
- Metrics
Metrics
- 自分で意思を持って計測内容を実装する
- 時系列データ
Profiler（各社出してきている）
- Google/pprof
  - データの可視化
  - Goは標準で同梱されている
  - Google 本番でもバンバン動いている
  - 開発時のCI/CDだけでない
- 長い時間計測する
- 統計データスタックトレース
- CPU使用時間などの決まったメトリックスを収集
- パフォーマス問題などに使う

Webエンジニアのための監視システム実践ガイド

https://netmark.jp/2020/03/2020-03-03-21-21.html

Observability Meetup #1

New Relic が開催した勉強会

Observability 勉強会情報

2019/9/12 17:00 〜 19:00
https://connpass.com/event/145976/
Blog など
- Observability Meetup #1 に参加して性能監視・可観測性の重要性と New Relic の新機能を聴いてきた
- Observability Meetup (New Relic ユーザー会) 第1 回を開催しました

Qiita

Speakerdeck

Make it Visible - BizReach HRMOS SRE Team's Observability
- SRE のミッション策定の納得度が高い
- SLO 策定の例がわかりやすい
分散システム内の関係性に着目したObservabilityツール
- マイクロサービスのObservability
Observability, Service Mesh and Microservices
- 同じくマイクロサービスのObservability
AWS の事例

SlideShare

ServerlessConf Tokyo2018 サーバーレスなシステムのがんばらない運用監視
- AWS のサーバーレス（主にLambdaだが）、監視をどのように改善していったのか、説明がわかりやすい
デベロッパーのためのAzureクラウドネイティブスタック〜提供したい価値からはじめる高速＋高可用＋高付加価値ソリューション
- マイクロサービスの課題感、価値の説明が分かりやすい
Cloud native computing
- CNCF Cloud Native Trail Map の解説Good!
[Cloud Native Journey ]HCCJP(ハイブリッドクラウド研究会) 第5回勉強会
- 自社紹介が多いが、Cloud Native の説明が使える
Azureをフル活用したサーバーレスの潮流について
- 34ページ：Observability = サービス全体の可視性の担保　と定義
Empowerment through Observability

Prometheus と APM

Prometheus

Prometheus Tokyo Meetup #2 レポート
- Prometheusの凄い所
- クラウド世代の OSS 監視システム「Prometheus」 Meetup でがっつり話を聞いてきた
【運用監視ツール比較】ZABBIXからPrometheusへの移行を開始しました

NewRelic

公式
- https://docs.newrelic.co.jp/docs/integrations/prometheus-integrations
- New Relicでkubernetesを監視する
  - さて、kubernetesの監視でPrometheusを利用されている方もいると思います。New RelicではPrometheusのデータを転送してNew Relic側で転送する機能もリリースしています
- OpenShift でのアプリケーションモニタリング
  - 既にPrometheus を使っている場合の対応案が示されている
Qiita: Kubernetes上のシステムのメトリクスをPrometheusで収集し、New Relicに統合してみる
- 基本的にはNew Relicが提供しているmanifest fileにNew Relicのライセンスキーやクラスタ名を入力し、applyするだけで導入可能
Compare New Relic APM vs Prometheus

Elastic

Datadog

Prometheus統合
なぜPrometheusを辞めてDatadogを採用したのか
- 監視することが目的では無いので、SaaSを使う
- Datadog 社が Monitoring Modern Infractructure という資料のリンクあり

Other

Sysdig
- Kubernetesでゴールデンシグナルを監視する方法
- https://www.scsk.jp/sp/sysdig/blog/prometheus/
APM Guidance
- Prometheus がOpenShift に標準搭載される点