Observability の整理
update 2020/8/23
Observability(オブザーバビリティ) の理解
- 分類(一般的には以下の3つを指している)
- Metrics
- Logging
- Tracing
- CNCF Landscape より
- Observability and Analysis カテゴリ
- Monitoring: Prometheus, New Relic, DATADOG, AppDynamics,
- Logging: fluentd, elastic, splunk, sumo logic,
- Tracing: JAEGER,
- Chaos Engineering:
- Observability and Analysis カテゴリ
関連リンク
- New Relic Blog
- NoOps
- NoOps の構成要素としてObservability が定義されている
- NoOps Japan Community
- NoOps Meetup Tokyo #8 資料より
- 分散システム内のプロセス間の関係性に着目したObservabilityツールの設計と実装
- さくらインターネット研ゆううきさん
- 分散トレーシングへの提言
- Datadog vs New Relic
- 可観測性(Observability)動向
- NTTソフトウェアの方が、2019/5 のKubeCon + CloudNativeCon Europe 2019 でのまとめ
- ObservabilityのNew Relic、創業秘話と新しいプラットフォームについて語る
- ThinkIT 記事
- 日本のエンタープライズ企業に対して、ObservabilityをKubernetesなどの分散型のシステムにおいて実践する際のアドバイスはありますか?
- 『どうやったらユーザーエクスペリエンスを改善できるのか?』 これを問題として設定して、それを解決していくというやり方をお勧めしたいですね。
- MLOpsチームにおける監視の考え方や取り組み
- クラウドネイティブアプリケーションの観測可能性と監視
- ObservabilityとDatadogで実現したいこと
- Chaos Conf 2019 視察レポート】Chaos Engineeringの盛り上がりを実感
- Metrics, tracing, and logging
- SLI向上のためにパフォーマンス定点観測会をやってきた話
- 週1回、APIチーム + SREチーム 10数名でのミーティング
- 3チームにわかれてレポートを確認、考察、タスク候補洗い出し
- 最後に集まって出た問題を共有、優先度付けTODOをだす
2020/5/22 開催のSRE Lounge より
- https://sre-lounge.connpass.com/event/175323/
- AWSコンソールを5年間ぽちぽちしてましたが、やっとTerraformに完全移行しました。-マイクロサービスインフラの移行とその運用について-
- マイクロサービス構成のIaC化(Terraform) の苦労話
- ドキュメンテーションの促進
- 次のチャレンジは、監視のIaC化
~~~ FiNCでは主に Datadog を使って監視を行っているのですが、幾つかの問題があります。 サービスごとに設定がまばら(例: あるサービスで監視が漏れている) 1つの監視が全てのサービスを見ていて、サービス個別の事情に対処できない(例: 閾値の違い) サービスが増えるたびに手動で設定が必要 こういった問題に対処するため、Datadog も一部は Terraform 化し、各マイクロサービスごとに分散管理していきたいと考えています。 また、所謂”プロダクションレディ”に最低限必要となる共通の監視やダッシュボードなどを(ほぼ)自動的に作成するような仕組みも、コード化により作っていけると考えています。 ~~~
SRE NEXT より
- https://sre-next.dev
- 2020/1/25
- [D3] Practices for Making Alerts Actionable
- [C4] SLO Review
- [B5] New RelicのSREに学ぶSREのためのNew Relic活用法
- [C7] 実践Observability
Observability Japan Online #1 より
勉強会情報
- 2020/03/17(火) 19:00 〜 21:00
- https://observability.connpass.com/event/168837/
- https://twitter.com/hashtag/o11yjp?src=hashtag_click
- Blog など
メモ
- 内容的に勉強になるが、資料が公開されていない
- YouTube を見ていくことになる
オブザーバビリティ成熟モデルについて
- Getting Started 計測を始める
- Step1: Reactive 受動的対応
- 行動例
- サービス停止への対応
- アラートへの対応
- 障害対応の改善
- 指標例
- サービス停止率
- 障害発生率
- MTTR
- Step2: Proactive 積極的対応
- 行動例
- 不安定さをなくす
- パフォーマンスの改善
- サービスレベルの策定
- ユーザ体験の定義と計測
- 指標例
- エラー発生率
- レスポンスタイム
- SLI/SLO の策定割合
- パフォーマンス別離脱率
- 行動例
- Step3: Predictive 予測的対応
- 行動例
- ちょうどよいスケーリング
- 避難訓練(わざと障害起こす
- 実験的デプロイ(実際にデプロイして見ないと分からないことがおおい
- 指標例
- (やっと)コストの削減
- エラーバジェットの消費率
- デプロイ頻度(いい組織との因果関係は検証必要
- 行動例
- Step4: Data Driven データ駆動
- 行動例
- デプロイの評価
- 顧客満足度の向上
- カオスエンジニアリング
- 指標例
- ビジネス指標の向上
- CSAT/Netスコアの改善
- 環境によらないサービスの継続
- 行動例
- 行動例
- そーだいさん(曽根壮大さん)
- ツールを変えると運用が変わるんです。運用が変わると何が変わると思います?
- 文化が変わるんです。文化がプロダクトを育てるんですよ
オブザーバビリティについて(仮)
- Google でOperations をご担当されている方
- StackDriver -> Operations
- オブザーバビリティ
- Logs
- Traces
- Metrics
- Metrics
- 自分で意思を持って計測内容を実装する
- 時系列データ
- Profiler(各社出してきている)
Webエンジニアのための監視システム実践ガイド
Observability Meetup #1
- New Relic が開催した勉強会
Observability 勉強会情報
- 2019/9/12 17:00 〜 19:00
- https://connpass.com/event/145976/
- Blog など
Qiita
Speakerdeck
- Make it Visible - BizReach HRMOS SRE Team's Observability
- SRE のミッション策定の納得度が高い
- SLO 策定の例がわかりやすい
- 分散システム内の関係性に着目したObservabilityツール
- マイクロサービスのObservability
- Observability, Service Mesh and Microservices
- 同じくマイクロサービスのObservability
- AWS の事例
SlideShare
- ServerlessConf Tokyo2018 サーバーレスなシステムのがんばらない運用監視
- AWS のサーバーレス(主にLambdaだが)、監視をどのように改善していったのか、説明がわかりやすい
- デベロッパーのためのAzureクラウドネイティブスタック 〜 提供したい価値からはじめる高速+高可用+高付加価値ソリューション
- マイクロサービスの課題感、価値の説明が分かりやすい
- Cloud native computing
- CNCF Cloud Native Trail Map の解説Good!
- [Cloud Native Journey ]HCCJP(ハイブリッドクラウド研究会) 第5回勉強会
- 自社紹介が多いが、Cloud Native の説明が使える
- Azureをフル活用したサーバーレスの潮流について
- 34ページ:Observability = サービス全体の可視性の担保 と定義
- Empowerment through Observability
Prometheus と APM
Prometheus
- Prometheus Tokyo Meetup #2 レポート
- 【運用監視ツール比較】ZABBIXからPrometheusへの移行を開始しました
NewRelic
- 公式
- https://docs.newrelic.co.jp/docs/integrations/prometheus-integrations
- New Relicでkubernetesを監視する
- さて、kubernetesの監視でPrometheusを利用されている方もいると思います。New RelicではPrometheusのデータを転送してNew Relic側で転送する機能もリリースしています
- OpenShift でのアプリケーションモニタリング
- 既にPrometheus を使っている場合の対応案が示されている
- Qiita: Kubernetes上のシステムのメトリクスをPrometheusで収集し、New Relicに統合してみる
- 基本的にはNew Relicが提供しているmanifest fileにNew Relicのライセンスキーやクラスタ名を入力し、applyするだけで導入可能
- Compare New Relic APM vs Prometheus
Elastic
Datadog
- Prometheus統合
- なぜPrometheusを辞めてDatadogを採用したのか
- 監視することが目的では無いので、SaaSを使う
- Datadog 社が Monitoring Modern Infractructure という資料のリンクあり
Other
- Sysdig
- APM Guidance
- Prometheus がOpenShift に標準搭載される点