PagerDutyでインシデント対応を可視化する

シンジです。PagerDuty(ページャー・デューティー)をご存じですか?SaaSです。cloudpackの場合、SenseやNagios、Datadogなどなどから飛ぶメールを放り込んで、全てのインシデントを一括管理しています。今日はそんなPagerDutyの簡単なご紹介です。

これぞ神髄、エスカレーションポリシー


まずアラートの内容で緊急度を判断したいのですが、大抵それらは機械的にやっていたとしても最後は人です。PagerDutyの場合は、この1つ1つのアラートに対して、「誰が、いつ対応を初めて、いつ完了となったのか」を記録します。

また重要なのが、アラートが「誰に」飛ぶかです。メールの場合は、「メーリンングリスト」を作って、とにかく担当者と思わしき人にメールを送りつけるテロが行われるわけですが、誰がどのインシデントに対応してるかさっぱり分かりません。そこで「エスカレーションポリシー」の出番です。

1のグループに連絡がいきます。5分経っても反応が無い場合、2のグループに連絡がいきます。更に5分経っても反応が無い場合、3のグループに連絡がいきます。(繰り返すことも可能です)

グループやユーザーの設定は比較的自由に出来ますが、ここの作り込みはなかなか労力を取られます。

SSOで超安全!


上の画像では実際に設定されていた画面です。(中身は消しましたが)
SAMLによるシングルサインオンにも対応していますし、様々なログインオプションの選択が可能です。非常に重要な機能です。

スマホで使えて便利!


通知されたインシデントを「Acknowledge」(把握したよん〜)の状態にするには、PC/Macよりかは、スマホでささっと操作した方が楽です。通知画面からもAcknowledgeに変えられるので便利ですね〜。

Slackとの連携が便利

 

この画像だと 顧客情報が多いため、モザイクだらけでもはや何をやっているかよく分かりませんが、APIを駆使して作業状況をSlackへ記録しているようです。

まとめ

インシデントに対して、チームとして取り組めるという点が魅力的です。また、サービスレベルを図る際に、インシデント発生時から対応完了までの時間も全て記録されていますから(MTTA・MTTR)、どのチームが対応早いとか、目標値以内だったとか、いろいろな評価の指針となりますね。Slackと連携できる点、SSO出来る点は高評価です。