ログとアラーム¶
コンテンツ :
イントロダクション¶
このドキュメントでは、インシデント発生時に Cygnus-twitter を統合したプラットフォームが発生させるべきアラームについて説明します。したがって、それはプロのオペレータおよびそのようなプラットフォーム管理者に向けられています。
Cygnus メッセージは、それらのメッセージに由来するアラーム状態が記述される前に説明される。
各アラームについて、次の情報が表示されます :
- Alarm identifier : 1から始まる固有の数値識別子
- Severity : CRITICAL または WARNING
- Detection strategy : 関連するアラームを識別するログトレースの例
- Stop condition : 関連する問題がもうアクティブではないことを意味するログトレースの例
- Description : アラームをトリガーする状況の詳細な説明
- Action : この状況に対処するための詳細な計画。例えば、リブート、接続性の確認など
ログメッセージ・タイプ¶
Cygnus ログは7つのメッセージタイプに分類され、それぞれがトレースのカスタム・メッセージ部分のタグで識別されます。これらはタグです :
-
Fatal error (
FATALレベル) : この種のエラーは、Cygnus が停止する原因となる可能性があります。そのため、stackoverflow.com を通じて開発チームにレポートする必要があります。fiware でタグ付けしてください例 :
Fatal error (SSL cannot be used, no such algorithm. Details=...)* Runtime error (ERRORレベル) : この種のエラーは、Cygnus が失敗する原因となる可能性があります。したがって、stackoverflow.com を通じて開発チームにレポートする必要があります。fiware でタグ付けしてください例 :
Runtime error (The Hive table cannot be created. Hive query=.... Details="...)* Bad configuration (ERRORレベル) : このような種類のエラーは不適切な設定パラメータに関係し、最終的には Cygnus が失敗する可能性があります。例 :
Bad configuration (Unrecognized HDFS API. The sink can start, but the data is not going to be persisted!)* Channel error (ERRORレベル) : この種のエラーは、エージェントの内部チャネルに関する問題を示します。このチャネルは、Flume のフェールオーバ・メカニズムの一部として使用され、シンクで処理できないイベントを格納します。それにもかかわらず、シンクが新しいイベントを取得できないために、HTTP ソースがイベントを挿入できない(チャネルエラー、または単にフルになっている)ために、チャネルが失敗する可能性があります。例 :
Channel error (The event could not be got. Details=...)* Persistence error (ERRORレベル) : これらの種類のエラーは、永続性バックエンドに関する問題を伝えます。接続できないか、存在しないフォルダ(バックエンドがそのデータのコンテナをプロビジョニングする必要がある場合、たとえば HDFS のフォルダ)。それは独占的にシンクに投げ込まれます。Flume のチャンネルベースのフェイルオーバー機構と(設定されている場合)パッシブシンクに切り替える Flume Failover Sink Processorのおかげで、Cygnus 自身が問題を解決できることに注意してください。例 :
Persistence error (Could not connect to the HDFS)* Streaming error (ERRORレベル)。このような種類のエラーは、Twitter API に関する問題について説明しています。無効な資格情報や Twitter の一時的な利用不能のために API に接続できません。それらはTwitterSourceによって排他的にスローされます。例 :
Exception while streaming tweets
デバッグメッセージは、DEBUGのログレベルで、DEBUG としてラベル付けされいます。Cygnus のバージョン、トランザクションの開始/終了などの情報メッセージは、INFO のログレベルとなり、Informational としてラベル付けされます。
アラーム条件¶
| アラームID | 重大度 | 検出戦略 | 停止条件 | 説明 | アクション |
|---|---|---|---|---|---|
| 1 | CRITICAL | FATAL トレースが発見されました |
設定された各 Cygnus-twitter コンポーネント(TwitterSource および TwiterHDFSSink)について、次のトレースが見つかります : Startup completed |
Cygnusの起動時に問題が発生しました。msg フィールドには特定の問題が詳しく説明されています |
Cygnus の起動を妨げている問題を修正します。たとえば、ジオクエリの無効な twitter API キーまたは無効な座標に起因する問題の場合は、その値を変更します |
| 2 | CRITICAL | 以下の ERROR トレースが見つかりました : Runtime error |
N/A | ランタイムエラーが発生しました。msg フィールドには詳細な情報が含まれています |
Cygnus を再起動します。エラーが続く場合(新しいランタイムエラーが次の1時間以内に表示されるなど)、問題を開発チームにエスカレーションします |
| 3 | CRITICAL | 次の ERROR トレースが見つかりました : Bad configuration |
設定された各 Cygnus コンポーネント(TwitterSource および TwitterHDFSSink )について、次の INFO トレースが見つかります : Startup completed |
Cygnus コンポーネントは適切な方法で設定されていません | コンポーネントを適切な方法で設定します |
| 4 | CRITICAL | 次の ERROR トレースが見つかりました : Channel error |
次の INFO トレースが見つかりました : Event got from the channel |
ソースに置かれた Flume イベントは、チャネルの問題(おそらく)やシンク自体のために、内部チャネルからのシンクでは得られません | ランタイムエラーが発生しました。msg フィールドには詳細な情報が含まれています |
| 5 | WARNING | 次の ERROR トレースが見つかりました : Persistence error in TwitterHDFSSink |
次の INFO トレースが見つかりました : Persisting data in TwitterHDFSSink |
TwitterHDFSSinkは、接続の問題やストレージのクラッシュ/シャットダウンにより、最終ストレージ(HDFS)にコンテキストデータを保持することができません |
ストレージの問題を解決した後、Cygnus は、処理されていない Flume イベント(永続化されるコンテキストデータを含む)の一時バッファとして機能する内部チャネルによって、この種のエラーを自動的に修正できるはずです |
| 6 | WARNING | 以下の ERROR トレースが見つかりました : Exception while streaming tweets |
N/A | TwitterSourceは、接続の問題や無効な認証情報のため、Twitter API からツイートを取得できません |
外部の Twitter が利用できないことによる問題ではないことを確認したら、API 資格情報(consumerKey、consumerSecret、accessToken、およびaccessTokenSecret)が有効でアクティブであることを確認します |