ログとアラーム¶
コンテンツ :
イントロダクション¶
このドキュメントでは、インシデント発生時に Cygnus-twitter を統合したプラットフォームが発生させるべきアラームについて説明します。したがって、それはプロのオペレータおよびそのようなプラットフォーム管理者に向けられています。
Cygnus メッセージは、それらのメッセージに由来するアラーム状態が記述される前に説明される。
各アラームについて、次の情報が表示されます :
- Alarm identifier : 1から始まる固有の数値識別子
- Severity : CRITICAL または WARNING
- Detection strategy : 関連するアラームを識別するログトレースの例
- Stop condition : 関連する問題がもうアクティブではないことを意味するログトレースの例
- Description : アラームをトリガーする状況の詳細な説明
- Action : この状況に対処するための詳細な計画。例えば、リブート、接続性の確認など
ログメッセージ・タイプ¶
Cygnus ログは7つのメッセージタイプに分類され、それぞれがトレースのカスタム・メッセージ部分のタグで識別されます。これらはタグです :
-
Fatal error (
FATAL
レベル) : この種のエラーは、Cygnus が停止する原因となる可能性があります。そのため、stackoverflow.com を通じて開発チームにレポートする必要があります。fiware でタグ付けしてください例 :
Fatal error (SSL cannot be used, no such algorithm. Details=...)
* Runtime error (ERROR
レベル) : この種のエラーは、Cygnus が失敗する原因となる可能性があります。したがって、stackoverflow.com を通じて開発チームにレポートする必要があります。fiware でタグ付けしてください例 :
Runtime error (The Hive table cannot be created. Hive query=.... Details="...)
* Bad configuration (ERROR
レベル) : このような種類のエラーは不適切な設定パラメータに関係し、最終的には Cygnus が失敗する可能性があります。例 :
Bad configuration (Unrecognized HDFS API. The sink can start, but the data is not going to be persisted!)
* Channel error (ERROR
レベル) : この種のエラーは、エージェントの内部チャネルに関する問題を示します。このチャネルは、Flume のフェールオーバ・メカニズムの一部として使用され、シンクで処理できないイベントを格納します。それにもかかわらず、シンクが新しいイベントを取得できないために、HTTP ソースがイベントを挿入できない(チャネルエラー、または単にフルになっている)ために、チャネルが失敗する可能性があります。例 :
Channel error (The event could not be got. Details=...)
* Persistence error (ERROR
レベル) : これらの種類のエラーは、永続性バックエンドに関する問題を伝えます。接続できないか、存在しないフォルダ(バックエンドがそのデータのコンテナをプロビジョニングする必要がある場合、たとえば HDFS のフォルダ)。それは独占的にシンクに投げ込まれます。Flume のチャンネルベースのフェイルオーバー機構と(設定されている場合)パッシブシンクに切り替える Flume Failover Sink Processorのおかげで、Cygnus 自身が問題を解決できることに注意してください。例 :
Persistence error (Could not connect to the HDFS)
* Streaming error (ERROR
レベル)。このような種類のエラーは、Twitter API に関する問題について説明しています。無効な資格情報や Twitter の一時的な利用不能のために API に接続できません。それらはTwitterSource
によって排他的にスローされます。例 :
Exception while streaming tweets
デバッグメッセージは、DEBUG
のログレベルで、DEBUG としてラベル付けされいます。Cygnus のバージョン、トランザクションの開始/終了などの情報メッセージは、INFO
のログレベルとなり、Informational としてラベル付けされます。
アラーム条件¶
アラームID | 重大度 | 検出戦略 | 停止条件 | 説明 | アクション |
---|---|---|---|---|---|
1 | CRITICAL | FATAL トレースが発見されました |
設定された各 Cygnus-twitter コンポーネント(TwitterSource および TwiterHDFSSink )について、次のトレースが見つかります : Startup completed |
Cygnusの起動時に問題が発生しました。msg フィールドには特定の問題が詳しく説明されています |
Cygnus の起動を妨げている問題を修正します。たとえば、ジオクエリの無効な twitter API キーまたは無効な座標に起因する問題の場合は、その値を変更します |
2 | CRITICAL | 以下の ERROR トレースが見つかりました : Runtime error |
N/A | ランタイムエラーが発生しました。msg フィールドには詳細な情報が含まれています |
Cygnus を再起動します。エラーが続く場合(新しいランタイムエラーが次の1時間以内に表示されるなど)、問題を開発チームにエスカレーションします |
3 | CRITICAL | 次の ERROR トレースが見つかりました : Bad configuration |
設定された各 Cygnus コンポーネント(TwitterSource および TwitterHDFSSink )について、次の INFO トレースが見つかります : Startup completed |
Cygnus コンポーネントは適切な方法で設定されていません | コンポーネントを適切な方法で設定します |
4 | CRITICAL | 次の ERROR トレースが見つかりました : Channel error |
次の INFO トレースが見つかりました : Event got from the channel |
ソースに置かれた Flume イベントは、チャネルの問題(おそらく)やシンク自体のために、内部チャネルからのシンクでは得られません | ランタイムエラーが発生しました。msg フィールドには詳細な情報が含まれています |
5 | WARNING | 次の ERROR トレースが見つかりました : Persistence error in TwitterHDFSSink |
次の INFO トレースが見つかりました : Persisting data in TwitterHDFSSink |
TwitterHDFSSink は、接続の問題やストレージのクラッシュ/シャットダウンにより、最終ストレージ(HDFS)にコンテキストデータを保持することができません |
ストレージの問題を解決した後、Cygnus は、処理されていない Flume イベント(永続化されるコンテキストデータを含む)の一時バッファとして機能する内部チャネルによって、この種のエラーを自動的に修正できるはずです |
6 | WARNING | 以下の ERROR トレースが見つかりました : Exception while streaming tweets |
N/A | TwitterSource は、接続の問題や無効な認証情報のため、Twitter API からツイートを取得できません |
外部の Twitter が利用できないことによる問題ではないことを確認したら、API 資格情報(consumerKey、consumerSecret、accessToken、およびaccessTokenSecret)が有効でアクティブであることを確認します |