ログとアラーム

コンテンツ :

イントロダクション

このドキュメントでは、インシデント発生時に Cygnus-twitter を統合したプラットフォームが発生させるべきアラームについて説明します。したがって、それはプロのオペレータおよびそのようなプラットフォーム管理者に向けられています。

Cygnus メッセージは、それらのメッセージに由来するアラーム状態が記述される前に説明される。

各アラームについて、次の情報が表示されます :

  • Alarm identifier : 1から始まる固有の数値識別子
  • Severity : CRITICAL または WARNING
  • Detection strategy : 関連するアラームを識別するログトレースの例
  • Stop condition : 関連する問題がもうアクティブではないことを意味するログトレースの例
  • Description : アラームをトリガーする状況の詳細な説明
  • Action : この状況に対処するための詳細な計画。例えば、リブート、接続性の確認など

トップ

ログメッセージ・タイプ

Cygnus ログは7つのメッセージタイプに分類され、それぞれがトレースのカスタム・メッセージ部分のタグで識別されます。これらはタグです :

  • Fatal error (FATAL レベル) : この種のエラーは、Cygnus が停止する原因となる可能性があります。そのため、stackoverflow.com を通じて開発チームにレポートする必要があります。fiware でタグ付けしてください

    例 : Fatal error (SSL cannot be used, no such algorithm. Details=...) * Runtime error (ERROR レベル) : この種のエラーは、Cygnus が失敗する原因となる可能性があります。したがって、stackoverflow.com を通じて開発チームにレポートする必要があります。fiware でタグ付けしてください

    例 : Runtime error (The Hive table cannot be created. Hive query=.... Details="...) * Bad configuration (ERROR レベル) : このような種類のエラーは不適切な設定パラメータに関係し、最終的には Cygnus が失敗する可能性があります。

    例 : Bad configuration (Unrecognized HDFS API. The sink can start, but the data is not going to be persisted!) * Channel error (ERROR レベル) : この種のエラーは、エージェントの内部チャネルに関する問題を示します。このチャネルは、Flume のフェールオーバ・メカニズムの一部として使用され、シンクで処理できないイベントを格納します。それにもかかわらず、シンクが新しいイベントを取得できないために、HTTP ソースがイベントを挿入できない(チャネルエラー、または単にフルになっている)ために、チャネルが失敗する可能性があります。

    例 : Channel error (The event could not be got. Details=...) * Persistence error (ERRORレベル) : これらの種類のエラーは、永続性バックエンドに関する問題を伝えます。接続できないか、存在しないフォルダ(バックエンドがそのデータのコンテナをプロビジョニングする必要がある場合、たとえば HDFS のフォルダ)。それは独占的にシンクに投げ込まれます。Flume のチャンネルベースのフェイルオーバー機構と(設定されている場合)パッシブシンクに切り替える Flume Failover Sink Processorのおかげで、Cygnus 自身が問題を解決できることに注意してください。

    例 : Persistence error (Could not connect to the HDFS) * Streaming error (ERROR レベル)。このような種類のエラーは、Twitter API に関する問題について説明しています。無効な資格情報や Twitter の一時的な利用不能のために API に接続できません。それらは TwitterSource によって排他的にスローされます。

    例 : Exception while streaming tweets

デバッグメッセージは、DEBUGのログレベルで、DEBUG としてラベル付けされいます。Cygnus のバージョン、トランザクションの開始/終了などの情報メッセージは、INFO のログレベルとなり、Informational としてラベル付けされます。

トップ

アラーム条件

アラームID 重大度 検出戦略 停止条件 説明 アクション
1 CRITICAL FATAL トレースが発見されました 設定された各 Cygnus-twitter コンポーネント(TwitterSource および TwiterHDFSSink)について、次のトレースが見つかります : Startup completed Cygnusの起動時に問題が発生しました。msg フィールドには特定の問題が詳しく説明されています Cygnus の起動を妨げている問題を修正します。たとえば、ジオクエリの無効な twitter API キーまたは無効な座標に起因する問題の場合は、その値を変更します
2 CRITICAL 以下の ERROR トレースが見つかりました : Runtime error N/A ランタイムエラーが発生しました。msg フィールドには詳細な情報が含まれています Cygnus を再起動します。エラーが続く場合(新しいランタイムエラーが次の1時間以内に表示されるなど)、問題を開発チームにエスカレーションします
3 CRITICAL 次の ERROR トレースが見つかりました : Bad configuration 設定された各 Cygnus コンポーネント(TwitterSource および TwitterHDFSSink )について、次の INFO トレースが見つかります : Startup completed Cygnus コンポーネントは適切な方法で設定されていません コンポーネントを適切な方法で設定します
4 CRITICAL 次の ERROR トレースが見つかりました : Channel error 次の INFO トレースが見つかりました : Event got from the channel ソースに置かれた Flume イベントは、チャネルの問題(おそらく)やシンク自体のために、内部チャネルからのシンクでは得られません ランタイムエラーが発生しました。msg フィールドには詳細な情報が含まれています
5 WARNING 次の ERROR トレースが見つかりました : Persistence error in TwitterHDFSSink 次の INFO トレースが見つかりました : Persisting data in TwitterHDFSSink TwitterHDFSSinkは、接続の問題やストレージのクラッシュ/シャットダウンにより、最終ストレージ(HDFS)にコンテキストデータを保持することができません ストレージの問題を解決した後、Cygnus は、処理されていない Flume イベント(永続化されるコンテキストデータを含む)の一時バッファとして機能する内部チャネルによって、この種のエラーを自動的に修正できるはずです
6 WARNING 以下の ERROR トレースが見つかりました : Exception while streaming tweets N/A TwitterSourceは、接続の問題や無効な認証情報のため、Twitter API からツイートを取得できません 外部の Twitter が利用できないことによる問題ではないことを確認したら、API 資格情報(consumerKey、consumerSecret、accessToken、およびaccessTokenSecret)が有効でアクティブであることを確認します

トップ