ログとアラーム

コンテンツ :

イントロダクション

このドキュメントでは、インシデントが発生したときに Cygnus が統合すべきプラットフォームのアラームについて説明します。したがって、それはプロのオペレータおよびそのようなプラットフォーム管理者に向けられています。

Cygnus メッセージは、それらのメッセージに由来するアラーム状態が記述される前に説明されます。

各アラームについて、次の情報が表示されます :

  • Alarm identifier : 1から始まる固有の数値識別子
  • Severity : 重大(CRITICAL)または警告(WARNING)
  • Detection strategy : 関連するアラームを識別するログトレースの例
  • Stop condition : 関連する問題がもうアクティブではないことを意味するログトレースの例
  • Description : アラームをトリガーする状況の詳細な説明
  • Action : この状況に対処するための詳細な計画。例えば、リブート、接続性の確認など

トップ

ログメッセージタイプ

Cygnus ログは7つのメッセージタイプに分類され、それぞれがトレースのカスタム・メッセージ部分のタグで識別されます。これらはタグです :

  • Fatal error (FATAL レベル)。この種のエラーは、Cygnu sが停止する原因となる可能性があります。そのため、stackoverflow.com を通じて開発チームにレポートする必要があります。レポートは fiware でタグ付けしてください

    例 : Fatal error (SSL cannot be used, no such algorithm. Details=...)

  • Runtime error (ERROR レベル)。この種のエラーは、Cygnus が失敗する原因となる可能性があります。したがって、stackoverflow.com を通じて開発チームにレポートする必要があります。レポートは fiware でタグ付けしてください

    例 : Runtime error (The Hive table cannot be created. Hive query=.... Details="...)

  • Bad configuration (ERRORレベル)。このような種類のエラーは不適切な設定パラメータに関係し、最終的には Cygnus が失敗する可能性があります

    例 : Bad configuration (Unrecognized HDFS API. The sink can start, but the data is not going to be persisted!)

  • Bad HTTP notification (WARNレベル)。これらの種類のエラーは、HTTP メッセージに関する不正な形式の通知に関連しています.REST メソッド、ターゲット、ユーザエージェントまたはコンテンツタイプ、空の本文などはサポートされていません。それらは NGSIRestHandler コンポーネントによって排他的にスローされます。

    例 : Bad HTTP notification (aggregation target not supported)

  • Bad context data (WARNレベル)。これらの種類のエラーは、通知されたコンテキストデータ内の意味的な不一致に関連しています。既知のインスタンスの異常な数の属性または存在しない属性(属性の数が一致している場合でも)です。排他的にシンクよってスローされます。

    例 : Bad context data (The markup in the document following the root element must be well-formed)

  • Channel error (ERRORレベル)。この種のエラーは、エージェントの内部チャネルに関する問題を示します。このチャネルは、Flume のフェールオーバーメカニズムの一部として使用され、シンクで処理できないイベントを格納します。それにもかかわらず、シンクが新しいイベントを取得できないために、HTTP ソースがイベントを挿入できない(チャネルエラー、または単にフルになっている)ために、チャネルが失敗する可能性があります。

    例 : Channel error (The event could not be got. Details=...)

  • Persistence error (ERRORレベル)。このような種類のエラーは、永続性バックエンドに関する問題を伝えます。バックエンドがそのエンティティのコンテナをプロビジョニングする必要がある場合に、接続できないか、存在しないエンティティ。たとえば MySQL または CKAN のエンティティ関連テーブル。排他的にシンクよってスローされます。Flume のチャンネルベースのフェイルオーバー機構と(設定されている場合)パッシブ・シンクに切り替える Flume Failover Sink Processor のおかげで、Cygnus 自身が問題を解決できることに注意してください。

    例 : Persistence error (Could not connect to the MySQL server)

デバッグメッセージは DEBUG のログレベルで、Debug としてラベル付けされます。Cygnus のバージョン、トランザクションの開始/終了などの情報メッセージは、 Informational としてラベル付けされ、INFO のログレベルとなります。

トップ

アラーム条件

アラームID 重大度 検出戦略 停止条件 説明 アクション
1 CRITICAL FATAL トレースが発見されました 各設定されたCygnus コンポーネントについて(NGSIRestHandler, NGSIHDFSSink, NGSIMySQLSinkNGSICKANSink)、次のトレースが見つかりました : Startup completed Cygnus の起動時に問題が発生しました。msg フィールドには特定の問題が詳しく説明されています Cygnus の起動を妨げている問題を修正してください。例えば、特定のソースのリスニングポートが既に使用されているために問題が発生した場合は、リスニングポートを変更するか、プロセスを使用してプロセスを停止してください
2 CRITICAL 次の ERROR トレースが見つかりました : Runtime error N/A ランタイムエラーが発生しました。この msg フィールドには詳細な情報が含まれています Cygnus を再起動します。新たな Runtime errors が次の1時間以内に表示されるなどエラーが続く場合、問題を開発チームにエスカレーションします
3 CRITICAL 次の ERROR トレースが見つかりました : Bad configuration 各設定されたCygnus コンポーネントについて(NGSIRestHandler, NGSIHDFSSink, NGSIMySQLSinkNGSICKANSink)、次の INFO トレースが見つかりました : Startup completed Cygnus コンポーネントが適切な方法で設定されていません コンポーネントを適切な方法で設定します
4 CRITICAL 次の ERROR トレースが見つかりました : Channel error 次の INFO トレースが見つかりました : Event got from the channel ソースに置かれた Flume イベントは、おそらく、チャネルやシンク自体の問題のために、内部チャネルからのシンクでは得られません ランタイムエラーが発生しました。msg フィールドには詳細な情報が含まれています
5 WARNING 次の WARN トレースが見つかりました : Bad HTTP notification 次の INFO トレースが見つかりました : Event put in the channel Orion によって送信された HTTP 通知は、ターゲット、メソッド、ユーザエージェント、および/またはコンテンツタイプが異常であるように、正しく構成されていません Cygnus で何もする必要はありません。Orion Context Broker のような送信者がそのような異常な方法で通知を作成している理由を確認してください
6 WARNING 次の WARN トレースが見つかりました : Bad context data in sink_name, being sink_name : NGSIHDFSSink, NGSIMySQLSink または NGSICKANSink 次の INFO トレースが見つかりました : Persisting data in sink_name, sink_name というアラームを発生させた同じシンク 通知内のコンテキストデータが間違っています。存在しないエンティティを参照するか、異常な数の属性を表示するか、または存在しない属性を示すかのいずれかです Cygnus で何もする必要はありません。MySQLを使用する場合のテーブルなどのデータ・コンテナの展開を確認し、存在する不一致を修正します
7 WARNING 次の WARN トレースが見つかりました : Persistence error in sink_name, being sink_name : NGSIHDFSSink, NGSIMySQLSink または NGSICKANSink 次の INFO トレースが見つかりました : Persisting data in sink_name、sink_name というアラームを発生させた同じシンク 接続の問題やストレージのクラッシュ/シャットダウンにより、シンクのいずれかが最終ストレージ HDFS, MySQL または CKAN にコンテキストデータを保持できません ストレージの問題を解決した後、Cygnus は、処理されていない Flume イベント(持続されるコンテキストデータを含む)の一時バッファとして機能する内部チャネルによって、この種のエラーを自動的に修正できるはずです

トップ