クローラの種類¶
Accel Archiverクローラ¶
intra-mart Accel Archiver のコンテンツの差分クローリングと削除クローリングと再作成クローリングを行うジョブです。
ジョブカテゴリ IM-ContentsSearch クローラ ジョブID wdc-crawler ジョブ名 Accel Archiverクローラ Accel Archiverクローラジョブは以下のジョブネットに登録されています。
- 差分クローリング(ジョブネットID: crawler-delta-jobnet)
- 削除クローリング(ジョブネットID: crawler-delete-jobnet)
- 再作成クローリング(ジョブネットID: crawler-reindex-jobnet)
クローラ仕様¶
最終クロール日時¶
Accel Archiverクローラでは、処理が正常終了した場合にクローラの最終実行日時をファイルに保存します。差分クローリング実行時にはこのファイルを参照し、前回の実行日時より後にコンテンツの登録・更新対象となったドキュメントを抽出します。日時のフォーマットは “yyyy-MM-dd HH:mm:ss” です。最終クロール日時を保存するファイルは、クローラジョブの初回正常終了時にPublicStorageの以下のディレクトリに保存されます。
- %PUBLIC_STORAGE_PATH%/products/im_contents_search/store/%テナントID%/last_crawling_date/wdc.json
ただし、削除クローリングが実行された場合、最終クロール日時は “2000-01-01 00:00:00” に初期化されます。初回実行時の動作仕様
初期状態の場合、最終クロール日時を保存するファイルは存在していません。この場合、既定値として”2000年1月1日0時0分0秒”を最終クロール日時として動作します。初回実行時の対象日時を明示的に指定したい場合は、上記ファイルを作成して対象日時を上記の日時フォーマットにて設定してください。
クローリング¶
差分クローリング¶
差分クローリング実行時の登録・更新対象
差分クローリング実行時にコンテンツの登録・更新の対象となるドキュメントの条件は、最終クロール日時以降で、登録、編集または削除されたものです。差分クローリング実行時の実行パラメータ
差分クローリング実行時には差分クローリングのジョブネット、および、Accel Archiverクローラのジョブ情報に設定されている以下の実行パラメータが利用されます。
キー 説明 crawlingType クローラの動作タイプを設定します。”DELTA”である場合のみ差分クローリングは動作します。 groupName 処理対象とする検索サーバグループIDを指定します。 maxSegments 最適化の度合いを設定します。 withCommit 処理終了時に更新データを確定するかを設定します。 withOptimize 処理終了時にデータの最適化をするかを設定します。
削除クローリング¶
Accel Archiverクローラが作成したコンテンツをすべて削除します。削除クローリング実行時の実行パラメータ
削除クローリング実行時には削除クローリングのジョブネット、および、Accel Archiverクローラのジョブ情報に設定されている以下の実行パラメータが利用されます。
キー 説明 crawlingType クローラの動作タイプを設定します。”DELETE”である場合のみ削除クローリングは動作します。 groupName 処理対象とする検索サーバグループIDを指定します。 maxSegments 最適化の度合いを設定します。 withCommit 処理終了時に更新データを確定するかを設定します。 withOptimize 処理終了時にデータの最適化をするかを設定します。
再作成クローリング¶
Accel Archiverクローラが作成したコンテンツをすべて削除し、作成対象のドキュメントのコンテンツを再度登録します。再作成クローリング実行時の実行パラメータ
再作成クローリング実行時には再作成クローリングのジョブネット、および、Accel Archiverクローラのジョブ情報に設定されている以下の実行パラメータが利用されます。
キー 説明 crawlingType クローラの動作タイプを設定します。”REINDEX”である場合のみ再作成クローリングは動作します。 groupName 処理対象とする検索サーバグループIDを指定します。 maxSegments 最適化の度合いを設定します。 withCommit 処理終了時に更新データを確定するかを設定します。 withOptimize 処理終了時にデータの最適化をするかを設定します。