4. クローラの種類と仕様¶
4.1. 共通仕様¶
ジョブスケジューラ機能のジョブとして以下のジョブを提供しています。
- ワークフロークローラ
4.1.1. 最終クロール日時¶
ワークフロークローラでは、処理が正常終了した場合にクローラの最終実行日時をファイルに保存します。差分クローリング実行時にはこのファイルを参照し、前回の実行日時より後にコンテンツの登録・更新対象となった案件を抽出します。日時のフォーマットは “yyyy-MM-dd HH:mm:ss” です。最終クロール日時を保存するファイルは、クローラジョブの初回正常終了時にPublicStorageの以下のディレクトリに保存されます。
- %PUBLIC_STORAGE_PATH%/products/im_contents_search/store/%テナントID%/last_crawling_date/workflow.json
ただし、削除クローリングが実行された場合、最終クロール日時は “2000-01-01 00:00:00” に初期化されます。
コラム
初回実行時の動作仕様
初期状態の場合、最終クロール日時を保存するファイルは存在していません。この場合、既定値として”2000年1月1日0時0分0秒”を最終クロール日時として動作する仕様です。初回実行時の最終クロール日時を明示的に指定したい場合は、上記の「workflow.json」ファイルを作成し、任意の日時を上記の日時フォーマットにて設定してください。
「workflow.json」ファイルの設定例{ "workflow": "2014-09-01 00:00:00" }
4.2. [ ジョブ ] ワークフロークローラ¶
IM-Workflow のコンテンツの差分クローリングと削除クローリング、再作成クローリングを行うジョブです。
ジョブカテゴリ IM-ContentsSearch クローラ ジョブID workflow-crawler ジョブ名 ワークフロークローラ ワークフロージョブは標準で以下のジョブネットにより登録されています。
- 差分クローリング(ジョブネットID: crawler-delta-jobnet)
ワークフロークローラの差分クローリングを実行します。
- 削除クローリング(ジョブネットID: crawler-delete-jobnet)
ワークフロークローラの削除クローリングを実行します。
- 再作成クローリング(ジョブネットID: crawler-reindex-jobnet)
ワークフロークローラの削除クローリングを実行後に、差分クローリングを実行します。
4.2.1. [ ジョブネット ] 差分クローリング¶
- 差分クローリング実行時の登録・更新対象
差分クローリング実行時にコンテンツの登録・更新の対象となる案件の条件は以下の通りです。最終クロール日時以降で以下のいずれかの条件を1つでも満たす案件について、コンテンツの登録、または更新が行われます。
- 申請または処理が行われた案件
- 完了した案件
- アーカイブが行われた案件
- 差分クローリング実行時の実行パラメータ
差分クローリング実行時には、差分クローリングのジョブネット、および、ワークフロークローラのジョブ情報に設定されている以下の実行パラメータが利用されます。
キー 説明 crawlingType クローラの動作タイプを設定します。”DELTA”である場合のみ差分クローリングが動作します。 groupName 処理対象とする検索サーバグループIDを指定します。 maxSegments 最適化の度合いを設定します。 withCommit 処理終了時に更新データを確定するかを設定します。 withOptimize 処理終了時にデータの最適化をするかを設定します。
4.2.2. [ ジョブネット ] 削除クローリング¶
ワークフロークローラが作成したコンテンツをすべて削除します。
- 削除クローリング実行時の実行パラメータ
削除クローリング実行時には、削除クローリングのジョブネット、および、ワークフロークローラのジョブ情報に設定されている以下の実行パラメータが利用されます。
キー 説明 crawlingType クローラの動作タイプを設定します。”DELETE”である場合のみ削除クローリングは動作します。 groupName 処理対象とする検索サーバグループIDを指定します。 maxSegments 最適化の度合いを設定します。 withCommit 処理終了時に更新データを確定するかを設定します。 withOptimize 処理終了時にデータの最適化をするかを設定します。
4.2.3. [ ジョブネット ] 再作成クローリング¶
ワークフロークローラが作成したコンテンツを一旦すべて削除し、再度登録します。
- 再作成クローリング実行時の実行パラメータ
再作成クローリング実行時には、再作成クローリングのジョブネット、および、ワークフロークローラのジョブ情報に設定されている以下の実行パラメータが利用されます。
キー 説明 crawlingType クローラの動作タイプを設定します。”REINDEX”である場合のみ再作成クローリングは動作します。 groupName 処理対象とする検索サーバグループIDを指定します。 maxSegments 最適化の度合いを設定します。 withCommit 処理終了時に更新データを確定するかを設定します。 withOptimize 処理終了時にデータの最適化をするかを設定します。