快速資訊擷取系統並不會連續掃描文字文件; 因為這樣會需要很長的時間。而是會在之前建立的文字索引上運作。您可以將文字索引想成是由文字文件中取出的有意義術語, 而每個術語都會和包含它的文件相關資訊儲存在一起。
文字索引只會含有相關的資訊;並不會為沒有意義的字詞編製索引, 如「與」、「的」及「哪」。 (不會為 Ngram 索引執行停止字詞過濾。) DB2 Text Extender 使用這些字詞的列示 (稱為停止字詞) 來避免對它們編製索引。
擷取系統會透過索引來搜尋要求的術語, 以尋找含有那些術語的文字文件。
要訣 |
---|
如果需要修改停止字詞的列示,請只在安裝時間修改一次。 |
每個語言的停止字詞列示都是儲存在您可修改的檔案中 (請參閱修改停止字詞及縮寫檔案),但因為整個系統只有一個檔案, 所以您應該只在第一次設定 DB2 Text Extender 時修改一次。 如果以後再變更此檔案,則現有的索引就不會反應這次的變更。
舉例來說,在有些文件中含有每週出刊的雜誌,它的名稱是 Now。如果您將此字詞從停止字詞中除去, 則以後搜尋時就可編製索引並找到它。但是,在移去此停止字詞之前所建立的索引, 都不會含有 now 這個字詞,且搜尋它會失敗。
如果真得決定要變更停止字詞,且希望此變更反應到所有索引, 則必須重新建立所有索引。
編製索引的處理有兩個步驟。第一個步驟是記錄到需要編製索引的文字文件日誌表格。只要您在直欄中插入、更新或刪除文字文件, 就會透過 DB2 起始動作定義自動發生。
第二個步驟是為列示在日誌表格中的文字文件編製索引。 這個步驟可能是定期處理。會將直欄中所插入或變更的那些文件的術語新增到索引中。而會將直欄中所刪除的那些文件的術語從索引中除去。
![]() |