Documentation
(C) IBM Corp. 1996, 2000

DB2 Text Extender

搜尋引數

搜尋引數語法

>>-+---------------------------------------------------+-------->
   '-THESAURUS--"thesaurus-name"--+-----------------+--'
                                  '-COUNT--"depth"--'
 
>-----+-----------------------+--------------------------------->
      '-RESULT LIMIT--number--'
 
>-----+-| boolean-argument |--+---------------------------+----------------------------------------------+>
      |                       '-&--| freetext-argument |--'                                              |
      |  .-& 或 |-------------------.                                                                    |
      |  V                          |                                                                    |
      '----| attribute-argument |---+--+---------------------------------------+--| freetext-argument |--'
                                       '-(備註︰含有 &)--| boolean-argument |--'
 
>--------------------------------------------------------------><
 
boolean-argument
 
    .-& 或 |--------------------------------------------------------------.
    V                                                                     |
|-----+-| search-factor |----------------------------------------------+--+->
      |                       .---------------------------------.      |
      |                       V                                 |      |
      '-(--| search-factor |------+- & -+---| search-factor |---+---)--'
                                  '- | -'
 
>---------------------------------------------------------------|
 
attribute-argument
 
|---+---------------------------------------------------------------------------------+->
    |                                      .-,---------------.                        |
    |                                      V                 |                        |
    '-+---------------+---+-SECTION--+--(-----section-name---+---)----| comparison |--'
      '-MODEL--model--'   '-SECTIONS-'
 
>---------------------------------------------------------------|
 
比較
 
|---+----------------------------------+------------------------|
    '-=-->=--<=-->--<--attribute-value--'
 
freetext-argument
 
|---IS ABOUT----+-----------------+---+-----------+------------->
                +-SYNONYM FORM OF-+   '-language--'
                +-feature---------+
                '-| thesaurus |---'
 
>----"phrase-or-sentence"----+------------------------+---------|
                             '-ESCAPE--"escape-char"--'
 
search-factor
 
|---+----------------------------------------------------------------+->
    |                                      .-,---------------.       |
    |                                      V                 |       |
    '-+---------------+---+-SECTION--+--(-----section-name---+---)---'
      '-MODEL--model--'   '-SECTIONS-'
 
>---| search-element |------------------------------------------|
 
search-element
 
|---+-+-----+--| search-primary |--------------------------------------+->
    | '-NOT-'                                                          |
    |                                            .- AND--------------. |
    |                                            V                   | |
    '-| s.-primary |--+-IN SAME PARAGRAPH AS-+------| s.-primary |---+-'
                      '-IN SAME SENTENCE AS--'
 
>---------------------------------------------------------------|
 
search-primary
 
|---+-| search-atom |----------------+--------------------------|
    |    .-,------------------.      |
    |    V                    |      |
    '-(-----| search-atom |---+---)--'
 
search-atom
 
|---+-----------------------------+---+-----------+------------->
    +-PRECISE FORM OF-------------+   '-language--'
    +-STEMMED FORM OF-------------+
    +-FUZZY FORM OF--match-level--+
    +-SYNONYM FORM OF-------------+
    +-BOUND-----------------------+
    +-SOUNDS LIKE-----------------+
    +-feature---------------------+
    '-| thesaurus |---------------'
 
>----"word-or-phrase"----+-----------------------------+--------|
                         '-ESCAPE--"escape-character"--'
 
thesaurus (如果已指定 THESAURUS)
 
|---+---------------------+---TERM OF---------------------------|
    '-EXPAND--"relation"--'
 

範例

範例位於指定搜尋引數

搜尋參數

IS ABOUT

一種選項,可讓您指定純文字搜尋引數,意即, 說明所要尋找之觀念的自然語言詞組或句子。請參閱純文字及雜混搜尋

MODEL model
用來指定搜尋術語的文件模型名稱所用的關鍵字。 此文件模型說明了包含可辨識區段的文件結構, 這樣就可以分別搜尋這些區段的內容。

模型名稱必須指定於使用結構化文件 (區段支援)所提的文件模型檔中。此模型名稱可以用萬用字元遮罩。

若您未指定模型,則會使用索引建立時所使用的預設模型。

SECTION(S) section-name

用來指定一或多個區段的關鍵字,以限定搜尋。 區段名稱必須指定於文件模型檔中的模型內, 如使用結構化文件 (區段支援)所述。 區段名稱可以使用萬用字元 % 和 _ 來遮罩。

區段可在其它區段之中形成巢狀區段,例如:

play/Act/Title=play/act/title

限制︰ 巢狀區段的搜尋可能僅適用於 XML 格式直欄中儲存的文件。 對於 Ngram 索引,只能搜尋一個區段名稱,且不支援 XML 格式。

<attribute-value

對於之前列示區段中列示的屬性,前面搭配一個比較運算子的值。 要求一個屬性的值要在一定範圍內的查詢, 可以在一個屬性條件中使用兩個比較運算子。

使用同一種比較的運算子組合無效, 例如相同條件中第一個是 >=,第二個是 >。 使用 = 運算子的兩個比較,亦為無效的規格。

=
要求索引文件中的屬性與下列屬性值做相等比較。

>=
要求索引文件中的屬性與下列屬性值做「大於或等於」比較。

>
要求索引文件中的屬性與下列屬性值做「大於」比較。

<=
要求索引文件中的屬性與下列屬性值做「小於或等於」比較。

<
要求索引文件中的屬性與下列屬性值做「小於」比較。

區段可在其它區段之中形成巢狀區段,例如:

play/Act/Title=play/act/title

限制︰ 巢狀區段的搜尋可能僅適用於 XML 格式直欄中儲存的文件。 對於 Ngram 索引,只能搜尋一個區段名稱,且不支援 XML 格式。

THESAURUS 詞典名稱

一種關鍵字,可指定要用來擴充搜尋術語之詞典的名稱。 詞典名稱即為已用詞典編譯器 TXTHESC 或 TXTHESN 編譯過之詞典的檔名 (不加副檔名)。 預設詞典 desthesdesnthes 儲存在範例目錄中,而此目錄中的 desnthes 即為 Ngram 詞典。您也可以指定檔案的路徑名稱。預設的路徑名稱即為字典的路徑。

COUNT 深度

一種關鍵字,可用來指定詞典中之術語的層次號碼 (深度), 並依所給定的關係,用這些術語來擴充搜尋術語。 您若不指定此關鍵字,則會假設為 1 的計數。

RESULT LIMIT 數字

一種關鍵字,可用來指定要傳回到結果列示的登錄最大數。 數字是一個從 1 到 32767 的值。 若使用純文字搜尋,則搜尋結果列示只會依照完整的搜尋結果列示來分級。 不然,受限制的搜尋結果就只會從該列示的登錄來分級。

EXPAND 關係

一種關鍵字,可用來指定下列二者之間的關係: 指定在 TERM OF 中的搜尋術語,以及用來擴充搜尋術語的詞典術語之間的關係, 例如 INSTANCE。 關係名稱必須對應於用在詞典中的關係。請參閱詞典概念

對於 Ngram 詞典,請使用說明於建立 Ngram 詞典中的 member-relation 名稱。 For user-defined member relations, use :RELATION n where n is the member relation number specified in :RELATED (number).

TERM OF "word-or-phrase"

要從詞典新增其它搜尋術語的搜尋術語或多字搜尋術語。

search-factor
一種運算元,可與其它運算元合併,以組成一個搜尋引數。 評定次序為由左至右。

邏輯 AND (&) 運算子連結的強度大於邏輯 OR (|) 運算子。 範例:

     "passenger" & "vehicle" | "transport" & "public"

評定為:

     ("passenger" & "vehicle") | ("transport" & "public")

可搜尋:

     "passenger" & ("vehicle" | "transport") & "public"

您必須併入所顯示的括弧。

NOT search-primary
一種運算子,可讓您將文字文件排除在包含特定術語的搜尋之外。

若您在搜尋因數中使用了 NOT,就無法使用 SYNONYM FORM OF 關鍵字。

search-primary IN SAME PARAGRAPH AS search-primary
一種關鍵字,可讓您搜尋出現在同一段落中之術語的組合。

只有在術語 "air" 位於同一段落的情況下, 下列搜尋引數才會尋找包含術語 "traffic" 的文字文件。

     "traffic" IN SAME PARAGRAPH AS "air"

若您已在搜尋因數中使用了 NOT,就無法使用 IN SAME PARAGRAPH AS 關鍵字。

search-primary IN SAME SENTENCE AS search-primary
一種關鍵字,可讓您搜尋出現在同一句子中之術語的組合。 與 IN SAME PARAGRAPH AS 類似。

AND search-primary
一種關鍵字,可讓您將數個要在同一句子或段落中搜尋的 search-primaries 合併。

下列搜尋引數會在同一句子中搜尋 "forest"、"rain"、 "erosion" 及 "land"。

     "forest" IN SAME SENTENCE AS "rain" AND "erosion" AND "land"

search-atom
如果您用逗點來連接一系列的搜尋原子,若找到任何一個搜尋原子中的術語, 則為成功的搜尋作業。每一個搜尋原子都必須包含至少一個字詞或詞組。

如果找到一個或多個搜尋引數,則下列陳述式是真實的。

     CONTAINS (mytexthandle, '( "text",
                                "graphic",
                                "audio",
                                "video")') = 1

PRECISE FORM OF、STEMMED FORM OF、FUZZY FORM OF、SYNONYM FORM OF、 BOUND
表 7 顯示與各種類型之索引對應的選項。 例如,就語言索引而言,除了 PRECISE FORM OF 之外,任何選項皆適用。 若您指定 PRECISE FORM OF,將會忽略此關鍵字,並採用預設值。

搜尋術語處理程序的相關詳細說明,請參閱表 8


表 7. 語言選項
搜尋原子關鍵字 索引類型
語言 精確 精確正常化 Ngram 可用 Ngram
PRECISE FORM OF
X X
O
STEMMED FORM OF X

O O
FUZZY FORM OF


O O
IS ABOUT O O O

SYNONYM FORM OF O O O

EXPAND O O O

SOUNDS LIKE O O O

IN SAME SENTENCE AS O O O O O
IN SAME PARAGRAPH AS O O O O O
BOUND


O O
X=預設值 O=可用函數


表 8. Ngram 索引的搜尋術語選項
搜尋原子關鍵字 搜尋術語處理程序
大小寫 字根化 相符者
區分 不區分 精確 智慧型
PRECISE FORM OF 區分大小寫時 X
X
STEMMED FORM OF
X X

FUZZY FORM OF
X

X
X=預設值

如果您所使用的關鍵字不適用該索引類型,就會忽略該關鍵字, 並且採用預設的關鍵字,否則即傳回訊息。

PRECISE FORM OF
一種關鍵字,可使接在 PRECISE FORM OF 之後的字 (或詞組中的每個字) 完全按照所輸入的形式來被搜尋,而不是一開始就縮減為它的字根形式。 為了達到精確的索引,此索引形式區分大小寫; 亦即大寫和小寫字母是有意義的。 例如,若您要搜尋 mouse,您就不會尋找到 "Mouse"。

此為精確索引的預設選項。 對精確正常化的索引而言,預設索引形式不區分大小寫。 如果您指定此關鍵字給語言索引, 則會忽略此關鍵字,而採用 STEMMED FORM OF。

STEMMED FORM OF
一種關鍵字,可在搜尋作業開始之前, 使接在 STEMMED FORM OF 之後的字 (或詞組中的每個字) 還原成它的字根。 這種形式的搜尋不會區分大小寫。例如,若您要搜尋 mouse, 您就可找到 "Mouse"。

字詞還原為其字根形式的方式需視語言取向而定。

範例:當您使用美式英語 (US-English) 字典時, programming computer systems 會被 program compute system 所取代; 當您使用英式英語 (UK-English) 字典時,會被 programme compute system 所取代。

這個搜尋詞組可尋找 "programmer computes system"、 "program computing systems"、"programming computer system" 等等。

此為語言索引的預設選項。如果您指定此關鍵字給精確索引,則會忽略此關鍵字,而採用 PRECISE FORM OF。

FUZZY FORM OF
一種可用來作 "fuzzy" (智慧型) 搜尋的關鍵字, 智慧型搜尋可搜尋與搜尋術語拼法類似的術語。 當您在「光學字元辨識 (OCR)」 程式所建立的文件中搜尋時,會特別有用。 這種文件常常會有拼錯的字。 例如,economy 這個字可能就會被 OCR 程式辨視為 econony

match-level:一個從 1 至 5 的整數, 可指定相似性程度,其中 5 會比 1 更類似。

SYNONYM FORM OF
一種關鍵字,可搜尋接在 SYNONYM FORM OF 之後的字或詞以及其同義字。 同義字的來源為language (語言) 所指定的字典, 不然就是預設的字典。

詞組的同義字皆為可替換的詞組,包含所有可能的同義字組合, 您可以其中一個同義字來取代原始字詞的每個字,以取得這些同義字組合。 字詞的順序會維持原始詞組的樣子。

如果您指定此關鍵字給精確索引,則會忽略此關鍵字,而採用 PRECISE FORM OF。

當搜尋因數中已使用 NOT 時,或是當所要搜尋的字或詞包含遮罩字元時, 您都不能指定這個關鍵字。

BOUND
一種關鍵字,可在使用韓語 CCSID 的文件中執行搜尋作業。 它會使搜尋作業遵守字詞界限。如果已指定 language (語言),則會忽略,而採用 Korean (韓語)。

language
一種變數,可決定在編製索引及修復期間,文字文件的語言處理所要使用的字典。 這不只引用於語言索引,也引用於精確索引, 因為這兩者皆使用字典來處理停止字詞。

語言處理包括同義字處理及字根處理。

支援的語言皆列在表 5

註:在非美式英語的文件中搜尋時,您必須在搜尋引數中指定語言, 不管預設語言

"word-or-phrase"
所要搜尋的字或詞。可用在字詞中的字元需視語言取向而定。 而是否必須要用分隔字元來分隔字詞,也需視語言取向而定。 就英語及大部份的其它語言而言,同一詞組中的每個字都必須以空白字元來分隔。

精確或語言搜尋。DB2 Text Extender 可使用該字或詞的精確形式來搜尋, 也可用其變化的形式來搜尋。如果您沒有在表 7中指定其中一個選項, 則會根據所使用的索引類型來使用預設語言。

若要搜尋含有雙引號的字串,請鍵入雙引號兩次。 例如,若要搜尋文字 "wildcard" character,請使用:

"""wildcard"" character"

遮罩字元。 字詞可包含下列遮罩字元:

_ (底線)
代表任何單一字元。

% (百分比)
代表絕對字元的任何數字。如果有一個字是由單一 % 所組成, 則代表任何長度的選用性字詞。

字詞不能全由遮罩字元來組成,除非有用一個 % 來代表選用性字詞。

如果您使用遮罩字元,您就不能使用 SYNONYM FORM OF、feature 或 THESAURUS。

ESCAPE escape-character
一種字元,可將下一個字元定義為要搜尋的字元, 而不是定義成要用來當作遮罩字元的字元。

例如:若 escape-character 是 $,那麼 $%、$_、和 $$ 分別表示 %、_、以及 $ 。任何 % 和 _ 之前沒有 $ 的字元都代表 遮罩字元。

規則及限制的摘要

布林作業
OR 之後不能有 NOT。

FUZZY FORM OF
前三個字元必須相符。如果搜尋原子中的字詞包含遮罩字元,就無法使用。 不能與 NOT 合併使用。 僅用於 Ngram 索引。

IN SAME PARAGRAPH AS
如果搜尋因數中使用了 NOT,就不能使用此關鍵字。

IN SAME SENTENCE AS
如果搜尋因數中使用了 NOT,就不能使用此關鍵字。

語言索引
防止使用 PRECISE FORM OF。使用 STEMMED FORM OF 作為預設值。 可使用遮罩字元。搜尋作業不會區分大小寫。

遮罩字元
防止使用 SYNONYM FORM OF 和 THESAURUS。

Ngram 索引
即使後面沒有接非英數字元,仍可使用遮罩字元。 除非索引有啟用區分大小寫,並且使用了 PRECISE FORM OF, 否則搜尋作業不會區分大小寫。

NOT
防止使用 SYNONYM FORM OF、IN SAME PARAGRAPH AS 及 IN SAME SENTENCE AS。

PRECISE FORM OF
就語言索引而言,會將其忽略。

精確索引
可防止使用 STEMMED FORM OF 及 SYNONYM FORM OF。 使用 PRECISE FORM OF 作為預設值。可使用遮罩字元。搜尋作業會區分大小寫。

STEMMED FORM OF
忽略精確索引,但可用於含有英文文件的正常化精確索引。

SYNONYM FORM OF
如果搜尋原子中的字詞包含遮罩字元,就無法使用。 不能與 NOT 合併使用。不能與精確索引一起使用。


[ 頁面頂端 | 前一頁 | 下一頁 | 目錄 | 索引 ]