DB2 Text Extender 必須知道要搜尋的文字文件的格式 (或類型),例如 HTML 或 ASCII。 在編製文字文件的索引時,會需要此資訊。
根據文件的字碼頁決定 HTML 文件中的母音字元和區分字元:
表示 ä。
XML 文件必須含有一個在剖析時使用的編碼字串。 支援下列編碼︰
UTF8, utf8, utf-8, ibm-1208, utf_8, UTF16_BigEndian, utf-16be, utf16 UTF16_LittleEndian, utf-16le LATIN_1, latin1, latin-1, ascii, ibm-819, iso-8859-1, Latin-1 ibm-912, iso-8859-2 ibm-913, iso-8859-3 ibm-914, iso-8859-4 ibm-915, iso-8859-5 ibm-1089, iso-8859-6 ibm-813, iso-8859-7 ibm-916, iso-8859-8i ibm-920, iso-8859-9 ibm-0037, ebcdic-cp-us, ebcdic-cp-ca, ebcdic-cp-nl, ebcdic-cp-dk, ebcdic-cp-no, ebcdic-cp-fi, ebcdic-cp-se, ebcdic-cp-it, ebcdic-cp-es, ebcdic-cp-gb ibm-297, ebcdic-cp-fr, ebcdic-cp-ar1, ebcdic-cp-he, ebcdic-cp-ch, ebcdic-cp-roece, ebcdic-cp-yu, ebcdic-cp-is, ebcdic-cp-ar2 ibm-954, euc-jp eucjis ibm-943, shift_jis, sjis, shiftjis, shift-jis ibm-950 , big-5, big5 ibm-949, iso2022kr, euc-kr ibm-878, koi8-r
XML 文件忽略預設字碼頁。
若將 XML 文件新增至 Ngram 索引,必須在先前已使用字碼頁 UTF8 建立好此索引。 若此索引有區段支援,那麼在執行索引時只會使用葉層次區段識別字,不支援分辨巢狀區段中的文字。
就未支援的文件格式而言,請指定數字 ID。有效值為 1 至 100。 此值會以來源格式傳遞到將原始格式轉換為 TDS 的使用者跳出程式。
在編製索引期間,如果有一個文件不是所支援的類型,則 DB2 Text Extender 會提供一個跳出, 可將該文件寫入磁碟,並且會呼叫您所提供的程式, 將該文字取出至其中一個受支援之格式。 必須在伺服器架構檔 (DESSRV.INI) 和從屬站架構檔 (DESCL.INI) 登記使用者跳出程式。 在 [DOCUMENTFORMAT] 區段以使用者跳出程式名稱更新 USEREXIT 選項。
欲啟用使用者跳出程式,請編輯下列 ASCII 檔案:
Windows NT 及 Windows 2000︰ %DMBMMPATH%\instance\%DB2INSTANCE%\db2tx\descl.ini %DMBMMPATH%\instance\%DB2INSTANCE%\db2tx\txinsnnn\dessrv.ini UNIX: $DB2TX_INSTOWNERHOMEDIR/db2tx/descl.ini $DB2TX_INSTOWNERHOMEDIR/db2tx/txinsnnn/dessrv.ini
請加入下列陳述式:
[DOCUMENTFORMAT] USEREXIT=name_of_executable
其中 <name_of_executable> 是使用者跳出程式名稱。您可指定完整的檔名,或者,如果使用者跳出程式是儲存在 PATH 陳述式的目錄中, 您只要指定檔名即可。
使用下列語法呼叫使用者跳出程式︰
<name_of_user_exit> -sourcefile <sourcefilename> -targetfile <targetfilename> -sourceccsid <sourceccsid> -targetccsid <targetccsid> -sourceformat <sourceformat> -targetformat <targetformat>
使用者跳出程式必須能傳回下列值︰