Documentation
(C) IBM Corp. 1996, 2000

DB2 Text Extender


支援哪些文件格式

DB2 Text Extender 必須知道要搜尋的文字文件的格式 (或類型),例如 HTML 或 ASCII。 在編製文字文件的索引時,會需要此資訊。

支援的文字文件格式︰

HTML
超文字標示語言

XML
擴充性標示語言

ASCII_SECTIONS
含有區段的結構性 ASCII

TDS
純 ASCII

AMI
AmiPro Architecture 第 4 版

FFT
IBM Final Form Text:文件內容架構

MSWORD
Microsoft Word 5.0 及 5.5

RFT
IBM Revisable Form Text:文件內容架構

RTF
Microsoft Rich Text Format (RTF) 第 1 版

WP5
WordPerfect (OS/2 及 Windows) 5.0、5.1 及 5.2

HTML 文件特殊注意事項

根據文件的字碼頁決定 HTML 文件中的母音字元和區分字元:

XML 文件特殊注意事項

XML 文件必須含有一個在剖析時使用的編碼字串。 支援下列編碼︰

UTF8, utf8, utf-8, ibm-1208, utf_8,
UTF16_BigEndian, utf-16be, utf16
UTF16_LittleEndian, utf-16le
LATIN_1, latin1, latin-1, ascii, ibm-819, iso-8859-1,  Latin-1
ibm-912, iso-8859-2
ibm-913, iso-8859-3
ibm-914, iso-8859-4
ibm-915, iso-8859-5
ibm-1089, iso-8859-6
ibm-813, iso-8859-7
ibm-916, iso-8859-8i
ibm-920, iso-8859-9
ibm-0037, ebcdic-cp-us, ebcdic-cp-ca, ebcdic-cp-nl, ebcdic-cp-dk, ebcdic-cp-no,
          ebcdic-cp-fi, ebcdic-cp-se, ebcdic-cp-it, ebcdic-cp-es, ebcdic-cp-gb
ibm-297, ebcdic-cp-fr, ebcdic-cp-ar1, ebcdic-cp-he, ebcdic-cp-ch, ebcdic-cp-roece,
         ebcdic-cp-yu, ebcdic-cp-is, ebcdic-cp-ar2
ibm-954, euc-jp eucjis
ibm-943, shift_jis, sjis, shiftjis, shift-jis
ibm-950 , big-5, big5
ibm-949, iso2022kr, euc-kr
ibm-878, koi8-r

XML 文件忽略預設字碼頁。

若將 XML 文件新增至 Ngram 索引,必須在先前已使用字碼頁 UTF8 建立好此索引。 若此索引有區段支援,那麼在執行索引時只會使用葉層次區段識別字,不支援分辨巢狀區段中的文字。

使用未支援的文件格式

就未支援的文件格式而言,請指定數字 ID。有效值為 1 至 100。 此值會以來源格式傳遞到將原始格式轉換為 TDS 的使用者跳出程式。

在編製索引期間,如果有一個文件不是所支援的類型,則 DB2 Text Extender 會提供一個跳出, 可將該文件寫入磁碟,並且會呼叫您所提供的程式, 將該文字取出至其中一個受支援之格式。 必須在伺服器架構檔 (DESSRV.INI) 和從屬站架構檔 (DESCL.INI) 登記使用者跳出程式。 在 [DOCUMENTFORMAT] 區段以使用者跳出程式名稱更新 USEREXIT 選項。

欲啟用使用者跳出程式,請編輯下列 ASCII 檔案:

Windows NT 及 Windows 2000︰
%DMBMMPATH%\instance\%DB2INSTANCE%\db2tx\descl.ini
%DMBMMPATH%\instance\%DB2INSTANCE%\db2tx\txinsnnn\dessrv.ini
UNIX:
$DB2TX_INSTOWNERHOMEDIR/db2tx/descl.ini
$DB2TX_INSTOWNERHOMEDIR/db2tx/txinsnnn/dessrv.ini

請加入下列陳述式:

[DOCUMENTFORMAT]
USEREXIT=name_of_executable

其中 <name_of_executable> 是使用者跳出程式名稱。您可指定完整的檔名,或者,如果使用者跳出程式是儲存在 PATH 陳述式的目錄中, 您只要指定檔名即可。

使用下列語法呼叫使用者跳出程式︰

<name_of_user_exit>  -sourcefile   <sourcefilename>
                     -targetfile   <targetfilename>
                     -sourceccsid  <sourceccsid>
                     -targetccsid  <targetccsid>
                     -sourceformat <sourceformat>
                     -targetformat <targetformat>

sourcefilename
要由使用者跳出程式轉換的檔案。 檔名是完整檔名而且位於您在從屬站設定檔或伺服器案例指定的工作目錄。

targetfilename
含有使用者跳出程式輸出的檔案。然後此檔案由 DB2 Text Extender 處理。 檔名是完整檔名而且指向您在從屬站設定檔或伺服器案例指定的工作目錄。 從屬站設定檔中的登錄用於 API 呼叫 EhwGetMatches,伺服器案例中的登錄用於 API 呼叫 EhwUpdateIndex。

sourceccsid
來源檔的字碼頁。這是預設字碼頁。

targetccsid
DB2 Text Extender 預期的字碼頁。 此字碼頁是 850。

sourceformat
來源檔的格式。這是預設格式。

targetformat
DB2 Text Extender 預期的格式檔案。目前只支援純文字檔格式 (TDS) 或 ASCIISECTION (就啟用區段的索引而言)。

使用者跳出程式必須能傳回下列值︰

0
順利轉換格式。

>0
轉換格式失敗。執行索引時,錯誤訊息會寫入文件錯誤表。 使用 desmsgix 指令顯示錯誤訊息。


[ 頁面頂端 | 前一頁 | 下一頁 | 目錄 | 索引 ]