DB2 Text Extender necesita conocer el formato (o tipo) de los documentos de texto como, por ejemplo, HTML o ASCII, que tiene intención de buscar. Esta información es necesaria para indexar los documentos de texto.
Los formatos de los documentos de texto que se soportan son:
El trato que se da a las diéresis y a los caracteres diacríticos de los documentos HTML depende de la página de códigos del documento:
para ä.
Los documentos XML deben contener una serie de codificación y ésta se utiliza durante el análisis. Se da soporte a las codificaciones siguientes:
UTF8, utf8, utf-8, ibm-1208, utf_8, UTF16_BigEndian, utf-16be, utf16 UTF16_LittleEndian, utf-16le LATIN_1, latin1, latin-1, ascii, ibm-819, iso-8859-1, Latin-1 ibm-912, iso-8859-2 ibm-913, iso-8859-3 ibm-914, iso-8859-4 ibm-915, iso-8859-5 ibm-1089, iso-8859-6 ibm-813, iso-8859-7 ibm-916, iso-8859-8i ibm-920, iso-8859-9 ibm-0037, ebcdic-cp-us, ebcdic-cp-ca, ebcdic-cp-nl, ebcdic-cp-dk, ebcdic-cp-no, ebcdic-cp-fi, ebcdic-cp-se, ebcdic-cp-it, ebcdic-cp-es, ebcdic-cp-gb ibm-297, ebcdic-cp-fr, ebcdic-cp-ar1, ebcdic-cp-he, ebcdic-cp-ch, ebcdic-cp-roece, ebcdic-cp-yu, ebcdic-cp-is, ebcdic-cp-ar2 ibm-954, euc-jp eucjis ibm-943, shift_jis, sjis, shiftjis, shift-jis ibm-950 , big-5, big5 ibm-949, iso2022kr, euc-kr ibm-878, koi8-r
Se pasa por alto la página de códigos por omisión para los documentos XML.
Si está añadiendo documentos XML a un índice Ngram, el índice debe haberse creado utilizando la página de códigos UTF8. Si el índice da soporte a las secciones, sólo se utiliza el identificador de sección de nivel de hoja en la indexación, no se da soporte a la resolución de texto de secciones anidadas.
Para los formatos de documentos no soportados, especifique un ID numérico. Los valores válidos son de 1 a 100. Este valor se pasa como formato fuente a la salida de usuario que convierte el formato original a TDS.
Si, durante la indexación, hay un documento que no es de ningún tipo soportado, DB2 Text Extender proporciona una salida que graba el documento en un disco y llama a un programa que el usuario proporciona para extraer el texto a uno de los formatos soportados. La salida de usuario debe estar registrada en el archivo de configuración del servidor (DESSRV.INI) y en el archivo de configuración del cliente (DESCL.INI). Actualice la opción USEREXIT en la sección [DOCUMENTFORMAT] con el nombre de la salida de usuario.
Para habilitar la salida de usuario, edite los archivos ASCII siguientes:
Windows NT y Windows 2000: %DMBMMPATH%\instance\%DB2INSTANCE%\db2tx\descl.ini %DMBMMPATH%\instance\%DB2INSTANCE%\db2tx\txinsnnn\dessrv.ini UNIX: $DB2TX_INSTOWNERHOMEDIR/db2tx/descl.ini $DB2TX_INSTOWNERHOMEDIR/db2tx/txinsnnn/dessrv.ini
añadiendo las sentencias siguientes:
[DOCUMENTFORMAT] USEREXIT=nombre_de_ejecutable
donde <nombre_de_ejecutable> es el nombre de la salida de usuario. Puede especificar un nombre de archivo completamente calificado o, si la salida de usuario se almacena en un directorio que está en la sentencia PATH, puede especificar simplemente el nombre de archivo.
Para llamar a la salida de usuario utilice la sintaxis siguiente:
<nombre_salida_usuario> -sourcefile <nombrearchivofuente> -targetfile <nombrearchivodestino> -sourceccsid <ccsidfuente> -targetccsid <ccsiddestino> -sourceformat <formatofuente> -targetformat <formatodestino>
La salida de usuario debe poder devolver los valores siguientes: