Documentation
(C) IBM Corp. 1996, 2000

DB2 Text Extender Administración y programación


Formatos de documentos que se soportan

DB2 Text Extender necesita conocer el formato (o tipo) de los documentos de texto como, por ejemplo, HTML o ASCII, que tiene intención de buscar. Esta información es necesaria para indexar los documentos de texto.

Los formatos de los documentos de texto que se soportan son:

HTML
Hypertext Markup Language

XML
Extended Markup Language

ASCII_SECTIONS
ASCII estructurado que contiene secciones

TDS
ASCII plano

AMI
AmiPro Architecture Versión 4

FFT
IBM Final Form Text: Arquitectura del contenido del documento

MSWORD
Microsoft Word, Versiones 5.0 y 5.5

RFT
IBM Revisable Form Text: Arquitectura del contenido del documento

RTF
Microsoft Rich Text Format (RTF), Versión 1

WP5
WordPerfect (OS/2 y Windows), Versiones 5.0, 5.1 y 5.2

Documentos HTML, consideraciones especiales

El trato que se da a las diéresis y a los caracteres diacríticos de los documentos HTML depende de la página de códigos del documento:

Documentos XML, consideraciones especiales

Los documentos XML deben contener una serie de codificación y ésta se utiliza durante el análisis. Se da soporte a las codificaciones siguientes:

UTF8, utf8, utf-8, ibm-1208, utf_8,
UTF16_BigEndian, utf-16be, utf16
UTF16_LittleEndian, utf-16le
LATIN_1, latin1, latin-1, ascii, ibm-819, iso-8859-1,  Latin-1
ibm-912, iso-8859-2
ibm-913, iso-8859-3
ibm-914, iso-8859-4
ibm-915, iso-8859-5
ibm-1089, iso-8859-6
ibm-813, iso-8859-7
ibm-916, iso-8859-8i
ibm-920, iso-8859-9
ibm-0037, ebcdic-cp-us, ebcdic-cp-ca, ebcdic-cp-nl, ebcdic-cp-dk, ebcdic-cp-no,
          ebcdic-cp-fi, ebcdic-cp-se, ebcdic-cp-it, ebcdic-cp-es, ebcdic-cp-gb
ibm-297, ebcdic-cp-fr, ebcdic-cp-ar1, ebcdic-cp-he, ebcdic-cp-ch, ebcdic-cp-roece,
         ebcdic-cp-yu, ebcdic-cp-is, ebcdic-cp-ar2
ibm-954, euc-jp eucjis
ibm-943, shift_jis, sjis, shiftjis, shift-jis
ibm-950 , big-5, big5
ibm-949, iso2022kr, euc-kr
ibm-878, koi8-r

Se pasa por alto la página de códigos por omisión para los documentos XML.

Si está añadiendo documentos XML a un índice Ngram, el índice debe haberse creado utilizando la página de códigos UTF8. Si el índice da soporte a las secciones, sólo se utiliza el identificador de sección de nivel de hoja en la indexación, no se da soporte a la resolución de texto de secciones anidadas.

Utilización de formatos de documentos no soportados

Para los formatos de documentos no soportados, especifique un ID numérico. Los valores válidos son de 1 a 100. Este valor se pasa como formato fuente a la salida de usuario que convierte el formato original a TDS.

Si, durante la indexación, hay un documento que no es de ningún tipo soportado, DB2 Text Extender proporciona una salida que graba el documento en un disco y llama a un programa que el usuario proporciona para extraer el texto a uno de los formatos soportados. La salida de usuario debe estar registrada en el archivo de configuración del servidor (DESSRV.INI) y en el archivo de configuración del cliente (DESCL.INI). Actualice la opción USEREXIT en la sección [DOCUMENTFORMAT] con el nombre de la salida de usuario.

Para habilitar la salida de usuario, edite los archivos ASCII siguientes:

Windows NT y Windows 2000:
%DMBMMPATH%\instance\%DB2INSTANCE%\db2tx\descl.ini
%DMBMMPATH%\instance\%DB2INSTANCE%\db2tx\txinsnnn\dessrv.ini
 
UNIX:
$DB2TX_INSTOWNERHOMEDIR/db2tx/descl.ini
$DB2TX_INSTOWNERHOMEDIR/db2tx/txinsnnn/dessrv.ini

añadiendo las sentencias siguientes:

[DOCUMENTFORMAT]
USEREXIT=nombre_de_ejecutable

donde <nombre_de_ejecutable> es el nombre de la salida de usuario. Puede especificar un nombre de archivo completamente calificado o, si la salida de usuario se almacena en un directorio que está en la sentencia PATH, puede especificar simplemente el nombre de archivo.

Para llamar a la salida de usuario utilice la sintaxis siguiente:

<nombre_salida_usuario>  -sourcefile   <nombrearchivofuente>
                         -targetfile   <nombrearchivodestino>
                         -sourceccsid  <ccsidfuente>
                         -targetccsid  <ccsiddestino>
                         -sourceformat <formatofuente>
                         -targetformat <formatodestino>

nombrearchivofuente
El archivo que el programa de salida de usuario ha de convertir. El nombre de archivo está completamente calificado y está ubicado en el directorio de trabajo especificado en el perfil de cliente o en la instancia del servidor.

nombrearchivodestino
El archivo que contiene la salida producida por la salida de usuario. Después, DB2 Text Extender utiliza este archivo para el proceso. El nombre de archivo está completamente calificado y apunta al directorio de trabajo especificado en el perfil de cliente o en la instancia de servidor. Las entradas del perfil de cliente se utilizan para la llamada a la API EhwGetMatches y las de la instancia del servidor para la llamada a la API EhwUpdateIndex.

ccsidfuente
La página de códigos del archivo fuente. Se trata de la página de códigos por omisión.

ccsiddestino
La página de códigos que DB2 Text Extender espera. La página de códigos es 850.

formatofuente
El formato del archivo fuente. Se trata del formato por omisión.

formatodestino
El formato del archivo esperado por DB2 Text Extender. Actualmente, sólo se soporta el formato de archivo plano (TDS) o, para índices habilitados para secciones, ASCIISECTION.

La salida de usuario debe poder devolver los valores siguientes:

0
La conversión de formato ha sido satisfactoria.

>0
La conversión de formato no ha sido satisfactoria. Durante la indexación, los mensajes de error se graban en la tabla de errores del documento. Utilice el mandato desmsgix para visualizar los mensajes de error.


[ Principio de página | Página anterior | Página siguiente | Contenido | Índice ]