Documentation
(C) IBM Corp. 1996, 2000

DB2 Text Extender Administración y programación


Proceso lingüístico al indexar

Cuando DB2 Text Extender indexa y recupera documentos, realiza un análisis lingüístico del texto. Como puede ver en la tabla siguiente, la cantidad de proceso lingüístico depende del tipo de índice. Para índices Ngram, no se aplica ningún proceso lingüístico.

El proceso lingüístico utilizado para la indexación de documentos consta de:

La Tabla 17 muestra un resumen de cómo se indexan los términos cuando el tipo de índice es lingüístico y no se han pedido propiedades de índice adicionales.

Tabla 17. Extracción de términos para un índice lingüístico
Texto de documento Término en índice Proceso lingüístico

Ratón
Käfer


ratón
kaefer


Análisis básico de texto
(normalización)


ratones
nadado


ratón
nadar

Reducción al formato base

coche-cama
 
 
Wetterbericht


coche-cama,
coche
cama
wetterbericht,
wetter
bericht


Descomposición

un informe sobre animales
informe
animal

Filtro de palabras de parada. Las palabras de parada son: un, sobre

Por comparación, la Tabla 18 muestra un resumen de cómo se indexan los términos cuando el tipo de índice es exacto.

Tabla 18. Extracción de términos para un índice exacto
Texto de documento Término en índice Proceso lingüístico

Ratón
Käfer


Ratón
Käfer


No hay normalización


ratones
nadado


ratones
nadado

No hay reducción al formato base

un informe sobre animales


informe
animales


Filtro de palabras de parada.
Las palabras de parada
son: un, sobre


coche-cama
Wetterbericht


coche-cama
Wetterbericht


No hay descomposición

Análisis básico de texto

DB2 Text Extender procesa el análisis básico de texto sin utilizar ningún diccionario electrónico.

Reconocimiento de términos que contienen caracteres no alfanuméricos

Cuando se indexan los documentos, se reconocen los términos incluso si contienen caracteres no alfanuméricos por ejemplo: "$14.225,23", "sofá-cama" y "22/10/90".

Los siguientes elementos se toman como parte del término:

Acentos

Signos monetarios

Caracteres separadores de números (por ejemplo, "/" o ".")

El carácter "@" de una dirección de correo electrónico (sólo en inglés)

El signo "+".

También se utilizan las normas específicas del idioma para reconocer los términos que contienen:

Normalización de términos a un formato estándar

La normalización reduce los términos escritos en mayúsculas y minúsculas y los términos que contienen caracteres especiales acentuados a un formato estándar. Esto se hace por omisión cuando el tipo de índice es lingüístico. (En un índice exacto las letras mayúsculas y minúsculas no se cambian--las búsquedas son sensibles a las mayúsculas y minúsculas.)

Por ejemplo, el término Computer se indexa como computer, la letra en mayúscula se cambia a minúscula. Una búsqueda del término computer encuentra las apariciones de computer y también de Computer. El efecto de la normalización durante la indexación es que los términos se indexan de la misma manera, sin tener en cuenta las mayúsculas del documento.

La normalización no sólo se aplica durante la indexación, sino también durante la recuperación. Los caracteres en mayúsculas de un término de búsqueda se cambian a minúsculas cuando se realiza la búsqueda. Cuando el término de búsqueda es, por ejemplo, Computer, el término utilizado en la búsqueda es computer.

Los caracteres acentuados y especiales se normalizan de manera similar. Cualquier variación de école como, por ejemplo, École, encuentra école, Ecole, etcétera. Bürger encuentra buerger, Maße encuentra masse.

Si el término de búsqueda incluye caracteres de máscara (comodín), la normalización se realiza antes de procesar los caracteres de máscara. Ejemplo: Bür_er se convierte en buer_er.

Reconocimiento de sentencias

Puede buscar términos que aparecen en la misma sentencia. Para que esto sea posible, se analiza cada documento durante la indexación para averiguar donde finaliza cada sentencia.

DB2 Text Extender ofrece dos tipos de reconocimiento de final de sentencia:

Señalizador basado en POE para el reconocimiento de sentencias

El señalizador basado en POE determina los límites de la sentencia (o fragmento de sentencia) utilizando las reglas de puntuación y el proceso específico del idioma que implica el proceso de abreviaturas, aunque el nivel de funcionamiento varía ampliamente según el idioma. La mayoría de idiomas que utilizan páginas de códigos de un solo byte tienen un diccionario suplementario de abreviaturas que se proporciona con POE. Puesto que normalmente los idiomas de doble byte no emplean abreviaturas con períodos, no hay diccionarios suplementarios de abreviaturas disponibles para estos idiomas.

La determinación del final de una sentencia se realiza principalmente a través de la comparación de la puntuación. La tabla siguiente lista los caracteres de puntuación de terminación y sus GCGID (identificadores globales de caracteres gráficos).
GCGID de caracteres SBCS GCGID de caracteres DBCS Descripción
SP110000 SP110080 Punto
SP020000 SP020080 Signo de admiración
SP150000 SP150080 Signo de interrogación
SP140000 N/D Punto y coma (signo de interrogación griego)
N/D JQ730080 Período de círculo de doble byte

Se supone que un carácter de puntuación de terminación como, por ejemplo, un punto, un signo de admiración o un signo de interrogación, marca el final de una sentencia a menos que se produzca alguna de las situaciones siguientes:

El señalizador basado en POE realiza un proceso de abreviaturas para determinar si un punto forma parte de una abreviatura o si marca el final de una sentencia. Puede añadir abreviaturas a un diccionario suplementario de abreviaturas. Si no se pasa ningún diccionario al señalizador basado en POE, todas las letras solas seguidas de puntos se marcan como abreviaturas; no tiene lugar ningún otro proceso de abreviaturas.

Decidir si un fragmento de texto es una abreviatura o no es con frecuencia ambiguo, porque puede tomarse una palabra normal seguida de un punto como una abreviatura. Por ejemplo, tome en consideración los caracteres "no." en las sentencias siguientes:

Entre el no. de exenciones que está reclamando.
Conteste a la pregunta con un sí o un no.

Pero incluso cuando se sabe que un fragmento de texto es una abreviatura, todavía sigue existiendo la ambigüedad de si finaliza una sentencia. Algunas abreviaturas nunca finalizan una sentencia, mientras otras sí que lo hacen a veces. Por ejemplo, considere la utilización de la abreviatura "Hwy." en las sentencias en inglés siguientes:

The drive along Hwy. 1 to Santa Cruz was beautiful.
Many people speak highly of the Pacific Coast Hwy.

Puesto que las abreviaturas pueden ser ambiguas y que algunas abreviaturas no pueden aparecer al final de una sentencia, POE intenta clasificar las abreviaturas encontradas. Si se encuentra un punto formando parte de una abreviatura que a veces finaliza una sentencia, se realiza un proceso más profundo. Si POE determina que la abreviatura no está al final de la sentencia, la señal que representa el punto se une a la señal para el texto de la abreviatura. De lo contrario, la señal que representa el punto permanece en una señal separada.

El proceso de abreviaturas basado en POE utiliza tres conjuntos de criterios para determinar si un punto forma parte de una abreviatura:

Si se identifica una abreviatura como posible final de sentencia, POE examina el texto que sigue a la abreviatura para determinar si está al final de la sentencia actual comprobando si la siguiente palabra empieza por una letra en mayúsculas.

Si una abreviatura va seguida por dos o más elementos de datos de nueva línea, nueva sentencia o nuevo párrafo, POE supone que se ha alcanzado un final de sentencia. También, si el texto posterior es un signo de abrir interrogación, abrir admiración, se inserta un marcador de final de sentencia en la salida.

Si POE determina que el punto forma parte de una abreviatura que no finaliza una sentencia, continúa su búsqueda de un delimitador de sentencia. De lo contrario, comprueba las demás condiciones de excepción de carácter de puntuación de terminación (la siguiente puntuación de terminación o puntuación de cierre) antes de marcar un final de sentencia.

Reducción de términos a su formato base (lematización)

En un índice lingüístico, puede buscar ratón, por ejemplo y encontrar ratones. Los términos se reducen a su formato base para la indexación; el término ratones se indexa como ratón. Después, cuando se utiliza el término de búsqueda ratón, se encuentra el documento. También se encuentra el documento si busca ratones.

El efecto es que se encuentran los documentos que contienen información sobre los ratones sin tener en cuenta la variación del término ratón que aparece en el documento ni si ese utiliza como término de búsqueda.

De la misma manera, los verbos conjugados se reducen a su infinitivo; comprado, por ejemplo, pasa a comprar.

Filtro de palabras de parada

Las palabras de parada como, por ejemplo, preposiciones y pronombres, que aparecen muy frecuentemente en los documentos y que, por lo tanto, no son adecuados como términos de búsqueda. Dichas palabras están en una lista de palabras de parada asociada a cada diccionario y se excluyen del proceso de indexación.

El proceso de palabras de parada no es sensible a las mayúsculas y las minúsculas. Por lo tanto la palabra de parada acerca excluye también la primera palabra de una sentencia Acerca. Las listas de palabras de parada, suministradas en varios idiomas, pueden modificarse.

Un índice Ngram no tiene una lista de palabras de parada.

Descomposición (división de términos compuestos)

Los idiomas germánicos, como el alemán u holandés, son ricos en términos compuestos como, por ejemplo, Versandetiketten, que significa etiquetas (Etiketten) de correos (Versand). Estos términos compuestos pueden dividirse en sus componentes.

Para un índice exacto, los términos compuestos se indexan sin cambiarlos como una palabra. Para un índice lingüístico, los términos compuestos se dividen durante la indexación. Cuando se realiza una búsqueda, los términos compuestos se dividen si tiene un índice lingüístico.

Se encuentran los componentes si aparecen en cualquier orden en un documento siempre que estén contenidos en una sola sentencia. Por ejemplo, cuando se busca la palabra en alemán Wetterbericht (informe del tiempo), también se encontraría un documento que contenga la frase Bericht über das Wetter (informe acerca del tiempo).

Se efectúa un intento de dividir un término si:

Si se encuentra que es posible una división, las partes componentes del término también se reducen a su formato base. Estos son algunos ejemplos del danés, alemán y holandés:
Término compuesto Partes componentes

børsmæglerselskab


børsmæglerselskab
børs
mægler selskab


Kindersprachen


kindersprache
kind
sprache


probleemkinderen


probleemkinderen
probleemkind
kind
probleem


[ Principio de página | Página anterior | Página siguiente | Contenido | Índice ]