Documentation
(C) IBM Corp. 1996, 2000

DB2 Text Extender Administración y programación


Proceso lingüístico para la recuperación

El proceso lingüístico aspira a debilitar los términos de búsqueda para que se incremente la velocidad de llamada de las búsquedas, es decir, se encuentren más documentos relevantes. Hay dos operaciones básicas sobre términos de consulta para conseguir este objetivo; las expansiones y las reducciones. Además, algunas operaciones de términos de búsqueda implican tanto la ampliación como la reducción.

Sinónimos

Los sinónimos son palabras relacionadas semánticamente. Normalmente, estas palabras tienen la misma clase o clases de palabra (por ejemplo, un nombre, un verbo, etcétera) como término origen. Los sinónimos se obtienen de un archivo separado para cada idioma. Siempre se devuelven en formato base y, menos unas cuantas excepciones, no son términos de múltiples palabras. Las palabras de búsqueda siempre se reducen a su formato base cuando se buscan sinónimos. Estos son algunos ejemplos de sinónimos de una palabra en tres idiomas:

Ampliación de tesauro

Un término de búsqueda puede ampliarse utilizando términos del tesauro que pueden obtenerse a través de una relación específica. Estas relaciones pueden ser jerárquicas (por ejemplo la relación "Narrower term"), asociativas (por ejemplo, una relación de "Related term") o puede ser una relación de sinónimos. Un término del tesauro puede ser, y a menudo es, un término de múltiples palabras.

El apartado Conceptos del tesauro describe la ampliación de tesauro con más detalles.

El término de búsqueda (término inicial) no se normaliza cuando se efectúa una búsqueda en el tesauro. Las palabras resultantes de la búsqueda en el tesauro se reducen a su formato base de acuerdo al tipo de índice.

Ampliación de sonido

La ampliación de sonido amplía palabras aisladas a un conjunto de palabras que suenan de forma similar. Es especialmente útil cuando no se sabe cómo se escribe exactamente el término que se ha de buscar.

Enmascaramiento de caracteres y palabras

El enmascaramiento es una técnica de ampliación no lingüística, en la que se sustituye una expresión regular por una disyunción de todas las palabras que la satisfagan. Ni una expresión enmascarada ni ninguna de sus ampliaciones son objeto de lematización, extracción de palabras de parada ni ninguna de las demás técnicas de ampliación. Esto puede tener el efecto que, por ejemplo, un formato de verbo irregular como juegan, cuando se busca con el término enmascarado jueg*, coincida en un índice exacto, pero no en un índice lingüístico, donde este formato se ha lematizado y convertido en jugar.

Si utiliza el enmascaramiento de palabras, el rendimiento puede ser lento, especialmente al buscar en índices grandes.


[ Principio de página | Página anterior | Página siguiente | Contenido | Índice ]