Un sistema rápido de recuperación de información no explora secuencialmente los documentos de texto; tardaría demasiado. En su lugar, opera en un índice de texto creado previamente. Puede decirse que un índice de texto consiste en los términos significativos extraídos de los documentos de texto; cada término se almacena junto con información sobre el documento que lo contiene.
Un índice de texto sólo contiene información importante; las palabras insignificantes como, por ejemplo, "y", "de" y "que", no se indexan. (Para índices Ngram se realiza un filtrado sin palabras de parada.) DB2 Text Extender utiliza una lista de estas palabras, conocidas como palabras de parada para evitar que se indexen. El sistema de recuperación busca en el índice los términos pedidos para averiguar los documentos de texto que los contienen.
Consejo |
---|
Si necesita modificar la lista de palabras de parada, hágalo sólo una vez y en el momento de la instalación. |
Una lista de las palabras de parada por idioma se almacena en un archivo que puede modificar (consulte el apartado Modificación de los archivos de palabras de parada y de abreviaturas), pero, debido a que sólo hay un archivo para todo el sistema, sólo debe cambiarlo una vez al configurar DB2 Text Extender por primera vez. Si luego cambia el archivo, los índices existentes no reflejarán el cambio.
Digamos, por ejemplo, que algunos documentos contienen el nombre de una revista semanal denominada "Ahora". Si elimina esta palabra de las palabras de parada, se indexará y podrá encontrarse en búsquedas posteriores. Sin embargo, los índices que haya creado antes de eliminar la palabra de parada no contendrán la palabra "ahora" y una búsqueda de la misma no sería satisfactoria.
Si decide cambiar las palabras de parada y desea que este cambio se refleje en todos los índices, debe volverlos a crear todos.
La indexación es un proceso que consta de dos pasos. El primer paso es registrar en una tabla de registro cronológico los documentos de texto que se deben indexar. Esto se realiza automáticamente con los desencadenantes de DB2 siempre que se inserta, actualiza o suprime un documento de texto de una columna.
El segundo paso es indexar los documentos de texto listados en la tabla de registro cronológico. Esto puede hacerse periódicamente. Los términos de los documentos que se han insertado o cambiado en la columna se añaden al índice. Los términos de los documentos que se han suprimido de la columna se eliminan del índice.
Figura 4. Indexación de los términos significativos solamente
![]() |