Documentation
(C) IBM Corp. 1996, 2000

DB2 Text Extender Administración y programación


Conceptos del tesauro

Un tesauro es un vocabulario controlado de términos relacionados semánticamente que, normalmente, cubre el área de un tema específico. Puede visualizarse como una red semántica en la que cada término se representa por un nodo. Si dos términos están relacionados entre si, sus nodos se conectan mediante un enlace etiquetado con el nombre de la relación. Todos los términos se relacionan directamente con un término determinado que puede obtenerse siguiendo todas las conexiones que salen de su nodo. Se pueden obtener más términos relacionados siguiendo iterativamente todas las conexiones que salen de los nodos obtenidos en el paso anterior. La Figura 16 muestra un ejemplo de la estructura de un tesauro muy pequeño.

Figura 16. Tesauro visualizado como una red


Figure DESU9S31 not displayed.

DB2 Text Extender le permite ampliar un término de búsqueda añadiendo términos adicionales de un tesauro que ha creado previamente. Consulte el Capítulo 12, Sintaxis de los argumentos de búsqueda para averiguar cómo utilizar la ampliación del tesauro en una consulta.

Para crear un tesauro para utilizarlo en una aplicación de búsqueda es necesario un archivo de definiciones de tesauro que se ha de compilar en un formato interno, el diccionario tesauro.

El formato del diccionario utilizado por un índice lingüístico y uno exacto difieren del utilizado por un índice Ngram. Así, se proporcionan dos compiladores de tesauro diferentes con el producto. No sólo son levemente diferentes en los conceptos en los que se basan, sino que necesitan formatos fuente diferentes. Por lo tanto, primero debe decidir el tipo de índice que utilizará antes de empezar una definición del tesauro para la aplicación de búsqueda.

Los componentes básicos de un tesauro son los "términos" y las "relaciones".

Términos

Un término es una palabra o una expresión que indica un concepto dentro del dominio de temas del tesauro. Por ejemplo, los siguientes términos podrían estar en uno o varios tesauros:

proceso de datos
helicóptero
producto nacional bruto

En un tesauro DB2 Text Extender, los términos se clasifican como descriptores o no descriptores. Un descriptor es un término de una clase de sinónimos que es el preferido para la indexación y la búsqueda. Los otros términos de la clase se llaman no descriptores. Por ejemplo, contorno y forma son sinónimos, donde forma puede ser el descriptor y contorno un no descriptor.

Un tesauro Ngram no distingue entre descriptores y no descriptores.

Relaciones

Una relación es una expresión de una asociación entre dos términos. Las relaciones tienen las propiedades siguientes:

La ampliación del tesauro puede utilizar todas las relaciones definidas en el tesauro. El usuario también puede especificar la profundidad de la ampliación. Este es el número máximo de transiciones desde un término fuente a un término de destino. Sin embargo, tenga en cuenta que el conjunto de términos puede incrementarse exponencialmente a medida que aumenta la profundidad.

El ejemplo siguiente muestra los términos que se van añadiendo a medida que aumenta la profundidad.

sanitario
 
servicio sanitario, paramédicos, medicina, enfermedad
 
alergiología, virología, medicina veterinaria, toxicología, cirugía,
estomatología, reumatología, radioterapia, siquiatría, medicina
preventiva, patología, odontología, nutrición, medicina nuclear,
neurología, nefrología, chequeo médico, medicina de empresa,
hematología, medicina general, epidemiología, reclamaciones clínicas,
cardiología, oncología

Relaciones del tesauro DB2 Text Extender

Estos son los tipos de relaciones proporcionadas por un tesauro de DB2 Text Extender

En un tesauro DB2 Text Extender no hay relaciones predefinidas. Puede dar a cada relación un nombre como, por ejemplo, BROADER TERM, que puede ser una abreviatura mnemotécnica como BT. Las relaciones comunes utilizadas en el diseño del tesauro son:

Asociativa

Una relación asociativa es una relación bidireccional entre descriptores, que se amplía a cualquier profundidad. Enlaza dos términos que no son equivalentes ni jerárquicos, aunque están semánticamente asociados en tal medida que el enlace entre ellos puede sugerir términos adicionales en la indexación o en la recuperación.

Las relaciones asociativas se designan normalmente como RT (término relacionado). Son ejemplos:

perro RT seguridad
mascota RT veterinario

Sinónimo

Cuando se distingue entre descriptores y no descriptores, como se hace en un tesauro DB2 Text Extender, la relación sinónima es unidireccional entre dos términos que tienen un significado igual o similar. En una clase de sinónimos, uno de los términos se designa como el descriptor. Los demás términos se llaman no descriptores. Consulte el apartado Relaciones de tesauro Ngram para ver una definición de la relación sinónima cuando no se distingue entre descriptores y no descriptores.

La designación común USE conduce desde un no descriptor dado a su descriptor. La designación común USE FOR conduce desde el descriptor a cada no descriptor. Por ejemplo:

felino USE gato
abogado UF defensor

Jerárquica

Una relación jerárquica es una relación unilateral entre descriptores que indica que uno de los términos es más específico, o menos genérico, que el otro. Esta diferencia conduce a la representación de los términos como una jerarquía, donde un término representa una clase y los términos subordinados hacen referencia a sus partes miembro. Por ejemplo, el término "ratón" pertenece a la clase "roedor".

BROADER TERM y NARROWER TERM son relaciones jerárquicas. Por ejemplo:

coche NT limusina
equino BT caballo

Otras

Una relación de tipo otra es la más general. Representa una asociación que no recae con facilidad en ninguna de las demás categorías. Una relación de tipo otra puede ser bidireccional o unidireccional, no hay restricción en la profundidad y pueden existir relaciones entre descriptores y no descriptores.

Esta relación se utiliza con frecuencia para nuevos términos de un tesauro hasta que se determina la relación adecuada con otros términos.

Claro que puede definir su propia relación sinónima bidireccional utilizando el tipo de relación asociativa para una relación sinónima entre descriptores o incluso con el tipo de relación otra para una relación sinónima entre términos arbitrarios.

Relaciones de tesauro Ngram

Un tesauro Ngram da soporte a los dos tipos siguientes:

Hay dos relaciones predefinidas, cada una de ellas basada en estos dos tipos. Puede definir sus propias relaciones en base al tipo asociativo. Para ver los detalles, consulte el apartado Creación de un tesauro Ngram.

Asociativa

Una relación asociativa es una relación bidireccional entre dos términos que no expresan el mismo concepto pero que están relacionados el uno con el otro. La relación predefinida RELATED_TO y todas las relaciones definidas por el usuario se basan en este tipo de relación.

Son ejemplos:

tenis RELATED_TO raqueta
alemán RELATED_TO salchicha

Sinónimo

Una relación sinónima es una relación bidireccional entre dos términos que tienen un significado igual o similar y que pueden utilizarse como alternativos entre si. Esta relación puede, por ejemplo, utilizarse para un término y su abreviatura. La relación predefinida SYNONYM_OF es la única relación basada en este tipo.

Son ejemplos:

mancha SYNONYM_OF tacha
EE.UU. SYNONYM_OF Estados Unidos

Creación de un tesauro

Consulte también el apartado Creación de un tesauro Ngram.

Hay un archivo de entrada de ejemplo de compilador de tesauro en inglés desthes.sgm almacenado en el directorio de ejemplos de la vía de acceso de la instalación. El directorio de diccionarios de los sistemas OS/2 y Windows es:

drive:\dmb\db2tx\samples

En sistemas AIX, HP-UX y SUN-Solaris, el directorio es:

DB2TX_INSTOWNER /db2tx/samples

Una versión compilada de este tesauro y su archivo de entrada SGML se almacena en el directorio de diccionarios.

unidad:\dmb\db2tx\dict
o
DB2TX_INSTOWNER /db2tx/dicts

Los archivos que pertenecen a este tesauro se denominan desthes.th1, desthes.th2, ... y desthes.th6..

Para crear un tesauro, defina primero su contenido en un archivo. Se recomienda utilizar un directorio plano para cada tesauro que defina. El archivo puede tener cualquier extensión excepto th1 a th6, que se utilizan para el diccionario tesauro. Si utiliza el mismo directorio para el tesauro Ngram, consulte el apartado Creación de un tesauro Ngram para ver más extensiones excluidas.

Después compile el archivo ejecutando:

txthesc -f nombarch -c  ccsid

donde nombarch sólo puede contener los caracteres a-z, A-Z y 0-9.

Actualmente, sólo se da soporte al CCSID 850.

txthesc produce archivos de tesauro que se denominan nombarch sin ninguna extensión y con las extensiones th1 a th6, en el mismo directorio en el que está ubicado el archivo de definiciones. Si ya hay un tesauro con el mismo nombre, se sobregraba sin avisar.

Consulte el Capítulo 12, Sintaxis de los argumentos de búsqueda para averiguar cómo se utiliza un tesauro en una consulta.

Especifique el contenido de un tesauro utilizando Standard Generalized Markup Language (SGML). El diagrama siguiente muestra las reglas de sintaxis que se han de seguir al crear un tesauro.

>>-<thesaurus>--<header>--<thname>--nombre-tesauro--</thname>--->
 
              .----------------------------.
              V                            |
>----<rldef>-----| definición-relación |---+---</rldef>--------->
 
                  .------------------------.
                  V                        |
>----</header>-------| entrada-tesauro |---+--</tesauro>-------><
 
definición-relación
 
|---<rls>--<rlname>--nombre-relación--</rlname>----------------->
 
>-----<rltype>--+-ASSOCIATIVE--+---</rltype>----</rls>----------|
                +-SYNONYMOUS---+
                +-HIERARCHICAL-+
                '-OTHER--------'
 
entrada-tesauro
 
|---<en>--número-exclusivo--,----+-1-+--<t>--término--</t>------>
                                 '-2-'
 
>-----+----------------------------+--</en>---------------------|
      '-| términos-relacionados |--'
 
términos-relacionados
 
|---<r>--------------------------------------------------------->
 
      .-------------------------------------------------------------.
      |                        .-----------------------.            |
      V                        V                       |            |
>--------<l>--nombre-relación-----<t>--término--</t>---+---  </l>---+>
 
>-----</r>------------------------------------------------------|
 

nombre-relación sólo puede contener los caracteres a-z, A-Z y 0-9.

La Figura 17 muestra la definición SGML del tesauro mostrado en la Figura 16.

Figura 17. Definición de un tesauro sencillo

<thesaurus>
<header>
<thname>tesauro de ejemplo tesac</thname>
<rldef>
 
<rls>
<rlname>Related Term</rlname>
<rltype>associative</rltype>
</rls>
 
<rls>
<rlname>Narrower Term</rlname>
<rltype>hierarchical</rltype>
</rls>
 
<rls>
<rlname>Instancia</rlname>
<rltype>hierarchical</rltype>
</rls>
 
<rls>
<rlname>Sinónimo</rlname>
<rltype>synonymous</rltype>
</rls>
</rldef>
</header>
 
<en> 2, 1
<t>sistema de gestión de bases de datos</t>
<r>
  <l>Narrower Term
  <t>oo sistema de gestión de bases de datos</t>
  <t>sistema de gestión de bases de datos relacionales</t>
  </l>
 
  <l>Synonym
  <t>DBMS</t>
  </l>
 
  <l>Related Term
<t>sistema de gestión de documentos</t>
  </l>
 
  <l>Instancia
<t>base de datos</t>
  </l>
</r>
</en>
<en> 5, 1
<t> sistema de gestión de bases de datos relacionales</t>
<r>
  <l>Narrower Term
  <t>sistema de gestión de bases de datos relacionales de objetos</t>
  </l>
</r>
</en>
 
<en> 3, 1
  <t>sistema de gestión de bases de datos relacionales de objetos</t>
<r>
  <l>Instancia
  <t>DB2 Universal Database</t>
  </l>
</r>
</en>
 
<en> 6, 1
<t>sistema de gestión de bases de datos orientada a objetos</t>
<r>
  <l>Narrower Term
  <t>sistema de gestión de bases de datos relacionales de objetos</t>
  </l>
</r>
</en>
 
<en> 4, 1
<t>sistema de gestión de documentos</t>
<r>
  <l>Synonym
<t>biblioteca</t>
  </l>
</r>
</en>
 
<en> 9, 1
<t>biblioteca</t>
</en>
 
<en> 10, 1
<t>DB2 Unversal Database</t>
</en>
 
<en> 11, 1
<t>base de datos</t>
</en>
</tesauro>

Creación de un tesauro Ngram

Hay un archivo de entrada de ejemplo de compilador de tesauro Ngram en inglés desnthes.def almacenado en el directorio de diccionarios de la vía de acceso de instalación. El directorio de diccionarios de los sistemas OS/2 y Windows es:

unidad:\dmb\db2tx\dict

En sistemas AIX, HP-UX y SUN-Solaris, el directorio de diccionarios es:

DB2TX_INSTOWNER /db2tx/dicts

También se almacena allí una versión compilada del tesauro de ejemplo. Los archivos que pertenecen a este tesauro se denominan desnthes.<extension> con la siguiente extensión, donde n es un dígito:

Para crear un tesauro Ngram, primero defina su contenido en un archivo de definiciones. Puede tener varios tesauros en el mismo directorio, pero se recomienda tener un directorio para cada tesauro. La longitud del nombre de archivo sin la extensión no debe exceder de 8 caracteres. La extensión es opcional pero se restringe a 3 caracteres y deben ser diferentes de cualquiera de las extensiones listadas más arriba.

Si utiliza el mismo directorio para otros tesauros DB2 Text Extender, no utilice las extensiones listadas en el apartado Creación de un tesauro.

Después compile el archivo ejecutando:

txthesn -f nombre-archivo-definiciones -ccsid página-códigos

Esta es una lista de las páginas de códigos que soporta un tesauro Ngram:
932 AIX, OS/2 Japonés
942 OS/2 Japonés
943 OS/2, Windows Japonés
949 OS/2 Coreano
950 AIX, HP-UX, OS/2, SUN-Solaris, Windows Chino tradicional
970 AIX, HP-UX, SUN-Solaris Coreano
1381 OS/2, Windows Chino simplificado
1363 Windows Coreano
1383 AIX, HP-UX, SUN-Solaris Chino simplificado
850 AIX, OS/2 Latin-1
1252 Windows Latin-1

txthesn produce archivos de tesauro que tienen el mismo nombre que el nombre-archivo-definiciones con las extensiones mencionadas más arriba. Los archivos se crean en el mismo directorio que el archivo de definiciones. Si ya existe un tesauro con el mismo nombre en este directorio se sobregraba sin avisar.

Especifique el contenido del tesauro utilizando el diagrama de sintaxis siguiente:

   .------------------------------------.
   V                                    |
>>---+-| bloque-definiciones-grupo |-+--+----------------------><
     '-| línea-comentario |----------'
 
bloque-definiciones-grupo
 
|---|  línea-inicial-bloque |--\n------------------------------->
 
      .------------------------------------------------.
      V                                                |
>---------+-|   definición-término-miembro |--+---\n---+--------|
          '-|   definición-término-asociado |-'
 
 línea-inicial-bloque
 
|---:WORDS----+------------------------+-----------------------------|
         '-|  relación-miembro |--'
 
 relación-miembro
 
|---+-:SYNONYM----------------+----------------------------------------|
    +-:RELATED----------------+
    '-:RELATED--(--número--)--'
 
  definición-término-miembro
 
|---término-miembro---------------------------------------------|
 
  definición-término-asociado
 
|---+-.RELATED_TO----------------+--término-asociado------------|
    +-.SYNONYM_OF----------------+
    '-.RELATED_TO--(--número--)--'
 
línea-comentario
 
|---#--cualquier-comentario-------------------------------------|
 

Cada término miembro debe estar escrito en una sola línea. Cada término asociado debe ir precedido por el nombre de relación. Si los términos miembro están relacionados entre sí, especifique una relación de miembros.

La longitud de los términos miembros y los términos asociados se restringe a 164 caracteres. Los caracteres de un solo byte y los caracteres de doble byte de la misma letra se contemplan como iguales. No se distingue entre letras en mayúsculas y en minúsculas. Un término puede contener un carácter en blanco pero se puede utilizar el carácter de punto de un solo byte "." o los dos puntos ":",

Todas las relaciones definidas por el usuario se basan en el tipo asociativo. Se identifican por números exclusivos entre 1 y 128.

Si una aplicación desea utilizar nombres simbólicos para sus relaciones de tesauro en lugar del nombre y número de la relación, debe administrar la correlación ella misma. Por ejemplo, si la relación OPPOSITE_OF se ha definido como RELATED_TO(1), la aplicación tiene que correlacionar este nombre con el nombre de relación interna RELATED_TO(1). Consulte el Capítulo 12, Sintaxis de los argumentos de búsqueda para averiguar cómo utilizar la ampliación del tesauro en una consulta.


[ Principio de página | Página anterior | Página siguiente | Contenido | Índice ]