El proceso lingüístico aspira a debilitar los términos de búsqueda para que se incremente la velocidad de llamada de las búsquedas, es decir, se encuentren más documentos relevantes. Hay dos operaciones básicas sobre términos de consulta para conseguir este objetivo; las expansiones y las reducciones. Además, algunas operaciones de términos de búsqueda implican tanto la ampliación como la reducción.
Ampliación de sinónimos
Ampliación de tesauro
Lematización (consulte el apartado Reducción de términos a su formato base (lematización))
Normalización (consulte el apartado Normalización de términos a un formato estándar).
Palabras de parada (consulte el apartado Filtro de palabras de parada).
Enmascaramiento de caracteres y de palabras
Ampliación de sonido.
Los sinónimos son palabras relacionadas semánticamente. Normalmente, estas palabras tienen la misma clase o clases de palabra (por ejemplo, un nombre, un verbo, etcétera) como término origen. Los sinónimos se obtienen de un archivo separado para cada idioma. Siempre se devuelven en formato base y, menos unas cuantas excepciones, no son términos de múltiples palabras. Las palabras de búsqueda siempre se reducen a su formato base cuando se buscan sinónimos. Estos son algunos ejemplos de sinónimos de una palabra en tres idiomas:
word: comment remark statement utterance term expression communication message assurance guarantee warrant bidding command charge commandment dictate direction directive injunction instruction mandate order news advice intelligence tidings gossip buzz cry hearsay murmur report rumor scuttlebutt tattle tittle-tattle whispering
mot: expression parole terme vocable lettre billet missive epître plaisanterie
Wort: Vokabel Bezeichnung Benennung Ausdruck Begriff Terminus Ehrenwort Brocken Bekräftigung Versprechen Zusicherung Gelöbnis Beteuerung Manneswort Schwur Eid Ausspruch
Un término de búsqueda puede ampliarse utilizando términos del tesauro que pueden obtenerse a través de una relación específica. Estas relaciones pueden ser jerárquicas (por ejemplo la relación "Narrower term"), asociativas (por ejemplo, una relación de "Related term") o puede ser una relación de sinónimos. Un término del tesauro puede ser, y a menudo es, un término de múltiples palabras.
El apartado Conceptos del tesauro describe la ampliación de tesauro con más detalles.
El término de búsqueda (término inicial) no se normaliza cuando se efectúa una búsqueda en el tesauro. Las palabras resultantes de la búsqueda en el tesauro se reducen a su formato base de acuerdo al tipo de índice.
La ampliación de sonido amplía palabras aisladas a un conjunto de palabras que suenan de forma similar. Es especialmente útil cuando no se sabe cómo se escribe exactamente el término que se ha de buscar.
El enmascaramiento es una técnica de ampliación no lingüística, en la que se sustituye una expresión regular por una disyunción de todas las palabras que la satisfagan. Ni una expresión enmascarada ni ninguna de sus ampliaciones son objeto de lematización, extracción de palabras de parada ni ninguna de las demás técnicas de ampliación. Esto puede tener el efecto que, por ejemplo, un formato de verbo irregular como juegan, cuando se busca con el término enmascarado jueg*, coincida en un índice exacto, pero no en un índice lingüístico, donde este formato se ha lematizado y convertido en jugar.
Si utiliza el enmascaramiento de palabras, el rendimiento puede ser lento, especialmente al buscar en índices grandes.