Campos simbolizados y no simbolizados

Ya hemos mencionado brevemente la cuestión de la simbolización de los campos de búsqueda. Lo que la simbolización implica es esencialmente la división de los datos indexados en unidades denominadas símbolos. Esto se lleva a cabo mediante el uso de un analizador. Los distintos analizadores se comportan de forma diferente, algunos pueden dividir los símbolos en los espacios en blanco, algunos en la puntuación, etc. Los símbolos resultantes también se transforman normalmente en minúsculas. Para los campos simbolizados, las series de consulta se simbolizan de la misma manera y, por lo tanto, las búsquedas no son sensibles a mayúsculas y minúsculas, entre otras ventajas.

En el caso de algunos campos no tiene sentido simbolizarlos. Buenos ejemplos de esto son los valores generados por el sistema, como códigos de tabla de códigos. En general, sin embargo, la mayoría de los campos se deben simbolizar. En concreto, el comportamiento de los campos sin simbolizar de varias palabras y las búsquedas es contrario a lo que se podría intuir. Si ve que las búsquedas no devuelven los datos que espera, considere si este puede ser el caso.

Ejemplo: Tomamos como ejemplo un campo de dirección, con un documento que contiene "Joyce Way Parkwest Dublín". Si fuese un campo simbolizado utilizando el analizador estándar, el índice contendría cuatro términos: joyce, way, parkwest y dublín. Cualquier serie de consulta que contenga términos que coincidan con estos términos (exactamente o por medio de un comodín) encontrará este documento. Por ejemplo: "Dublín", "Joyce Way", "park*", etc.

No obstante, si este campo no está simbolizado y se añada el mismo documento, el índice contendrá un solo término: "Joyce Way Parkwest Dublín". Muchas menos series de consulta coincidirán con esto, esencialmente solo la misma serie o la primera parte de la serie como una búsqueda de prefijo. La búsqueda también distinguirá entre mayúsculas y minúsculas.