자세한 분석기

이전에 소개했듯이 분석기는 색인화와 검색에 대해 검색 가능한 텍스트를 비교합니다.

분석기 선택은 매우 중요합니다. 분석기는 org.apache.lucene.analysis.Analyzer를 확장하는 구체적인 클래스입니다. GSS는 여러 분석기와 함께 제공되며, 사용자가 자신의 것을 작성하여 사용할 수도 있습니다. 때때로 필드를 비토큰화로 정의하고 싶은 경우, 대신 분석기를 더 주의깊게 선택할 것을 고려하는 것이 좋습니다.

각 검색 서비스에는 기본 분석기가 있으며, 모든 검색 서비스 필드는 그 분석기를 대체하여 해당 필드에 대해 사용할 특정 분석기를 정의할 수 있습니다(analyzerName 참조). GSS는 색인화와 검색 둘 다에 동일한 분석기를 사용합니다.

일반 검색 서버는 다음과 같은 사전 정의된 분석기를 제공합니다.

LUCENESTANDARD: 구두점 문자에서 텍스트를 분할하고 구두점을 제거합니다. 그러나 공백 다음이 아닌 점은 토큰의 일부로 간주됩니다. 토큰 안에 숫자가 있지 않는 한 하이픈에서 단어를 분할합니다. 토큰 안에 숫자가 있는 경우 토큰은 제품 번호로 해석되며 분할되지 않습니다. 이메일 주소와 인터넷 호스트 이름을 토큰으로 인식합니다. 토큰 텍스트를 소문자로 정규화하고 일반 영어의 검색 엔진에서 제외되는 단어를 제거합니다.
STANDARD: LUCENESTANDARD 분석기와 유사하지만 토큰화된 용어에서 공통되는 검색 엔진에서 제외되는 단어가 제거되며 토큰화할 용어가 단일 숫자인 경우 경고하지 않습니다. (생성된 인프라 ID 처리에 알맞은 것으로 만들며, 음수가 될 수도 있습니다.)
SIMPLE: 일반 문자가 아닌 문자에서 텍스트를 분할하고 토큰 텍스트를 소문자로 정규화합니다.
STOP: 일반 문자가 아닌 문자에서 텍스트를 분할하고 토큰 텍스트를 소문자로 정규화하고 공통 영어의 검색 엔진에서 제외되는 단어를 제거합니다.
WHITESPACE: 공백에서 텍스트를 분할합니다. 공백이 아닌 문자의 인접 시퀀스가 토큰을 형성합니다.
KEYWORD: 전체 스트림을 단일 토큰으로 "토큰화"합니다. 이는 우편번호, ID, 일부 제품 이름과 같은 데이터에 유용합니다.

사전 정의된 GSS 분석기 또는 Lucene과 함께 제공되는 분석기가 아닌 분석기를 사용하는 경우에는 일반 검색 서버 클래스 경로에서 해당 클래스를 사용할 수 있어야 합니다.