http://publib.boulder.ibm.com/infocenter/discover/v8r4/index.jsp?topic=/com.ibm.discovery.es.ad.doc/administering/iiysauima.htm
を参照し、IBM Content AnalyzerのPEAR モジュールをOmniFind Enterprise
Editionのインデックスサーバにアップロードします。このPEARモジュールは8MBを超えるので、OmniFind Enterprise
Editionのインデックスサーバにコピーしてインストールする必要があります。IBM Content Analyzer
のPEARモジュールは$TAKMI_HOME/pearディレクトリにあります。PEARモジュールは言語ごとにパッケージされています。
PEARモジュールの内容は $ES_NODE_ROOT/data/pearsupport/PearID
N にインストールされます。ここで
N
はインデックスサーバ上でPEARを識別するためにつけられる番号です。以下、このディレクトリを $PEAR_ROOT として参照します。
このインデックスサーバにIBM Content Analyzer
をインストールしていない場合、日本語用PEARモジュールを使うためにはシステムのライブラリパスに $PEAR_ROOT/bin
ディレクトリを含める必要があります。詳しくは
こちらのセクションを参照してください。
また、OmniFind Enterprise EditionのメタデータをIBM Content Analyzerにマッピングする方法を指定することもできます。
このマッピングの指定方法については
こちらのマニュアルを参照してください。
デフォルトでは、PEARモジュールのIBM Content Analyzer データベース構造は
$PEAR_ROOT/databaseになります。カテゴリツリーや辞書を編集するときは、このデータベースを通常通り編集し、
takmi_nlp_resource_deploy コマンドを実行してください。
英語用のPEARモジュールについては、IBM Content Analyzerの辞書をOmniFind Enterprise
Editionのパーサーに読み込ませるため、以下の手順が必要になります。
- OmniFind Enterprise Editionを停止します。
- 辞書ファイル
$PEAR_ROOT/database/dic/LangWare50/en-XX-TAKMIUserNE.dic を
$ES_INSTALL_ROOT/configurations/parserservice/jediidata/frost/resources
ディレクトリにコピーします。
- $ES_NODE_ROOT/master_config/collection_id.parserdriver/specifiers/jfrost.xml
をバックアップします。ここで collection_id は目的のコレクションのコレクションIDです。
- 下記のように $ES_NODE_ROOT/master_config/collection_id.parserdriver/specifiers/jfrost.xml を編集します。
- IBM Content Analyzer の辞書を使うため、英語用のLexicalDicts エントリに下記のように en-XX-TAKMIUserNE.dic を加えます:
<!-- English -->
<settingsForGroup name="en">
<nameValuePair>
<name>LexicalDicts</name>
<value>
<array>
<string>en-XX-TAKMIUserNE.dic</string>
<string>en-XX-Lex.dic</string>
</array>
</value>
</nameValuePair>
<nameValuePair>
<name>StopwordDicts</name>
<value>
<array>
<string>en-Stw.dic</string>
</array>
</value>
</nameValuePair>
<nameValuePair>
<name>SpellCorrectionDicts</name>
<value>
<array>
<string>en-XX-Rules.dic</string>
</array>
</value>
</nameValuePair>
</settingsForGroup>
- デフォルトでは、OmniFind Enterprise
EditionのパーサーはURLやメールアドレスを分割します。たとえば「somebody@jp.ibm.com」は次のような単語の列として扱われます:「somebody」、「@」、「jp」、「.」、「ibm」、「.」、「com」。URLやメールアドレスを一語として扱いたい場合は、以下のように
DoURISegmentation オプションをfalseにしてください:
<nameValuePair>
<name>DoURISegmentation</name>
<value>
<boolean>false</boolean>
</value>
</nameValuePair>
なお、この変更はOmniFind Enterprise
Editionの動作にも影響することにご注意ください。たとえば「somebody」というクエリが「somebody@jp.ibm.com」にマッチしなくなります。
言語処理
PEARモジュールをOmniFind Enterprise
Editionのパーサーに関連付けると、このパーサーがPEARモジュールに入力するドキュメントから作られるMIMLファイルが
$PEAR_ROOT/database/db/miml ディレクトリに出力されます。
構成パラメータ
- データベースディレクトリ
- デフォルトでは、PEARモジュールは $PEAR_ROOT/database をデータベースディレクトリとして利用します。
データベースディレクトリを変更するには、 $PEAR_ROOT/desc ディレクトリの下にあるすべてのデスクリプタについて、
$PEAR_ROOT/database を新しいデータベースディレクトリのパスで置換します。 このデータベースディレクトリは、OmniFind
Enterprise Edition および IBM Content Analyzer の管理者が読み書きできなければなりません。
- 出力MIMLファイル
- 出力MIMLファイルのための構成パラメータは MIMLWriteAnnotator.xml で定義され、OAE_PACK_en.xml と OAE_PACK_ja.xml で値が指定されます。
これらのデスクリプタは $PEAR_ROOT/desc/text_analysis_engine ディレクトリにあります。下記の構成パラメータが定義されています。
- Language
- 出力に使う言語: “en” または “ja”。
- DocumentsPerMIML
- 1つのMIMLファイルに出力される文書数の最大値。
- OutputDirectory
- MIMLファイルを出力するディレクトリ。
- OutputBasename
- MIMLファイルのファイル名の一部。デフォルトは「docset」で、MIMLファイル名は「docset_YYYYMMDD_HHMMSS_N.miml”」のようになります。