Integrating IBM Classification Module categories

IBM Content Analyzer は、IBM Classification Moduleによって割り当てられた文書分類の結果を統合する機能を提供します。

IBM Classification Moduleは、構造化されていない文書を自動的に分類する様々なアプリケーションの基盤となります。IBM Classification Moduleによって割り当てられるカテゴリは、 文章が特定の集合に属するということを示すために付けられるラベルです。カテゴリは、文章の内容を象徴したり、その属性、例えば、情報源を示すことが可能です。一般的に、個々のカテゴリは、Relationship Modeling Engineを利用可能なアプリケーション内で固有に使用されます。 Classification Workbenchは、訓練用のコーパスの中で示されているカテゴリを基に、Knowledge Base内にカテゴリを作成します。
IBM Classification Moduleに関する情報については、以下のURLを参照してください。 http://publib.boulder.ibm.com/infocenter/classify/v8r5/index.jsp
概要
IBM Content Analyzerには、ICM統合ツールと呼ばれるツールが提供されています。このツールを利用して、 IBM Classification Moduleによって割り当てられた文書の分類情報をIBM Content Analyzerのカテゴリに統合することができるようになります。 製品がサポートするプラットフォーム上で動作するJVMの上で実行され、独立したコマンドラインツールとして提供されます。このツールは、MIMLファイルからテキスト項目を読み出し、それをIBM Classification Moduleに送ります。IBM Classification Moduleが付与したsuggestionと呼ばれる分類情報を受け取り、MIMLファイル内の対応する文書のstandard featuresとして割り当てます。
ICM統合ツール(実行ファイル:TAKMI_ICM2MIML)のシステム概要図は次のようになります。


Fig1. TAKMI_ICM2MIMLツールの概要

前提ソフトウェア
IBM Classification Module V8.5
クライアントモジュール, bns.jar, および、Libディレクトリにある全てのjarファイルをTAKMI_ICM2MIMLのjavaクラスパスに配置する必要があります。
IBM Content Analyzer V8.4.2
Mapping between IBM Classification Module suggestions and IBM Content Analyzer categories
IBM Classification Moduleが付与したsuggestionをIBM Content Analyzerのカテゴリに割り当てる方法は2通りあります。
標準マッピング
IBM Classificatin Moduleから取得した分類情報をIBM Content Analyzerの1つのStandardFeature要素にマップします。このStandardFeatureは、IBM Classification Moduleから得られた分類であることを示すもので、IBM Classification Moduleに割り当てられた全てのsuggestionが共通のカテゴリに入れられ、その値はカテゴリのキーワードとして扱われます。
カスタマイズドマッピング
標準マッピングの代わりに、IBM Classification ModuleのsuggestionとIBM Content Analyzerのカテゴリとのマッピングをユーザーに合わせて変更することができます。全てのカスタマイズドマッピングは、プロパティファイルを使用して、明示的に指定する必要があります。 1つのIBM Classification Moduleのsuggestionは、1つの適当なIBM Content Analyzerのカテゴリに関連付けられていなければなりません。必要な場合は、異なるsuggestionを1つの同じカテゴリに割り当てることができます。 しかしながら、1つのIBM Classification Moduleのsuggestionを複数のIBM Content Analyzerカテゴリに割り当てることはできません。
IBM Classification Moduleは、1回の呼び出しでスコアと共に複数のsuggestionを返すことが可能です。このツールは、その内、最も高いスコアを持つsuggestionをIBM Content Analyzerのカテゴリとして扱います。他のsuggestionsは、無視されます。
To map suggestions to categories
1.IBM Classification Moduleが返す分類情報(suggestion)を保持するカテゴリの定義
  • IBM Classification Moduleの分類情報(suggestion)を関連付けるカテゴリをcategory_tree.xml fileに定義する。
    • 標準マッピングのために最低1つのカテゴリを準備する。
    • カスタマイズドマッピングを利用するためには、IBM Classification Moduleの分類情報(suggestions)に対応するカテゴリをそれぞれ定義する。
カテゴリの作成方法については、運用ガイドの2.3章 "カテゴリツリーの設計"を参照。
2. IBM Classification Moduleへのコネクションとマッピングの構成
ICM統合ツール、TAKMI_ICM2MIMLが使用する構成ファイルにIBM Classification Moduleに接続するために必要なパラメータを指定する。また、IBM Classification Moduleの分類情報(suggestion)とIBM Content Analyzerのカテゴリとのマッピングを同じ構成ファイルに指定する。

サンプルの構成ファイル, icmbridge_sample_configuration.xmlが、%TAKMI_HOME%/resourceディレクトリの下に提供されている。構成ファイルを使用した構成方法については、"Configuration parameters"の章を参照のこと。
3. システム環境変数 ICM_HOMEの指定
IBM Classification Moduleのインストールディレクトリをシステム環境変数 ICM_HOMEに設定する。
4. ツールの実行
シェル・コマンド takmi_icm2mimlを実行し、文章分類の結果を統合するJavaのプログラムを起動する。
  • IBM Classification Moduleの分類情報(suggestion)をマッピングするためのカテゴリ・ツリーの設計が完了していることを確認する。
  • icmbridge configuration fileを編集する。編集方法については、"Configuration parameters" の章を参照。
  • コマンドプロンプト(Windows)、またはシェル (AIX)を開き、次のコマンドを実行する。
        Windows:
        >  takmi_icm2miml.bat  CONFIG_FILE  MIML_FILE  [HEAP_SIZE_MB]
        AIX:
        >  takmi_icm2miml.sh  CONFIG_FILE  MIML_FILE  [HEAP_SIZE_MB]
      
    パラメータ説明:
  • CONFIG_FILE: 構成ファイル
  • MIML_FILE: 入力MIMLファイル。IBM Classification Moduleを使用して分類を行いたいテキストが含まれるMIMLファイル。.
  • HEAP_SIZE_MB: (optional) Java™ ヒープサイズ。MB単位で指定する。省略時値は256 (MB)。
5. インデックスの作成
takmi_icm2miml コマンドは、IBM Classification Moduleが割り当てた分類情報を含むMIMLファイルを生成します。この新たに生成されたMIMLファイルからインデックスを作成すると、TEXT MIMERから分類情報を見ることができるようになります。
インデックスを作成するためのコマンド(例:takmi_index.bat)を実行する前に、入力ファイルとして指定した元のMIMLファイルのファイル拡張子をMIML以外の拡張子に変更します。ファイル拡張子を"miml"のままにしておくと、インデックス作成の処理を行う際に、誤って元のファイルも一緒に読み込まれてしまい、統計情報の誤りの原因となります。
インデックスの作成方法については、運用ガイドの5章"Indexing"を参照してください。
6. 結果の分析
IBM Classification Moduleから返された分類情報(suggestion)は、構成ファイルで定められたカテゴリにマップされます。 そして、その結果は、TEXT MINERを利用して、表示、分析することが可能になっています。
TEXT MINERの起動方法については、Text Minerガイドを参照。
Configuration parameters
ツールの構成は、次のトップレベル要素を持つXMLファイルに保持されます。