DoCat オンラインマニュアル - IBM Content Analyzer

本書には、IBM の専有情報が含まれています。その情報は、使用許諾条件に基づき提供され、 著作権により保護されています。 本書に記載される情報には、いかなる製品の保証も含まれていません。 また、本書で提供されるいかなる記述も、製品保証として解釈すべきではありません。 お客様の環境によっては、資料中の円記号がバックスラッシュと表示されたり、バックスラッシュが円記号と表示されたりする場合があります。

© Copyright IBM Corp. 2007, 2008. All Rights Reserved.

1 初めに

この文書では、DoCat の操作方法について解説します。

1.1 概要

DoCat (Document Categorizion) はTEXT MINERで発見した情報を定型的にチェックするための設定を行い、発見した情報の抽出を自動化するツールです。
DoCatを使った処理は以下の1~4 の流れになります。

  1. TEXT MINER を使って新たな情報を発見
  2. DoCat を使って新たな情報の特徴をカテゴリに設定
  3. 前処理機能 を使ってデータ全体に対してカテゴリを自動付与
  4. TEXT MINER を使ってカテゴリを定期的に確認し、新たな情報の発見につなげる
1.2 DoCatの特徴

特徴1:文書内の文字列や係り受けを用いて文書とカテゴリの関連付け

DoCat ではDICTIONARY EDITOR で設定されたカテゴリと、TEXT MINER で見つけた文書との関係を文書内の表現を使って設定します。この表現の設定を分類トリガーと呼びます。文書が分類トリガーを含んでいる場合、文書は前処理において自動分類され TEXT MINER のカテゴリビュー等に反映されます。
一般的な文書分類技術では分類トリガーとして単語のみが使われることが多いのですが、DoCat では係り受けも分類トリガーとして使用します。

特徴2:TEXT MINERの検索条件とカテゴリの関連付け

DoCat ではTEXT MINERで作成した検索条件とDICTIONARY EDITOR で設定されたカテゴリを関連を分類トリガーとして設定することもできます。
TEXT MINERの検索条件に合致する文書が前処理で自動分類され TEXT MINER のカテゴリビュー等に反映されます。

特徴3:複数カテゴリへの分類

DoCatでは一つの文書に対して複数のカテゴリを関連付けることができます。
前処理時にも文書は複数カテゴリに自動分類されるので、複数の内容を含む文書の分類にも適しています。

特徴4:GUIのカーソル操作による分類トリガーの設定

分類トリガーは文書内で特徴的な表現をGUI(カーソル操作)で選択して設定します。
一つのカテゴリに対して分類トリガーを複数設定でき、すべての分類トリガーが前処理において自動分類に使用されます。

特徴5:ロジスティック回帰手法を用いた分類

分類トリガーには保存時に以前の設定を含め総合的に重みが付与されます。重みの計算にはロジスティック回帰手法が用いることで分類トリガー同士の整合性を保ちます。

前処理時には設定された分類トリガーが文書に出現するかどうかをチェックし、出現した全ての分類トリガーと関連付けられたカテゴリと重みを集計し、重みが閾値以上であれば文書にカテゴリを付与します。

特徴6:前処理シミュレーション機能

TEXT MINERの文書一覧ビューに表示される文書に対して前処理と同等のカテゴリ付与を行い、実際に前処理を行う前に分類処理結果を確認できます。
1.3 TEXT MINERでの表示

DoCatで設定された結果は、前処理後 (言語処理とインデックス作成の処理終了後) にTEXT MINERの画面で確認できます。

前処理で付与される分類のカテゴリのキーワードは、辞書カテゴリとは異なります。
辞書カテゴリは、カテゴリ名が「商品」であればキーワードは文書に出現した具体的な商品名になります。
一方、分類のカテゴリのキーワードはカテゴリ名自身となります。

例えば文書が「商品の質問」であると分類されるとカテゴリ名が「商品の質問」でキーワードも「商品の質問」がその文書に付与されます。 これは、分類では否定を含め文書中の複数の表現(分類トリガー)を使って総合的に判断するため、一つのキーワードにはならないためです。

1.4 利用環境

DoCatを利用するには Microsoft Internet Explorer version 6が必要になります。
JavaScriptを有効にし、ポップアップブロックの設定は解除してください。

制限事項

複数の種類のデータベースに対して、DoCatを同時に使用することは出来ません。

TEXT MINER の同一のウィンドウから複数の DoCatを起動することは出来ません。
DoCat の[終了(カテゴリロック解除)]ボタンを押し忘れてブラウザを終了した場合には、DoCat に接続したTEXT MINER の画面を一度閉じてください。
また、TEXT MINER が別のブラウザ画面から開かれた場合には、TEXT MINERを開いた元のウィンドウも閉じる必要があります。

DoCat ではブラウザの戻る/進むボタンを使用しないでください。戻る/進むボタンを押すと編集中の内容は失われます。

2 起動方法と終了方法
2.1 起動方法

DoCatを利用するにはTEXT MINER の文書一覧画面において外部接続 を選択します。 TEXT MINER の詳細については TEXT MINER のマニュアル を参照して下さい。

DoCat で分類したい文書選び出すために、 TEXT MINER を用いてキーワード・定型項目・期間等で粗く絞り込みます。

分類したい文書がTEXT MINERの文書一覧ビューに含まれていることを確認したら、外部接続 ボタンを押し、ポップアップウインドウの「DOCATに接続」リンクをクリックしてください。 別ウインドウにDoCatが表示されます。文書一覧で表示されているページ・文書数がDoCat で使用されますので、分類したい文書が含まれるように調整してください。

注意:リンクの「DOCATに接続」の文言は設定により変わっている場合があります。

外部接続ボタンを押してDOCATに接続します


2.2 終了方法
終了(カテゴリロック解除) のボタンを押してDoCatを終了してください。
3 画面構成と機能概要
3.1 画面構成

DoCat の画面は下記のパーツから構成されます。

画面構成:


  1. このマニュアルへのリンク
  2. データベース情報:データベースの名前とデータベースの文書数を表示します。保存されていない設定がある場合はメッセージが表示されます。
  3. メッセージ欄: プログラムのメッセージを表示します。赤字は警告、黒字は処理結果報告を表します。
  4. 検索条件: TEXT MINERの文書一覧からリンクした時の検索条件です。 文書リストに表示されている件数ではありません。
  5. コマンド・ボタン群: 文書リストの更新、シミュレーション実行、設定を保存、アプリケーション終了を実行するためのボタンです。
  6. サンプル文章入力フィールド: 分類トリガーを設定、または分類シミュレーションを行うためにサンプルとして1000文字までの文書を入力できます。
  7. ビュー選択: カテゴリツリー、カテゴリパレット、情報・変更の3つのビューを表示するタブ。
  8. 文書リスト: 文書のタイトル・本文と、設定として使用するかどうかのチェックボックス、設定されているカテゴリの一覧、否定として設定されているカテゴリの一覧、 分類シミュレーションによって付与されたカテゴリ一覧が表示されます。本文はマウスで表現を選択し、カテゴリを設定できます。
3.2 コマンド・ボタン群

コマンド・ボタンのそれぞれの機能を説明します。


  1. 文書リストの更新: 文書リストを更新する時に使用します。
  2. シミュレーションの実行: 設定した分類トリガーを文書リストに適用した結果を表示します。 カテゴリパレットに登録されたカテゴリ数が多いと時間がかかる事があります。シミュレーションの結果は文書リストの「シミュレーションの結果」列とカテゴリパレットの「自動分類数」列に反映されます。
  3. 設定を保存: 設定した分類トリガーをファイルに保存し、前処理に反映されます。反映のタイミングはシステム管理者にお問い合わせください。 カテゴリパレットに登録されたカテゴリ数が多いと時間がかかる事があります。 ただし、分類トリガーの無い文書は設定済み文書として保存されません。
  4. 終了(カテゴリロック解除): DoCatを終了する際には、必ず押してください。 DoCatを終了し、ロックしていたカテゴリパレットのカテゴリを他のユーザに開放します。 保存していない設定は破棄されますので注意してください。 カテゴリのロックについては、4.1 複数人で使用時のカテゴリのロック を参照して下さい。
3.3 ビュー選択

カテゴリツリー、カテゴリパレット、情報・変更の3つのビューを表示するタブです。 以下、それぞれの役割を説明します。

3.3.1 カテゴリツリー

カテゴリツリーのビューでは、カテゴリをカテゴリパレットに登録できます。 カテゴリパレットに登録するカテゴリとは、文章に付与したいカテゴリ、または表現の一般化の代替表現として指定したいカテゴリです。
カテゴリツリーに登録可能な名前順に表示されますのでカテゴリを選択し、カテゴリパレットに登録ボタンを押してください。

  1. [カテゴリパレットに登録] ボタンを押すとではカテゴリの選択がカテゴリパレットに反映されます。 カテゴリパレットへの登録を行うと登録カテゴリにすでに設定がされている場合は、その設定が読み込まれます。 文書リストに表示されている以外の文書に設定がされている場合は、文書リストの最後に設定に使われた文章が追加さ、メッセージ欄にその旨が表示されます。 選択されたカテゴリを非登録にすると、保存されていないカテゴリパレットから外されたカテゴリの設定は消えます。 保存されていない設定があると警告メッセージが表示されますので、必要に応じて設定を保存してください。
  2. [マイナス] をクリックするとサブカテゴリを非表示にします。
  3. [カテゴリ名] をクリックするとカテゴリが選択されます。他のユーザーがカテゴリを使用中の場合にはカテゴリ名の後ろに「他で使用中」と表示されます。詳細については 4.1 複数人で使用時のカテゴリのロック を参照して下さい。
  4. [プラス] をクリックするとサブカテゴリを表示します。
3.3.2 カテゴリパレット

カテゴリパレットのビューにはカテゴリツリーで登録したカテゴリが表示されます。 カテゴリツリーの詳細は3.3.1 カテゴリツリー を参照して下さい。

カテゴリ名の横には分類トリガーの設定数およびシミュレーション結果が表示されます。

  1. 設定文書数:「設定文書数(肯定/否定)」列には、カテゴリの分類トリガーが登録された文書数が表示されます。カッコ内は通常(肯定)の分類トリガーとして設定されている文書数、否定の分類トリガーとして設定されている文書数が表示されます。
  2. 自動分類数:「自動分類数」には、シミュレーションの結果各カテゴリとして分類された文書数が表示されます。[シミュレーション実行]ボタンを押すまでは更新されません。
3.3.3 情報・変更

情報・変更のビューでは設定された分類トリガーの表示と変更を行うことができます。

カテゴリパレットにカテゴリが登録されていると文書リストの各文書の本文表示列に[トリガー表示]ボタンが表示されます。

[トリガー表示]ボタンを押すと文書に設定されている分類トリガーが情報・変更のビューに表示されます。

  1. 表現:分類トリガーの表現が表示されます。
  2. カテゴリ:カテゴリパレットに登録されているカテゴリの内、設定されているカテゴリが表示されます。[変更]ボタンを押してカテゴリを選択することでカテゴリを変更できます。
  3. 否定トリガー:否定の分類トリガーであればチェックされています。チェックを変更し[変更を適用]ボタンを押すことで修正できます。
  4. 表現の一般化:表現の一般化についての情報が表示されます。表現の一般化のエントリを削除したい時は[削除]ボタンを押してください。
  5. [変更を適用]ボタン:カテゴリ、否定、表現の一般化のエントリを修正した時に使用します。
  6. [削除]ボタン:分類トリガーの削除に使用します。
3.4 文書リスト

文書リストには以下の二つの役割があります。

以下で文書リストの列の説明をします。

  1. タイトル:文書のタイトルを表示します。
  2. 本文:文書の本文です。本文上でマウスで表現を選択すると分類トリガーの登録が行えます。
  3. 文書カテゴリ設定:上から順に「使用チェックボックス」「分類トリガー」「トリガー表示ボタン」が表示されます。
    • 使用チェックボックス: このチェックがオフになっていると、保存がされていてもシミュレーション実行や前処理時には使用されません。
    • 分類トリガー:肯定の分類トリガーはカテゴリ名の後ろに「○」が、否定のの分類トリガーはカテゴリ名の後ろに「×」が表示されます。
    • トリガー表示ボタン:文書に設定されている分類トリガーを表示します
  4. シミュレーション結果:シミュレーション実行の結果、文書に付与されたカテゴリ名がカンマ区切りで表示されます。シミュレーション実行ボタンが押されるまで更新されません。
3.4.1 分類トリガーの登録方法

分類トリガーの登録方法を説明します。

分類トリガーには「文書中の表現を用いて設定する分類トリガー」(分類トリガー)と「TEXT MINER の検索条件を利用する検索条件分類トリガー」(検索条件トリガー)の二種類があります。

分類トリガーを設定するには、カテゴリパレットにカテゴリを一つ以上登録する必要があります。カテゴリツリーのビューで分類を設定したいカテゴリを登録してください。
TEXT MINERからの接続直後などカテゴリパレットに登録されていない時には以下のメッセージが表示されています。

分類トリガーを設定するために、表現を本文から選びポップアップするウインドウでカテゴリの選択をします。

  1. 本文:分類の決め手になる表現を本文中からマウスで選択します。
    選択された領域はハイライトされ、ポップアップウインドウが開きます。
    選択する表現は連続していなくても構いません。ポップアップウインドウが開いた後でも選択された文字を再度クリックすることで選択を解除できます。
  2. ポップアップウィンドウ:マウスのドラッグ操作で移動ができます。
  3. 表現:選択した表現が表示されています。 選択部分が連続していない場合は、非連続部が「...」で表現されます(係り受けを表現するとは限りません)。
    トリガーとなる表現の最小の領域を選択することが、少ない分類トリガーの登録で多く自動分類するためのコツです。
    また、選択した表現の一部を再度マウスで選択することで、表現を一般化できます(後述)。
    ただし、表現の一般化をした後に選択領域を変更すると設定した表現の一般化は失われますのでご注意ください。
  4. カテゴリの選択:カテゴリパレットに登録されたカテゴリが表示されています。分類トリガーと結び付けたいカテゴリ、つまり分類として付与したいカテゴリを選択してください。
  5. オプション-否定:選択した表現が、文章が選択カテゴリには属さないことを表すの場合にチェックします。
    シミュレーション実行時に意図せずに分類されてしまう時に修正する時に使用します。
  6. 表現の一般化:表現の一般化を行った時に、一般化された表現が表示されます。
  7. [登録]ボタン:設定後、[登録]ボタンを押してください。登録結果は3.3.3 情報・変更 のビューで閲覧・修正できます。
    [キャンセル]ボタン:設定を破棄したい場合に押してください。ハイライトも解除されます。

次に、分類トリガーとして選択した表現の一部を辞書や文字列で一般化し、分類時により多くの表現をカバーする方法を説明します。

「カテゴリの選択」ウインドウの「表現」をマウスで選択すると以下の「表現の一般化」ウインドウが開きます。

  1. 表現の選択:連続した文字列を表現の一般化に設定できます。
  2. 表現:「カテゴリの選択」ウインドウで選択された表現が表示されます。
  3. 代替表現カテゴリの選択:カテゴリパレットに登録されたカテゴリから選択できます。
    「カテゴリの選択」ウインドウで選択された表現と置き換え可能な辞書カテゴリ(DICTIONARY EDITORでキーワードにひも付けられたカテゴリ)を選択することで、表現を一般化します。
    表現の一般化で辞書カテゴリを指定することで、そのカテゴリ及びそのサブカテゴリにヒモ付けられた全てのキーワードが一般化した単語にマッチします。
  4. 代替表現:「カテゴリの選択」ウインドウで選択された表現と置き換え可能な文字列を入力します。
    文字列は改行することで複数入力できます(改行区切り)。
    上記の例では「シャットダウン」の代わりに「終了処理」が出現しても分類トリガーにマッチします。このフィールドは改行を含めて510文字まで入力できます。

表現の一般化を登録すると以下のように「カテゴリの選択」ウインドウに一般化した表現の設定が表示されます。



3.4.2 検索条件トリガーの登録方法
検索条件トリガーの設定方法を以下に記述します。

1.MINERで検索条件を用いて文書を絞込みます

下の例はキーワード「パソコン」とキーワード「電話・・・繋ぐ」を用いて絞り込んだ例です。


2.DoCat に接続します

3.検索条件にカテゴリを設定し、検索条件トリガーとして設定します

[分類トリガーとして利用] ボタンを押して、カテゴリ名を選択することで分類トリガーとして利用できます。

カテゴリ名を選択すると、[分類トリガーとして利用] ボタンの上にカテゴリ名が表示されます。


4.DoCat で検索条件トリガーを保存

[設定を保存] ボタンで検索条件トリガーを保存します。

5.保存された検索条件トリガーの確認

カテゴリパレットにて分類トリガーの[表示]ボタンを押すと、検索条件トリガーを含めた分類トリガーを表示できます。

4 注意事項
4.1 複数人で使用時のカテゴリのロック

DoCatではシミュレーション結果の整合性を保つために、一度にあるカテゴリをカテゴリパレットに登録して使用できるユーザを一人に限定しています。 ユーザがカテゴリパレットに登録した時点で、カテゴリは「ロック」された状態となります。
ロックを解除するには以下の二つの方法があります。

DoCatではブラウザの「×」ボタンなど上記の方法以外でDoCatを終了してしまった場合、または長時間操作をしなかったためにセッションが終了した場合、カテゴリのロックが残ってしまうことがあります。その場合でも他のユーザはカテゴリのロック状態を解除できます。カテゴリがロックされていると他のユーザのカテゴリツリーには次のように表示されます。

カテゴリのロック

この時、「他で使用中」のカテゴリを選択すると警告ダイアログが表示され「OK」を押すと他のユーザのロックを解除することができます。

4.2 長時間の画面未使用時について

DoCatは長時間使用しないと、編集情報が失われてしまいます。
長時間の離籍時等には、必ず設定の保存を行ってください。

編集情報が失われるまでの時間については、システム管理者にDoCatの「セッション・タイムアウト」の時間をお問い合わせください。
5 FAQ
5.1 検索条件トリガーと文字列・係り受けトリガーの違いは?

検索条件トリガーはTEXT MINERの検索条件を使った分類で、細かい表現の違いによらない分類の内容に向いています。
一方、文字列・係り受けトリガーは表現の細かい違いを判断して分類する必要がある内容に向いています。

例えば、「顧客から請求」「顧客に請求」という2つの文は、どちらの文も「名詞→動詞」カテゴリの「顧客...請求する」キーワードを含むため検索条件トリガーでは区別することが出来ません。
文字列・係り受けトリガーでは、「から」や「に」も一緒に選択することで二つの文を区別して分類することが可能です。
一方で、「顧客」「請求」という単語を同一文書内に含めば分類しても良い場合には、検索条件トリガーで簡単に分類する条件を指定できます。

検索条件トリガーと文字列・係り受けトリガーの比較
特徴 制限
検索条件トリガー AND条件(文書内共起)による カバー率が高い分類
簡単な設定
定型項目による分類も可能
TEXT MINER以上の細かい表現を使った分類不可
文字列トリガー 文内に出現する文字列だけによるカバー率の高い分類
言語処理で単語分割に失敗する場合にも対応可能

単語の境界・係り受けを認識できない
係り受けトリガー より詳細な表現による ノイズが少なく精度の高い分類
上級者向け
単語分割など言語処理を意識した設定が必要
個々の表現を登録するため設定量が多い
5.2 誤って登録したサンプル文書を消したい

分類トリガーの設定していなければ、設定を保存後に次回DoCatに接続した時には消えています。
分類トリガーの設定していないサンプル文書は保存されません。

5.3 分類トリガーはどのように作られますか

マウスで選択された表現の分類トリガーへの変換は以下のように行われます。
選択された表現を文単位(基本的には。から。まで)で区切ります。 次に、文内の表現を文字列と係り受けの2種類のトリガーとして登録します。 文字列トリガーは選択した表現そのものです。 係り受けトリガーは、マウスで選択された表現を単語に分割し正規形に変換した単語間の係り受け関係をトリガーとして登録します。 複数の文にまたがるマウス選択された表現は同様の処理を文毎に行います。

5.4 文をまたいでマウス選択された表現の分類トリガーはどうなりますか

複数の文(基本的には。から。まで)にまたがってマウス選択された表現は文毎に分割された別々の分類トリガーが作成されます。 文内の表現をマウス選択した場合とは異なる結果となるので注意してください。

文区切り処理では、以下の第一区切り文字によって文の終端を判別します。ただし、第一区切り文字が511文字以上出現しない場合は、第二区切り文字で文を 区切ります。さらに、第二区切り文字でも文を区切れない場合には、511文字までを一文とします。どちらも半角全角を区別しません。

第一区切り文字 第二区切り文字




ピリオド(.)、ただし前が「数字または英字」かつ後が「数字・英字・カタカナ」である場合は除く
3文字以上のスペース連続
2文字以上のカンマ(,)
11文字以上の同じ文字の連続
コントロールコード
,

スペース
5.5 連続しない範囲をマウス選択すると「...」で繋がれた表現になりますがどういう意味ですか

選択していない領域を無視したより多くの表現にマッチする分類トリガーを設定できます。
ただし、文字列と係り受けの2種類のトリガーが作られますので係り受けを表現するとは限りません)
トリガーとなる表現の最小の領域を選択することが、少ない分類トリガーの登録で多く自動分類するためのコツです。

例えば、「京都にすぐに行った」という文の「京都」と「行った」だけをマウスで選択すると、カテゴリ選択画面には表現「京都...行った」が表示されます。
このように選択することで「京都」の後の「に」や「行った」の前の「すぐに」は無視して分類トリガーが生成されます。
また、複数の文(基本的には。から。まで)にまたがるマウス選択された表現は文毎に分類トリガーに変換されます。

5.6 文字列と係り受けの2種類のトリガーの違いは?

マウス選択された文内の表現をカテゴリ選択画面で「登録」すると、分類用に文字列と係り受けの2種類のトリガーが作られます。
係り受けトリガーでは言語処理を使いますが完璧ではないため、補完的に文字列トリガーを併用しています。

文字列トリガーは、文字だけのマッチを行うトリガーです。
一方、係り受けトリガーは単語の境界や正規形、単語の修飾関係を認識して分類するトリガーです。

文字列トリガーまたは係り受けトリガーで誤って分類した場合は、分類された文書の表現を「否定」の分類トリガーとして登録することで排除できます。
例えば、「りんごが好きだ。」の「りんご」と「好き」を選択して分類トリガーとして登録した場合、文字列トリガーによって直接係り受け関係の無い「りんごは嫌いだが、みかんは好きだ。」も分類されてしまいます。
その場合は、「りんごは嫌いだが、みかんは好きだ。」の「りんご」と「好き」を選択して否定の分類トリガーとして登録してください。
DoCatは文字列トリガーの重みを下げるため、文字列トリガーによって誤って分類されることはなくなります。
一方、係り受けトリガー「りんご→*→好き」(*は何れかの単語)の重みは変わらないため、「りんご」と「好き」に直接係り受けのある文書は分類されます。

5.7 文字列トリガーの特徴は?

文字列トリガーは、文字だけのマッチを行うトリガーです。
マウス選択した表現「京都...行った」に対する文字列トリガーは、文中に「京都」の後に「行った」が出現すれば分類します。
ただし、単語境界を区別しませんので、「東京都に行った」も分類してしまいますし、単語境界を認識しないため文字列トリガーでは辞書は使用されません。
また、係り受けを認識しないので「京都を出発して、大阪に行った」にもマッチしてしまいます。
一方、未知の用語や書き間違えなどにより言語処理がうまく行かず単語や係り受けが失敗しても、文字列だけ見てを分類することが出来ます。

5.8 係り受けトリガーの特徴は?

係り受けトリガーは単語の境界や正規形、単語の修飾関係を認識してマッチするトリガーです。
「京都にすぐに行った」に対してマウス選択した表現が「京都...行った」の場合、係り受けトリガーは、「京都」が(「に」に対応する)何れかの一単語に係っており、更にその単語が「行く」に係り「行く」が「た」に係る文にマッチします。
たとえば、「京都から大阪に行った」や「暗くなる前に京都まで行った」などにマッチします。

ただし、係り受けトリガーでは単語を意識して登録する必要があります。
例えば、上記の例で「京都に行く」「京都に行け」など「行く」の活用を気にせずマッチしたい場合には助動詞「た」を除いて「京都...行っ」をマウスで選択する必要があります。
「京都」と「行っ」の間にある単語の係り受け関係の数が異なる「京都だから行った。」(単語区切りは「京都」「だ」「から」「行っ」「た」)の場合、別途分類トリガーとして登録する必要があります。

また、表現の一般化を設定する場合にも単語を意識してマウスで選択する必要があります。
例えば、「京都...行った」だけでなく「京都...来た」にもマッチしたい場合には、「行っ」を選択し代替表現に「来」(または「来る」)を入力する必要があります。

係り受けトリガーでは、マウスで選択された表現内にある単語は、単語の正規形「行く」と出現した文字列「行っ」がトリガーとして登録されます。
また、文に係り受けトリガーがマッチする際に同義語が定義されている場合には単語の正規形だけでなく同義語にもマッチします。
例えば、DICTIONARY EDITORで「京都」の同義語として「京都府」や「京都市」を登録してある場合には、「京都市に行った」にもマッチします。

5.9 辞書は分類トリガーでどのように使われますか

表現の一般化で指定する辞書カテゴリでのマッチと、係り受けトリガーがマッチする際の単語の境界や単語の正規形・同義語の列挙に使われます。
表現の一般化で辞書カテゴリを指定することで、そのカテゴリ及びそのサブカテゴリにヒモ付けられた全てのキーワードが一般化した単語にマッチします。

運用によっては、DoCatで使用される辞書は、DICTIONARY EDITORで編集した最新の辞書が使われないことがあります。
一般的な運用では、言語処理前に最新の辞書をコピーするため、TEXT MINERには最新の辞書を使用した分類結果が表示されます。詳しくは管理者にお問い合わせ下さい。

5.10 動詞など活用する表現を一般化するには?

係り受けトリガーでは、表現の一般化を設定する場合には単語を意識してマウスで選択する必要があります。
例えば、「京都...行ってしまった」だけでなく「京都...来てしまった」にもマッチしたい場合には、表現の一般化で「行っ」を選択し代替表現に「来」(または「来る」)を入力する必要があります。

5.11 一つ以上の単語を含む表現を選んで表現の一般化を行うとどうなる?

選択部分の文字列より代替表現が短い場合は、選択部分を構成する最初の単語が代替表現にもマッチする係り受けトリガーになります。

選択部分の文字列より代替表現が長い場合は、選択部分の長さ(l)とそこに含まれる各単語の長さ(w)の比(w/l)に比例して代替表現を分割し、各単語は分割した文字列でもマッチする係り受けトリガーになります。
ただし、代替表現の長さ(r)に対して剰余(r%l)は先頭の単語の代替となる分割文字列の長さに含まれます。

5.12 同じ表現を肯定・否定で登録するとどうなる?

同じ文書内で同じ表現を肯定・否定で登録すると否定が優先されます。

別の文書で同じ表現を肯定・否定で登録すると基本的に登録文書数の多い方が優先されますが、他のトリガーとの関係も考慮しているため何文書多い方が優先するとは一概に言えません。

5.13 分類トリガーのカテゴリを変更することはできるか?

各分類トリガーのカテゴリを変更する作業が必要になります。

変更元と変更先のカテゴリをカテゴリツリータブで、あらかじめカテゴリパレットに登録します。
次にカテゴリパレットタブを表示し、変更元カテゴリの分類トリガー列の表示ボタンを押し、既存の分類トリガーを情報タブに表示します。
最後に、各分類トリガーの「変更」ボタンを押し、カテゴリの指定で変更先カテゴリを選択し、「変更の適用」ボタンを押します。

5.14 DICTIONARY EDITORで削除されたカテゴリの分類トリガーはどうなる?

DICTIONARY EDITORで削除されたカテゴリと結び付けられた分類トリガーは全て消えます。
分類設定をしたカテゴリの削除にはご注意ください。

5.15 係受・文字列トリガーと検索条件トリガーはどちらが優先されますか?

係受・文字列トリガーが優先されます。

5.16 「基本係り受け」カテゴリのキーワードでは分類されるが、係り受けトリガーでは分類されない

係り受けトリガーの方が厳密に係り受け関係を区別するためです。

例えば、「基本係り受け」カテゴリのキーワード「A…Bする」は、2つの表現「AがBする」と「ABする」を区別しません(「A」と「Bする」の間の助詞の有無を区別しない)。
一方、「A」と「Bする」とをハイライトした場合に作成される係り受けトリガーは2つの表現「AがBする」(下図1)と「ABする」(下図2)で異なります。
下図では、「*」は単語何れかにマッチする制約を表現します。
下図1では「A」が何れかの単語に係りその単語が「Bする」に係る表現(例えば「AにBする」)にマッチする係り受けトリガーです。
下図2では「A」が「Bする」に直接係る表現にマッチする係り受けトリガーです。

「AがBする」と「ABする」から生成される係り受けトリガーの違い
5.17 述語の肯定表現(Aする)と否定表現(Aしない)を区別して分類したい

述語の肯定表現(例えば「電話する」)と否定の表現(例えば「電話しない」)を、それぞれ肯定・否定のトリガーとして登録してください。
否定トリガーの登録時には、否定を表す語尾(上記例では「ない」)まで選択して設定してください。
肯定・否定の表現に限らず、文字列・係り受けトリガーを設定する際には分類する・しないが判断できる表現を選択することが重要になります。

5.18 カテゴリツリー・パレットのカテゴリの並び順

カテゴリツリーは、TEXT MINERのカテゴリツリーの名前順と同じです。 カテゴリパレットは、カテゴリツリーで選択しカテゴリパレットに登録した順に並びます。 ただし、同時に選択してカテゴリパレットに登録した場合には、内部的なコードの順に並びます。

5.19 分類トリガーを設定したのにうまく分類されない

分類トリガーを設定したのにうまく分類されない場合には以下の点をまずご確認ください。

  1. 使用チェック:分類トリガーを設定した文書の「文書カテゴリ設定」列の使用にチェックが入っているかを確認。
  2. 矛盾するトリガー:カテゴリパレットから「分類トリガー」列の表示ボタンを押して分類トリガー一覧に矛盾する否定の分類トリガーが無いか確認。
6 システム設定・運用
6.1 概要

この章はシステム管理者用の記述です。

DoCatはTEXT MINERの文書一覧画面からジャンプするための設定がdatabase_config_miner.xmlのdoc_to_ext_app_entryに必要になります。 前処理(言語処理・インデックス作成)を行ったデータ及びその設定が必要になります。 別サーバにTEXT MINERがある場合には、TEXT MINERと同じデータ及び設定がDoCatのサーバにも必要になります。

また、DoCatでは DICTIONARY EDITOR で作成されたカテゴリおよびその設定も使用します。

6.2 TEXT MINER の設定

TEXT MINERとDoCatを異なるサーバで起動する場合には、TEXT MINERの文書一覧からDoCatへのリンクの設定を変える必要があります。

TEXT MINERの起動してあるサーバで、<DATABASE_DIRECTORY>/conf/database_config_miner.xml の
<doc_to_ext_app_entries>
   <doc_to_ext_app_entry name="DOCATに接続" url="/TAKMI_DOCAT/faces/annotation.jsp" detail_flag="yes" />
</doc_to_ext_app_entries>
をDoCatのサーバのアドレス(<サーバーアドレス>)にあわせて変更してください。
<doc_to_ext_app_entries>
   <doc_to_ext_app_entry name="DOCATに接続" url="http://<サーバーアドレス>/TAKMI_DOCAT/faces/annotation.jsp" detail_flag="yes" />
</doc_to_ext_app_entries>
6.3 カテゴリ の設定

文書を分類するカテゴリ群の最上位のカテゴリは設定ファイルdatabase_config.xmlに辞書以外のカテゴリとして登録してください。

登録の手順は以下の通りです。

  1. DICTIONARY EDITORで文書を分類するカテゴリの最上位のカテゴリ(サブルートカテゴリ)を作成します。
  2. データベースのカテゴリツリー(DATABASE_DIR/category/category_tree.xml)を開き、分類するカテゴリの最上位のカテゴリパスを調べます。
  3. 文書を分類するカテゴリの最上位のカテゴリパスをcategory_entryタグのname="non_dictionary"のvalue属性として記述してください。
non_dictionaryに指定しないと、言語処理リソースの配置時にカテゴリ以下に自動的に係受のサブカテゴリが作られてしまいます。 database_config.xmlの編集は、必ず言語処理リソースの配置前に行ってください。

以下にカテゴリパスが".2000"のカテゴリおよびそのサブカテゴリをDoCatで使用する場合のdatabase_config.xmlの編集例を記載します。
(データベース作成時に%TAKMI_HOME%/resource/database.template/ja をコピーした場合にはカテゴリパス".0"はあらかじめnon_dictionaryとして設定されています)

<category_entries>
...
<!-- Specifies subroot categories for DOCAT -->
<category_entry name="non_dictionary" value=".0"/>
<category_entry name="non_dictionary" value=".2000"/>
...

database_config.xmlの編集時には以下のことに注意して下さい。

機能上は、DoCatで設定可能なカテゴリは設定ファイル database_config.xml のcategory_entry タグの name="reserved_by_system"とname="auto_generated_path_pattern" で指定されたカテゴリ以外です。

7 付録
商標

ここでは、IBM の商標と、特定のIBM 以外の商標をリストします。 IBM の商標について詳しくは、http://www.ibm.com/legal/copytrade.shtml を参照して下さい。 以下は、それぞれ各社の商標または登録商標です。

Java およびすべてのJava 関連の商標およびロゴは、Sun Microsystems, Inc. の米国およびその他の国における商標または登録商標です。 Microsoft、Windows、Windows NT およびWindows ロゴは、Microsoft Corporationの米国およびその他の国における商標です。 Intel、Intel Inside (ロゴ)、およびPentium は、Intel Corporation の米国およびその他の国における商標です。 UNIX は、The Open Group の米国およびその他の国における登録商標です。 Linux は、Linus Torvalds の米国およびその他の国における商標です。 他の会社名、製品名およびサービス名等はそれぞれ各社の商標です。

©Copyright IBM Corp. 2007, 2008. All Rights Reserved.

特記事項

本書でIBM 製品、プログラム、またはサービスに言及していても、そのIBM 製品、プログラム、またはサービスのみが使用可能であることを意味するものではありません。 これらに代えて、IBM の知的所有権を侵害することのない、機能的に同等の製品、プログラム、またはサービスを使用することができます。 ただし、IBM 以外の製品とプログラムの操作またはサービスの評価および検証は、お客様の責任で行っていただきます。

IBM は、本書に記載されている内容に関して特許権(特許出願中のものを含む) を保有している場合があります。 本書の提供は、お客様にこれらの特許権について実施権を許諾することを意味するものではありません。

この情報には、技術的に不適切な記述や誤植を含む場合があります。本書は定期的に見直され、必要な変更は本書の次版に組み込まれます。 IBM は予告なしに、随時、この文書に記載されている製品またはプログラムに対して、改良または変更を行うことがあります。

本書においてIBM 以外のWeb サイトに言及している場合がありますが、便宜のため記載しただけであり、決してそれらのWeb サイトを推奨するものではありません。 それらのWeb サイトにある資料は、このIBM 製品の資料の一部ではありません。それらのWeb サイトは、お客様の責任でご使用ください。

IBM は、お客様が提供するいかなる情報も、お客様に対してなんら義務も負うことのない、自ら適切と信ずる方法で、使用もしくは配布することができるものとします。

本プログラムに関する上記の情報は、適切な使用条件の下で使用することができますが、有償の場合もあります。 本書で説明されているライセンス・プログラムまたはその他のライセンス資料は、IBM所定のプログラム契約の契約条項、IBM プログラムのご使用条件、またはそれと同等の条項に基づいて、IBM より提供されます。

この文書に含まれるいかなるパフォーマンス・データも、管理環境下で決定されたものです。そのため、他のオペレーティング環境で得られた結果は、異なる可能性があります。 一部の測定が、開発レベルのシステムで行われた可能性がありますが、その測定値が、一般に利用可能なシステムのものと同じである保証はありません。 さらに、一部の測定値が、推定値である可能性があります。実際の結果は、異なる可能性があります。お客様は、お客様の特定の環境に適したデータを確かめる必要があります。

IBM 以外の製品に関する情報は、その製品の供給者、出版物、もしくはその他の公に利用可能なソースから入手したものです。 IBM は、それらの製品のテストは行っておりません。したがって、他社製品に関する実行性、互換性、またはその他の要求については確証できません。 IBM 以外の製品の性能に関する質問は、それらの製品の供給者にお願いします。 IBM の将来の方向または意向に関する記述については、予告なしに変更または撤回される場合があり、単に目標を示しているものです。