TEXT MINER オンラインマニュアル - IBM Content Analyzer

本書には、IBM の専有情報が含まれています。その情報は、使用許諾条件に基づき提供され、 著作権により保護されています。 本書に記載される情報には、いかなる製品の保証も含まれていません。 また、本書で提供されるいかなる記述も、製品保証として解釈すべきではありません。 お客様の環境によっては、資料中の円記号がバックスラッシュと表示されたり、バックスラッシュが円記号と表示されたりする場合があります。

© Copyright IBM Corp. 2007, 2008. All Rights Reserved.

この文書では、TEXT MINER の操作方法について解説します。

1 初めに

1.1 画面構成と機能概要

TEXT MINER の画面は4つのパーツから構成されます。

画面構成:

1.2 既知の問題と対処方法

既知の問題とその回避策について解説します。

◎正常なケース:

×ボタンが表示されないケース:

1.3 画面遷移

TEXT MINER では、サーバーに接続した状態での分析に加えて、ブックマーク機能、レポート機能により分析情報をローカルファイルに保存し、そこからサーバーに再接続することができます。 ローカルファイルも含めた画面遷移図は以下になります。

画面遷移:

操作の大部分は分析画面で行いますが、ここでは画面内でビューを切り替えることができます。 下図のとおり、ビューはタブをクリックすることにより任意のビューから任意のビューに遷移することができます。

ビューの遷移:

1.4 データベース選択画面

TEXT MINER では複数のデータベースでの分析をサポートしており、トップのデータベース選択画面で分析するデータベースを選択することができます。 データベースは通常、お客様の声、社内メール、修理情報等、データの形式や内容ごとに作成します。

データベース選択画面が TEXT MINER のトップページなので、Internet Explorer のお気に入りに追加する場合はこの画面を追加します。

データベース選択画面:

2 カテゴリツリー

2.1 カテゴリツリーの表示サイズ

カテゴリツリーの表示サイズ(フレーム幅)は、左右の画面の境界の白いラインをマウスでドラッグすることで変更できます。
また境界のボタンをクリックすることでカテゴリツリーの表示・非表示を切り替えることができます。

2.2 カテゴリの表示/選択

3 検索

3.1 検索概要

TEXT MINER では分析用の文書集合を生成するために検索条件を使用できます。キーワード検索、カテゴリ検索等の単独の検索条件の他、AND / OR / NOT の三種の演算子を用いて複合的な検索条件を作ることが可能です。

3.2 文字列検索

文字列検索では、文字列のマッチングで文書を検索します。 アスタリスクによるワイルドカードや、アルファベットの大文字/小文字の同一視等は行われません。

3.3 キーワード検索

キーワード検索では、IBM Content Analyzer のシステム辞書、ユーザー辞書に登録されたキーワードにより文書を検索します。 キーワードに同義語が登録されている場合、同義語を含む文書も該当します。 例として、キーワード「パソコン」に同義語「PC」が設定されている場合、「パソコン」でキーワード検索すると、「PC」を含む文書も検索条件に該当することになります。 同義語の設定には DICTIONARY EDITOR を使います。

キーワード検索でヒットの対象となるキーワードは、単なる文字列ではなく、言語処理によって対象文書から抽出されたものです。 そのため、同義語を含む文書を検索できる一方で、文字列として検索テキストを含んでいても文書がヒットしないケースがあります。 例として、「株式会社」を含む文書を「株式」で検索してもヒットしません。 これは、言語処理では「株式会社」が一単語として認識されており、その部分文字列の「株式」は単語としては認識されていないためです。

キーワード検索では、「どのカテゴリのキーワードか」という情報も含めて検索されます。 そのため、同じキーワードでもどのカテゴリのカテゴリビューから検索されたか、あるいは、テキストフィールドから検索されたか、で結果が異なることがあります。 カテゴリとキーワードの紐付けは DICTIONARY EDITOR で行いますが、例として、

という辞書がある場合、PC製品カテゴリの「TP」での検索では「TP」と「ThinkPad」を含む文書がヒットし、周辺機器カテゴリの「TP」での検索では「TP」と「TrackPoint」を含む文書がヒットします。

3.4 カテゴリ検索

カテゴリ検索では、指定されたカテゴリに属する任意のキーワードに該当する文書を検索します。


3.5 日付検索

日付検索では、指定した日付(年月日だけでなく、月や週等の一定の期間も含む)に該当する文書を検索できます。

3.6 演算子の扱い

3.7 ノードを指定して検索条件を追加

新たな検索条件を追加する際、直前の検索条件に AND または OR が用いられている場合に、追加する検索条件がどの位置に挿入されるかを指定することができます。
以下の説明では既存の検索条件を構成する部品(ノード)をA、B、新たに追加される条件(ノード)をXとしています。

パターン 挿入する位置 追加する検索条件 結果
ケース1 親がAND AND 選択した箇所の下に検索条件が追加される
ケース2 親がAND OR 選択した箇所とのOR条件が追加される
ケース3 AND OR 選択したAND条件とのOR条件が作成される
ケース4 AND AND 選択したAND条件に検索条件が追加される
ケース5 親がOR AND 選択した箇所とのAND条件が追加される
ケース6 親がOR OR 選択した箇所の下に検索条件が追加される
ケース7 OR AND 選択したOR条件とのAND条件が作成される
ケース8 OR OR 選択したOR条件に検索条件が追加される

ケース1:親がAND の位置に AND を指定して検索条件Xを追加 → 選択した箇所の下に検索条件が追加される

ケース2:親がAND の位置に OR を指定して検索条件Xを追加 → 選択した箇所とのOR条件が追加される

ケース3:AND の位置に OR を指定して検索条件Xを追加 → 選択したAND条件とのOR条件が作成される

ケース4:AND の位置に AND を指定して検索条件Xを追加 → 選択したAND条件に検索条件が追加される

ケース5:親がOR の位置に AND を指定して検索条件Xを追加 → 選択した箇所とのAND条件が追加される

ケース6:親がOR の位置に OR を指定して検索条件Xを追加 → 選択した箇所の下に検索条件が追加される

ケース7:OR の位置に AND を指定して検索条件Xを追加 → 選択したOR条件とのAND条件が作成される

ケース8:OR の位置に OR を指定して検索条件Xを追加 → 選択したOR条件に検索条件が追加される

4 ビュー

4.1 ビュー共通の仕様

4.2 トップビュー

データベースの選択後に初期ビューとして表示されるビューです。 このビューではマイニング機能は提供されません。

4.3 文書一覧ビュー

文書一覧ビューでは現在の検索条件に該当する文書を閲覧できます。

4.4 カテゴリビュー

カテゴリビューではカテゴリツリーで「縦軸カテゴリ」に指定されたカテゴリに属するキーワード/サブカテゴリの、検索文書中の頻度、検索条件との相関値(6.2 相関値参照)をリストします。

4.5 時系列ビュー

時系列ビューでは、現在の検索条件に該当する文書の頻度を時系列で表示します。

4.6 トピックビュー

トピックビューではカテゴリツリーで「縦軸カテゴリ」に指定されたカテゴリに属する各キーワード/サブカテゴリについて、時間変化を分析し相対的に頻度の高い箇所をハイライトします。

4.7 増減グラフビュー

増減グラフビューでは、カテゴリツリーで「縦軸カテゴリ」に指定されたカテゴリに属する各キーワード/サブカテゴリについて、時間変化を時系列グラフで表し、増加が予測された箇所をハイライトして表示します。 アラート機能の増加検出と同じ指標を用いているため、アラート機能の簡易版として機能します。

4.8 2Dマップビュー

2Dマップビューでは、カテゴリツリーで指定された縦軸カテゴリに属するキーワード/サブカテゴリと横軸カテゴリに属するキーワード/サブカテゴリとの相関を二次元のテーブルで表示します。 縦横軸の項目の相関の高いセルがハイライトされます。

5 ツール

5.1 ブックマーク

ブックマークは、現在の検索条件と表示中のビューのパラメタをローカルファイルとして保存する機能です。 保存したブックマークファイルを開くことにより、再びサーバーに接続し、保存時と同じ検索条件とパラメタで分析を再開できます。

ブックマークは、グラフや数値等、ビューの分析結果そのものは保存しておらず、サーバーに接続できない環境では使用できません。 ビューの分析結果をスナップショット的に保存する場合はレポート機能 (5.3 レポート 参照)を使います。

無効になった検索条件の扱い:

ブックマークは分析結果そのものは保存していないため、作成してからデータが置き換わると保存時と異なる結果が表示されます。 特に、ブックマークで検索に使用されているカテゴリが削除された場合、その検索条件は無効になります。 無効になった検索条件は赤で警告メッセージが表示され、ヒット数が0件(NOT 検索の場合は全件)になります。

無効になった検索条件の表示例:


ブックマークに保存される情報:

ブックマークには、1.分析に利用しているサーバー、2.分析に利用しているデータベース、3.検索条件、4.ビューの選択情報、5.ビューのパラメタ、6.縦横軸に選択されているカテゴリ が保存されます。
一方、カテゴリツリーのフレーム内の情報(カテゴリの表示順序、どのカテゴリが展開されている)は保存の対象ではありません。

5.2 レポート

レポート機能を用いると分析結果をローカルファイルとして保存することができます。 レポートはサーバーに接続できない環境でも開くことができ、Internet Explorerで閲覧可能です。 また、サーバーに接続可能な環境ではブックマークと同様サーバーに再接続して、レポート保存時の検索条件とパラメタの状態から分析を続行できます。

レポート編集:
「レポート」リンクをクリックするとレポートの編集画面が開きます。 編集画面ではビューの説明の有無、コメントを編集できます。 コメントは改行を含む最大2000文字まで入力可能です。 また、表示項目に対し「サンプル文書を含める」というチェックボックスがある場合、チェックボックスをチェックすると、その項目で絞り込んだ文書集合のサンプル文書が添付されます。
レポートの内容を入力した後は、画面の一番下の「作成」ボタンを押してレポートをローカルに保存します。


レポートファイルの内容



保存されたレポートを開くとサーバーに接続せずにビューの内容を閲覧できます。「こちら」のリンクをクリックすると、サーバーに再接続し、レポートで用いられている検索条件とパラメタがセットされた状態から分析を続行できます。
レポート作成時、サンプル文書を添付するように項目にチェックした場合、サンプル文書への同一ファイル内リンクが表示されます。 リンクをクリックするとファイル下部の該当文書にジャンプします。 サンプル文書を調べることでリストされている項目が実際にどのような内容に対応しているかを確認できます。

5.3 CSV出力

CSV出力機能を用いると、現在表示している分析結果を、CSVファイルとして保存することができます。 CSVファイルはExcelで開く事ができるので、カスタマイズされたレポートの作成に用いる事ができます。

5.4 サーバーに保存

「サーバーに保存」ボタンを選択すると、その時点での検索条件をサーバーに保存することができます。保存の確認画面ではファイル名・保存されるディレクトリ・コメントを指定することができます。
「OK」を選択すると検索条件が保存され、保存されている検索条件の一覧が表示されます。

5.5 リスト表示

サーバーに保存されている検索条件の一覧を表示することができます。
ファイル名を選択すると検索条件をロードすることができます。
ファイル・フォルダのチェックボックスを選択し、「削除」のボタンを押すと該当の検索条件およびフォルダを削除することができます。

5.6 XMLダウンロード

検索条件をXMLファイルとしてダウンロードすることができます。

5.7 XMLアップロード

XMLダウンロード機能でダウンロードしたXMLファイルをアップロードすることで検索条件をロードすることができます。

6 統計指標

6.1 統計指標の特徴

TEXT MINER でカラー表示されている値はTEXT MINER が算出している指標で、文書数等の黒で表示されている「生」のデータとは区別されています。

生のデータは、それを知見に読み替える際に誤解が発生しがちです。 例として、キーワード「メール…受信する」の頻度が、1月から2月で1.5倍に増えているとします。 これを「増加している」と判断するには、全文書数の推移との突合せ、統計的ノイズの考慮が必要ですが、実際にはそこまで配慮が及ばないケースが多くあります。

TEXT MINER では、指標を、増加の度合い、相関の強さ、といった直感的なイメージに直接読み替えられるように、最大限の補正を行った指標を表示しています。

5.8 分析対象を指定

複数のテキストからなる文書をテキスト毎に解析することが可能です。オプションメニューから分析対象とするテキスト名を選択してください

6.2 相関値

6.3 トピック性指標

6.4 増加指標

7 付録

7.1 商標

ここでは、IBM の商標と、特定のIBM 以外の商標をリストします。 IBM の商標について詳しくは、http://www.ibm.com/legal/copytrade.shtml を参照して下さい。 以下は、それぞれ各社の商標または登録商標です。

Java およびすべてのJava 関連の商標およびロゴは、Sun Microsystems, Inc. の米国およびその他の国における商標または登録商標です。 Microsoft、Windows、Windows NT およびWindows ロゴは、Microsoft Corporationの米国およびその他の国における商標です。 Intel、Intel Inside (ロゴ)、およびPentium は、Intel Corporation の米国およびその他の国における商標です。 UNIX は、The Open Group の米国およびその他の国における登録商標です。 Linux は、Linus Torvalds の米国およびその他の国における商標です。 他の会社名、製品名およびサービス名等はそれぞれ各社の商標です。

©Copyright IBM Corp. 2007, 2008. All Rights Reserved.

7.2 特記事項

本書でIBM 製品、プログラム、またはサービスに言及していても、そのIBM 製品、プログラム、またはサービスのみが使用可能であることを意味するものではありません。 これらに代えて、IBM の知的所有権を侵害することのない、機能的に同等の製品、プログラム、またはサービスを使用することができます。 ただし、IBM 以外の製品とプログラムの操作またはサービスの評価および検証は、お客様の責任で行っていただきます。

IBM は、本書に記載されている内容に関して特許権(特許出願中のものを含む) を保有している場合があります。 本書の提供は、お客様にこれらの特許権について実施権を許諾することを意味するものではありません。

この情報には、技術的に不適切な記述や誤植を含む場合があります。本書は定期的に見直され、必要な変更は本書の次版に組み込まれます。 IBM は予告なしに、随時、この文書に記載されている製品またはプログラムに対して、改良または変更を行うことがあります。

本書においてIBM 以外のWeb サイトに言及している場合がありますが、便宜のため記載しただけであり、決してそれらのWeb サイトを推奨するものではありません。 それらのWeb サイトにある資料は、このIBM 製品の資料の一部ではありません。それらのWeb サイトは、お客様の責任でご使用ください。

IBM は、お客様が提供するいかなる情報も、お客様に対してなんら義務も負うことのない、自ら適切と信ずる方法で、使用もしくは配布することができるものとします。

本プログラムに関する上記の情報は、適切な使用条件の下で使用することができますが、有償の場合もあります。 本書で説明されているライセンス・プログラムまたはその他のライセンス資料は、IBM所定のプログラム契約の契約条項、IBM プログラムのご使用条件、またはそれと同等の条項に基づいて、IBM より提供されます。

この文書に含まれるいかなるパフォーマンス・データも、管理環境下で決定されたものです。そのため、他のオペレーティング環境で得られた結果は、異なる可能性があります。 一部の測定が、開発レベルのシステムで行われた可能性がありますが、その測定値が、一般に利用可能なシステムのものと同じである保証はありません。 さらに、一部の測定値が、推定値である可能性があります。実際の結果は、異なる可能性があります。お客様は、お客様の特定の環境に適したデータを確かめる必要があります。

IBM 以外の製品に関する情報は、その製品の供給者、出版物、もしくはその他の公に利用可能なソースから入手したものです。 IBM は、それらの製品のテストは行っておりません。したがって、他社製品に関する実行性、互換性、またはその他の要求については確証できません。 IBM 以外の製品の性能に関する質問は、それらの製品の供給者にお願いします。 IBM の将来の方向または意向に関する記述については、予告なしに変更または撤回される場合があり、単に目標を示しているものです。