TEXT MINER オンラインマニュアル - IBM Content Analyzer
本書には、IBM の専有情報が含まれています。その情報は、使用許諾条件に基づき提供され、 著作権により保護されています。 本書に記載される情報には、いかなる製品の保証も含まれていません。
また、本書で提供されるいかなる記述も、製品保証として解釈すべきではありません。 お客様の環境によっては、資料中の円記号がバックスラッシュと表示されたり、バックスラッシュが円記号と表示されたりする場合があります。
© Copyright IBM Corp. 2007, 2008. All Rights Reserved.
この文書では、TEXT MINER の操作方法について解説します。
TEXT MINER の画面は4つのパーツから構成されます。
画面構成:

カテゴリツリー(左側)
- 分析で使用するカテゴリを選択するためのパーツです。
ツール(右側上部)
- 分析結果の保存、オンラインヘルプの表示等の機能を提供するパーツです。
検索条件(右側中部)
- 検索条件に対する操作(追加、削除)を行うためのパーツです。 ビューに表示された項目を用いて検索条件を追加することもできます。
ビュー(右側下部)
- 検索条件で絞り込まれた文書集合に対して分析を行うためのパーツです。 ビューの種類を選択するためのタブ、パラメタ設定用のボタン類、分析結果を表示するテーブルから構成されます。
既知の問題とその回避策について解説します。
- カテゴリツリーに矢印ボタンが表示されない
- 表示のタイミングによって、画面左側のフレームの一部が右のフレームに隠れてしまい、カテゴリツリーの矢印ボタンが表示されないことがあります。 この場合、表示順序を変更して、画面をリフレッシュすると正常な表示になります。
◎正常なケース:

|
×ボタンが表示されないケース:

|
- ブックマーク、レポート、CSV 出力の保存時に保存ダイアログが2回表示される
- 2回ダイアログが表示された場合も2回「保存」をクリックすることで、問題なく保存できます。
- ブックマーク/レポートからサーバーへの接続がブロックされる
- 毎回ブロック解除操作を行う場合は、Internet Explorer 上部の情報バーをクリックし、「ブロックされているコンテンツを許可」を選択後、「はい」をクリックします。
設定により常にブロックをオフにする場合は、以下の操作になりますが、お使いの環境のセキュリティーポリシーにおいて認められるかどうか確認する必要があります。
Internet Explorer を開きます。 「ツール」→「インターネット オプション」と進みます。 「詳細設定」タブをクリックします。
「マイ コンピュータのファイルでのアクティブコンテンツの実行を許可する」のチェックボックスにチェックを入れます。
- 外部接続がブロックされる
- 下記の設定で対応できますが、お使いの環境のセキュリティーポリシーにおいて認められるかどうか確認する必要があります。
Internet Explorer を開きます。 「ツール」→「インターネット オプション」→「セキュリティー」と進みます。 「信頼済みサイト」を選択してハイライトし、「サイト」ボタンをクリックします。
「次の Web サイトをゾーンに追加する」の欄に TEXT MINER のURLを入力します。 例えば、TEXT MINER の URL が
https://miner.ibm.com:9443/TAKMI_MINER/
の場合
https://miner.ibm.com
のように入力します。
また Google ツールバー等によっても、設定によってはポップアップがブロックされることがありますので、外部接続を使用するマシンでは、ポップアップブロックをオフにする必要があります。
- CSV 出力機能で出力された CSV ファイルでシート名が変更できない
- 「CSV 出力」をクリックして現れる保存ダイアログで CSV ファイルを保存せずに直接開くと起こりますが、ダイアログで「保存」を選択し、一度保存してから開くことで回避できます。
この問題は、Excel で角括弧を含むファイル名を扱えない問題と関係しており、キャッシュされたファイルが「output[1].csv」といったファイル名になるためと考えられます。
TEXT MINER では、サーバーに接続した状態での分析に加えて、ブックマーク機能、レポート機能により分析情報をローカルファイルに保存し、そこからサーバーに再接続することができます。
ローカルファイルも含めた画面遷移図は以下になります。
画面遷移:

操作の大部分は分析画面で行いますが、ここでは画面内でビューを切り替えることができます。 下図のとおり、ビューはタブをクリックすることにより任意のビューから任意のビューに遷移することができます。
ビューの遷移:

TEXT MINER では複数のデータベースでの分析をサポートしており、トップのデータベース選択画面で分析するデータベースを選択することができます。
データベースは通常、お客様の声、社内メール、修理情報等、データの形式や内容ごとに作成します。
データベース選択画面が TEXT MINER のトップページなので、Internet Explorer のお気に入りに追加する場合はこの画面を追加します。
データベース選択画面:

カテゴリツリーの表示サイズ(フレーム幅)は、左右の画面の境界の白いラインをマウスでドラッグすることで変更できます。
また境界のボタンをクリックすることでカテゴリツリーの表示・非表示を切り替えることができます。

- 表示順序の変更:
カテゴリの表示順序は「設定」、「タイプ」、「名前」のラジオボタンで変更できます。 初期状態では「設定」が選択されています。
- 「設定」の順では、設定ファイルに記述された順序で並べ替えられます。
- 設定ファイルは TEXT MINER からは編集できません。
- 「タイプ」の順では、サブカテゴリを持つカテゴリが上、サブカテゴリを持たないカテゴリが下に来るように並べ替えられます。
- 「名前」の順では、ユニコードと呼ばれる世界標準の文字コードの順に並べ替えられます。 ユニコード順では平仮名、カタカナ、漢字、数字、英語大文字、英語小文字の順で並びます。
平仮名、カタカナはそれぞれ「あいうえお」順ですが、小文字(「ぁ」など)は普通の文字の前に、濁点は後ろに並びます。 漢字は、ほぼ漢和辞典と同様に部首順に並びます。
- カテゴリの選択:
TEXT MINER のビューには、カテゴリをパラメタとして使うものがあります。
|
文書一覧 |
カテゴリー |
時系列 |
トピック |
増減グラフ |
2Dマップ |
縦軸カテゴリ |
×使用しない |
○使用する |
×使用しない |
○使用する |
○使用する |
○使用する |
横軸カテゴリ |
×使用しない |
×使用しない |
×使用しない |
×使用しない |
×使用しない |
○使用する |
例えば、
では、「縦軸カテゴリ」のキーワード/サブカテゴリを縦に一覧表示し、
では、「縦軸カテゴリ」のキーワード/サブカテゴリを縦に、「横軸カテゴリ」のキーワード/サブカテゴリを横に一覧表示します。
カテゴリツリーのボタンでは、これらのビューで使う縦横軸のカテゴリを選択することができます。
カテゴリ選択ボタンとその意味:
ボタンの画像 |
ボタンの意味 |
クリック時の動作 |
(グレー) |
縦軸カテゴリ選択用 |
その行のカテゴリを縦軸カテゴリに選択する |
(グレー) |
横軸カテゴリ選択用 |
その行のカテゴリを横軸カテゴリに選択する |
(強調色) |
縦軸カテゴリに選択されていることを表す |
選択が解除される |
(強調色) |
横軸カテゴリに選択されていることを表す |
選択が解除される |
カテゴリツリーの折りたたみによって、選択したカテゴリが表示されない場合にもカテゴリの選択状態は保持されます。
TEXT MINER では分析用の文書集合を生成するために検索条件を使用できます。キーワード検索、カテゴリ検索等の単独の検索条件の他、AND
/ OR / NOT の三種の演算子を用いて複合的な検索条件を作ることが可能です。
文字列検索では、文字列のマッチングで文書を検索します。 アスタリスクによるワイルドカードや、アルファベットの大文字/小文字の同一視等は行われません。

- テキストフィールドからの文字列検索:
検索タイプとしてセレクトボックスで「文字列検索」を指定し、テキストフィールドに文字列を入力して、「検索」ボタンをクリックすると、入力した文字列を含む文書が検索されます。
- 制限
- 高頻度で出現する平仮名1文字、カタカナ1文字、英数字記号の1文字、特殊漢字文字「耀」を含む文字列による検索はできません。
キーワード検索では、IBM Content Analyzer のシステム辞書、ユーザー辞書に登録されたキーワードにより文書を検索します。
キーワードに同義語が登録されている場合、同義語を含む文書も該当します。 例として、キーワード「パソコン」に同義語「PC」が設定されている場合、「パソコン」でキーワード検索すると、「PC」を含む文書も検索条件に該当することになります。
同義語の設定には DICTIONARY EDITOR を使います。
- 検索タイプとしてセレクトボックスで「キーワード検索」を指定し、テキストフィールドにキーワードを入力して、「検索」ボタンをクリックすると、入力したキーワードで文書が検索されます

- カテゴリビューでリスト対象をキーワードとし、リストされたキーワードのチェックボックスをチェックして「検索」ボタンをクリックすると、チェックしたキーワードで文書が検索されます。
チェックボックスを複数チェックして検索した場合、チェックしたキーワードの「いずれかを含む」(OR 演算子によって結合されたもの) 検索条件が追加されます。

キーワード検索でヒットの対象となるキーワードは、単なる文字列ではなく、言語処理によって対象文書から抽出されたものです。 そのため、同義語を含む文書を検索できる一方で、文字列として検索テキストを含んでいても文書がヒットしないケースがあります。
例として、「株式会社」を含む文書を「株式」で検索してもヒットしません。 これは、言語処理では「株式会社」が一単語として認識されており、その部分文字列の「株式」は単語としては認識されていないためです。
キーワード検索では、「どのカテゴリのキーワードか」という情報も含めて検索されます。 そのため、同じキーワードでもどのカテゴリのカテゴリビューから検索されたか、あるいは、テキストフィールドから検索されたか、で結果が異なることがあります。
カテゴリとキーワードの紐付けは DICTIONARY EDITOR で行いますが、例として、
- TP(キーワード)=ThinkPad(同義語) を「PC製品」カテゴリに登録。
- TP(キーワード)=TrackPoint(同義語) を「周辺機器」カテゴリに登録。
という辞書がある場合、PC製品カテゴリの「TP」での検索では「TP」と「ThinkPad」を含む文書がヒットし、周辺機器カテゴリの「TP」での検索では「TP」と「TrackPoint」を含む文書がヒットします。
カテゴリ検索では、指定されたカテゴリに属する任意のキーワードに該当する文書を検索します。
- カテゴリビューでリスト対象を「サブカテゴリ」とし、リストされたサブカテゴリのチェックボックスをチェックして「追加」ボタンをクリックすると、チェックしたカテゴリで文書が検索されます。
チェックボックスを複数チェックして検索した場合、チェックされたカテゴリの「いずれかを含む」(OR 演算子によって結合されたもの) 検索条件が追加されます。

日付検索では、指定した日付(年月日だけでなく、月や週等の一定の期間も含む)に該当する文書を検索できます。
- 時系列ビューで、チェックボックスをチェックして「追加」ボタンをクリックすると、チェックした日付で文書が検索されます。 チェックボックスを複数チェックして検索した場合、チェックされた日付の「いずれかを含む」(OR
演算子によって結合されたもの) 検索条件が追加されます。

- TEXT MINER で作成可能な検索条件の形式:
TEXT MINER では、1つ又は複数個のOR条件(いずれかを含む)を1つ又は複数個のAND条件で結合した形式の検索条件をサポートしています。
下記の検索条件では、「日曜日」と「土曜日」はORの関係(いずれかを含む)であり、週末の日付を持つ文書を絞り込む条件を生成しています。 「パソコン」と「購入する」と上記の週末に相当する条件はANDの関係(全て含む)で結合されています。
検索条件:
- AND条件の追加:
検索条件が設定されている状態で、演算子ラジオボタンの「AND」をチェックして「検索」ボタンをクリックすると、既存の検索条件と追加された検索条件の「全てを含む」検索条件が生成されます。
AND条件の追加:
- OR条件の追加:
検索条件が設定されている状態で、演算子ラジオボタンの「OR」をチェックして「検索」ボタンをクリックすると、既存の検索条件と追加された検索条件の「いずれかを含む」検索条件が生成されます。
OR条件の追加:
- AND条件が存在する状態からのOR条件の追加:
既にAND条件が存在する状態からOR条件を追加すると、画面上の「全て含む」のセル(AND演算子に相当)の右のセルの検索条件のうち一番下の条件と、追加された条件とのORが取られます。
OR条件の追加:
- 複数チェックボックスからの検索条件の追加:
カテゴリビュー、時系列ビューから複数のチェックボックスをチェックして、検索条件を追加すると、チェックされた項目は1つのOR条件としてまとめられて追加されます。
OR条件は、演算子ラジオボタンでチェックされた演算子によって、追加前の検索条件と結合されます。
複数チェックされた日付の、AND条件としての追加:
- ビューのセルからの検索条件の追加:
トピックビュー、増減ビュー、2Dマップビューからセルをクリックして、検索条件を追加すると、縦軸の項目と横軸の項目のAND条件が追加されます。
この場合、「検索」ボタンのクリックは必要なく、演算子ラジオボタン、NOTのチェックボックスも無効です。
セルからの検索条件の追加:
新たな検索条件を追加する際、直前の検索条件に AND または OR が用いられている場合に、追加する検索条件がどの位置に挿入されるかを指定することができます。
以下の説明では既存の検索条件を構成する部品(ノード)をA、B、新たに追加される条件(ノード)をXとしています。
パターン |
挿入する位置 |
追加する検索条件 |
結果 |
ケース1 |
親がAND |
AND |
選択した箇所の下に検索条件が追加される |
ケース2 |
親がAND |
OR |
選択した箇所とのOR条件が追加される |
ケース3 |
AND |
OR |
選択したAND条件とのOR条件が作成される |
ケース4 |
AND |
AND |
選択したAND条件に検索条件が追加される |
ケース5 |
親がOR |
AND |
選択した箇所とのAND条件が追加される |
ケース6 |
親がOR |
OR |
選択した箇所の下に検索条件が追加される |
ケース7 |
OR |
AND |
選択したOR条件とのAND条件が作成される |
ケース8 |
OR |
OR |
選択したOR条件に検索条件が追加される |
ケース1:親がAND の位置に AND を指定して検索条件Xを追加 → 選択した箇所の下に検索条件が追加される

ケース2:親がAND の位置に OR を指定して検索条件Xを追加 → 選択した箇所とのOR条件が追加される

ケース3:AND の位置に OR を指定して検索条件Xを追加 → 選択したAND条件とのOR条件が作成される

ケース4:AND の位置に AND を指定して検索条件Xを追加 → 選択したAND条件に検索条件が追加される

ケース5:親がOR の位置に AND を指定して検索条件Xを追加 → 選択した箇所とのAND条件が追加される

ケース6:親がOR の位置に OR を指定して検索条件Xを追加 → 選択した箇所の下に検索条件が追加される

ケース7:OR の位置に AND を指定して検索条件Xを追加 → 選択したOR条件とのAND条件が作成される

ケース8:OR の位置に OR を指定して検索条件Xを追加 → 選択したOR条件に検索条件が追加される

- カテゴリ指定:
分析用のビューに使用するカテゴリを指定する場合、画面左側のカテゴリツリーでカテゴリを指定した後、ビューのタブをクリックします。 カテゴリの変更がビューに反映されるタイミングは、ビューのタブをクリックした時になります。
検索条件やパラメタの変更ではカテゴリの指定は反映されません。
- パラメタ変更:
ラジオボタン、セレクトボックスによるパラメタ変更は、画面上での操作の直後に反映されます。 ボタンをクリックした後に操作は必要ありません。
- パラメタのリセット:
縦軸カテゴリ、横軸カテゴリ、及び、リスト対象を除いて、全てのパラメタは、ビューのタブをクリックするとリセットされます。
- 黒い数字とピンク色の数字:
黒い文字で書かれた数字はキーワード、サブカテゴリ、日付項目の検索文書中での頻度(該当文書数)を表します。 ピンク色の文字で書かれた数字は頻度を基に算出された統計指標を表します。
データベースの選択後に初期ビューとして表示されるビューです。 このビューではマイニング機能は提供されません。
文書一覧ビューでは現在の検索条件に該当する文書を閲覧できます。

- 外部接続ボタン:
表示中の検索条件と文書の情報を外部のアプリケーションに送信できます。 送信先のアプリケーションが1つ以上設定されている場合に「外部接続」ボタンが表示されます。
ボタンをクリックすると、送信先のアプリケーションを選択するダイアログが表示されます。 外部接続で送信できるデータの大きさには上限があり、このデータの大きさは主に検索条件の数に依存します。
上限は、内部的な送信データ文字数で、通常50,000文字と設定されており、上限をオーバーして送信できない場合は、現状で送信しようとしているデータの文字数とともに警告されます。
- ページ変更ボタン:
三角形のボタンをクリックすることにより、リストする文書のページを変更することができます。 文書の表示順序はデータの取り込まれた順(通常は日付)になります。
- 「ページごとの文書表示数」パラメタ:
画面内に一度に表示する文書数をラジオボタンで指定できます。 表示数を変更するとページは最初のページにリセットされます。
- 文書表示テーブル:
- 一番上の行に、文書のタイトルを表示します。タイトルはデータの取り込みの際に指定されます。
- 「原文」には、文書の本文が表示されます。 運用により原文を表示しない設定や、文字数を制限して一定文字以降を切り捨てる設定になっていることもあります。
- 「詳細」の行のリンクをクリックするとポップアップウィンドウで文書詳細画面が表示されます。
- 「詳細」より下の行には、表示設定されているカテゴリについて、その文書内に含まれるキーワードが表示されます。 通常は、定型項目を設定します。
- 文書表示テーブル/検索該当箇所のハイライト:
検索条件でキーワードや文字列が指定されている場合、検索該当箇所がハイライトされます。 係り受けキーワードで検索されている場合は、係り元から係り先までの全体がハイライトされます。
データベースの定型カラムに相当する、定型項目カテゴリの値で検索された場合、画面上の検索条件の表示は「キーワード」となりますが、本文上にはキーワードは存在しないのでハイライトされません。
- 文書詳細画面:
文書一覧ビューで選択された文書について、原文と定型情報、原文から抽出されたキーワードを表示します。 この機能で、言語処理によって内部的にどのようなキーワードが抽出されているかを実際に確認できます
- 各抽出キーワードの抽出元をハイライトすることができます
- 検索条件に該当したキーワードはハイライトされません

- 文書情報: 文書情報には、IBM Content Analyzer に取り込む元のデータにおける文書 ID、タイトル、原文が表示されます。
原文は文字数制限はなく、全文が表示されます。
- 定型情報: 定型情報には、IBM Content Analyzer に取り込んだ時点で文書に関連付けられていた定型情報を、<カテゴリ,キーワード>のペアで表示します。
1つの定型項目カテゴリに複数のキーワードが存在する場合、複数行に渡って全てのキーワードが表示されます。
- キーワード情報: キーワード情報には、言語処理によって抽出されたキーワードを、<カテゴリ,キーワード>のペアで表示します。 「ハイライト」欄のラジオボタンをクリックすると、原文中の抽出元の箇所がハイライトされます。
カテゴリビューではカテゴリツリーで「縦軸カテゴリ」に指定されたカテゴリに属するキーワード/サブカテゴリの、検索文書中の頻度、検索条件との相関値(参照)をリストします。

- 「リスト対象」パラメタ:
リスト対象のラジオボタンでは、リストに、縦軸カテゴリに属するキーワードを表示するか、縦軸カテゴリのサブカテゴリを表示するかを選択できます。
- 「表示順序」パラメタ:
表示順序のラジオボタンでは、リストされるキーワード/サブカテゴリの表示順序を指定できます。
- 表示順序が「頻度」の場合、検索文書中の頻度が大きいものから順に表示されます。
- 表示順序が「相関値」の場合、検索文書と相関の強いものから順に表示されます。
- 表示順序が「名前」の場合、ユニコードと呼ばれる世界標準の文字コードの順で表示されます。 ユニコード順では平仮名、カタカナ、漢字、数字、英語大文字、英語小文字の順で並びます。
平仮名、カタカナはそれぞれ「あいうえお」順ですが、小文字(「ぁ」など)は普通の文字の前に、濁点は後ろに並びます。 漢字は、ほぼ漢和辞典と同様に部首順に並びます。
表示順序を変更しても、取得されるキーワード/サブカテゴリの集合は頻度順で決まります。 例として「相関値」を選択し、最大表示数を100とした場合、頻度順に取得された100件のキーワードが相関値順にリストされます。
- 「最大表示行数」パラメタ:
最大表示行数のラジオボタンでは、リストされるキーワード/サブカテゴリの最大数を指定できます。
- 検索チェックボックス(テーブル内):
チェックボックスをチェックして、画面上部の「検索」ボタンをクリックすることにより、指定した項目の検索条件を追加することができます。 複数のチェックボックスをチェックした場合、チェックされた項目(キーワード又はサブカテゴリ)による検索条件をORで結合した条件が追加されます。
- キーワード(テーブル内):
リスト対象がキーワードの場合、テーブルの2列目に、縦軸カテゴリに属するキーワードがリストされます。
- サブカテゴリ(テーブル内):
リスト対象がサブカテゴリの場合、テーブルの2列目に、縦軸カテゴリのサブカテゴリ名がリストされます。
- 頻度(テーブル内):
黒い数字とグラフで、検索文書集合中における、その行のキーワード/サブカテゴリの頻度(該当文書数)が表示されます。
- 相関値(テーブル内):
ピンク色の数字とグラフで、検索文書集合と、その行のキーワード/サブカテゴリとの相関の度合いが表示されます。
時系列ビューでは、現在の検索条件に該当する文書の頻度を時系列で表示します。

- 「タイムスケール」パラメタ:
タイムスケールのラジオボタンでは、時系列グラフの時間軸の粒度を指定できます。 「年」、「半期」、「四半期」「月」、「週」、「年月日」ではそれぞれ、1年、半期、四半期、1ヶ月、1週間、1日のスケールが指定されます。
「日/月」は、1ヶ月のうちの何日目かを現す値で、別の月の同じ日にちは一つに集計されます。 「曜日」では、曜日ごとの頻度を表示します。
- 「表示範囲(左端)」パラメタ:
時系列の表示範囲の左端を指定します。 不要な箇所を切り取るための機能で、レポートにも反映されます。
- 「表示範囲(右端)」パラメタ:
時系列の表示範囲の右端を指定します。 不要な箇所を切り取るための機能で、レポートにも反映されます。
- 検索チェックボックス(テーブル内):
チェックボックスをチェックして、画面上部の「検索」ボタンをクリックすることにより、指定した日付の検索条件を追加することができます。 複数のチェックボックスをチェックした場合、チェックされた日付による検索条件をORで結合した条件が追加されます。
- 不明欄(テーブル内):
日付の属性が存在しない文書が含まれている場合、日付の表示される箇所に「不明」と表示される欄ができ、頻度が表示されます。
トピックビューではカテゴリツリーで「縦軸カテゴリ」に指定されたカテゴリに属する各キーワード/サブカテゴリについて、時間変化を分析し相対的に頻度の高い箇所をハイライトします。

- 「リスト対象」パラメタ
- リスト対象のラジオボタンでは、縦軸に、縦軸カテゴリに属するキーワードを表示するか、縦軸カテゴリのサブカテゴリを表示するかを選択できます。
- 「表示順序」パラメタ
- 表示順序のラジオボタンでは、リストされるキーワード/サブカテゴリの表示順序を指定できます。
- 表示順序が「頻度」の場合、検索文書中の頻度が大きいものから順に表示されます。
- 表示順序が「名前」の場合、ユニコードと呼ばれる世界標準の文字コードの順で表示されます。 ユニコード順では平仮名、カタカナ、漢字、数字、英語大文字、英語小文字の順で並びます。
平仮名、カタカナはそれぞれ「あいうえお」順ですが、小文字(「ぁ」など)は普通の文字の前に、濁点は後ろに並びます。 漢字は、ほぼ漢和辞典と同様に部首順に並びます。
表示順序を変更しても、取得されるキーワード/サブカテゴリの集合は頻度順で決まります。 例として「名前」を選択し、最大表示数を20とした場合、頻度順に取得された20件のキーワードが名前順にリストされます。
- 「最大表示行数」パラメタ
- 最大表示行数のラジオボタンでは、リストされるキーワード/サブカテゴリの最大数を指定できます。
- 「タイムスケール」パラメタ
- タイムスケールのラジオボタンでは、時系列グラフの時間軸の粒度を指定できます。 「年」、「月」、「週」、「年月日」ではそれぞれ、1年、1ヶ月、1週間、1日のスケールが指定されます。
「日/月」は、1ヶ月のうちの何日目かを現す値で、別の月の同じ日にちは一つに集計されます。 「曜日」では、曜日ごとの頻度を表示します。
- 「表示範囲(左端)」パラメタ
- 時系列の表示範囲の左端を指定します。 不要な箇所を切り取るための機能で、レポートにも反映されます。
- 「表示範囲(右端)」パラメタ
- 時系列の表示範囲の右端を指定します。 不要な箇所を切り取るための機能で、レポートにも反映されます。
- 頻度(テーブル内)
- 検索文書全体の頻度を、日付ごとに数字で表示します。
- セルの値(テーブル内)
- 各行のキーワード/サブカテゴリの頻度を、日付ごとに数字で表示します。 検索文書の中で相対的に頻度が高い箇所は下線でハイライトされます。 ハイライト指標についての詳細は、「」をご覧ください。 セルの数字をクリックすると、縦軸の項目と横軸の項目のAND条件が検索条件に追加されます。 ここでは、「検索」ボタンのクリックは必要なく、演算子ラジオボタン、NOTのチェックボックスも無効です。
増減グラフビューでは、カテゴリツリーで「縦軸カテゴリ」に指定されたカテゴリに属する各キーワード/サブカテゴリについて、時間変化を時系列グラフで表し、増加が予測された箇所をハイライトして表示します。
アラート機能の増加検出と同じ指標を用いているため、アラート機能の簡易版として機能します。

- 「リスト対象」パラメタ:
リスト対象のラジオボタンでは、テーブルの縦軸に、縦軸カテゴリに属するキーワードを表示するか、縦軸カテゴリのサブカテゴリを表示するかを選択できます。
- 「表示順序」パラメタ:
表示順序のラジオボタンでは、リストされるキーワード/サブカテゴリの表示順序を指定できます。
- 表示順序が「頻度」の場合、検索文書中の頻度が大きいものから順に表示されます。
- 表示順序が「名前」の場合、ユニコードと呼ばれる世界標準の文字コードの順で表示されます。 ユニコード順では平仮名、カタカナ、漢字、数字、英語大文字、英語小文字の順で並びます。
平仮名、カタカナはそれぞれ「あいうえお」順ですが、小文字(「ぁ」など)は普通の文字の前に、濁点は後ろに並びます。 漢字は、ほぼ漢和辞典と同様に部首順に並びます。
- 表示順序が「最新時間区間での増加指標」の場合、各時系列の表示範囲内の最も新しい日付での増加指標(一番右側の列の増加指標)の順で表示されます。
また、取得されるキーワード/サブカテゴリの集合は、表示順序によらず、頻度順で決まります。 例として「名前」を選択し、最大表示数を20とした場合、頻度順に取得された20件のキーワードが名前順にリストされます。
- 「最大表示行数」パラメタ:
最大表示行数のラジオボタンでは、リストされるキーワード/サブカテゴリの最大数を指定できます。
- 「タイムスケール」パラメタ:
タイムスケールのラジオボタンでは、時系列グラフの時間軸の粒度を指定できます。 「年」、「月」、「週」、「年月日」ではそれぞれ、1年、1ヶ月、1週間、1日のスケールを指定します。
- 「表示範囲(左端)」パラメタ:
時系列の表示範囲の左端を指定します。 不要な箇所を切り取るための機能で、レポートにも反映されます。
- 「表示範囲(右端)」パラメタ:
時系列の表示範囲の右端を指定します。 不要な箇所を切り取るための機能で、レポートにも反映されます。
- 増加指標(テーブル内):
各行の時系列グラフの上の欄に、各日付の時点での増加指標がピンク色で表示されます。 プラスの値は増加、マイナスの値は減少を表します。 初めの4つの日付については、増加指標の算出に十分なデータが取得できないため表示されません。
増加指標に関する詳細については、「」をご覧ください。
- 時系列グラフ(テーブル内):
各行のキーワード/サブカテゴリの検索文書中の頻度を棒グラフで表示します。
2Dマップビューでは、カテゴリツリーで指定された縦軸カテゴリに属するキーワード/サブカテゴリと横軸カテゴリに属するキーワード/サブカテゴリとの相関を二次元のテーブルで表示します。
縦横軸の項目の相関の高いセルがハイライトされます。

- 「リスト対象」パラメタ:
画面左側のリスト対象のラジオボタンでは、テーブルの縦軸に、縦軸カテゴリに属するキーワードを表示するか、縦軸カテゴリのサブカテゴリを表示するかを選択できます。
画面右側のリスト対象のラジオボタンでは、テーブルの横軸に対して、同様の操作を行えます。
- 「表示順序」パラメタ:
表示順序のラジオボタンでは、リストされるキーワード/サブカテゴリの表示順序を指定できます。 画面左側が縦軸、右側が横軸の設定です。
- 表示順序が「頻度」の場合、検索文書中の頻度が大きいものから順に表示されます。
- 表示順序が「名前」の場合、ユニコードと呼ばれる世界標準の文字コードの順で表示されます。 ユニコード順では平仮名、カタカナ、漢字、数字、英語大文字、英語小文字の順で並びます。
平仮名、カタカナはそれぞれ「あいうえお」順ですが、小文字(「ぁ」など)は普通の文字の前に、濁点は後ろに並びます。 漢字は、ほぼ漢和辞典と同様に部首順に並びます。
表示順序を変更しても、取得されるキーワード/サブカテゴリの集合は頻度順で決まります。 例として「名前」を選択し、最大表示数を20とした場合、頻度順に取得された20件のキーワードが名前順にリストされます。
- 「最大表示行数」パラメタ:
最大表示行数のラジオボタンでは、リストされるキーワード/サブカテゴリの最大数を指定できます。 画面左側が縦軸、右側が横軸の設定です。
- セルの値(テーブル内):
セルの上部に黒い文字で、検索文書中の
[縦軸のキーワード/サブカテゴリ] かつ [横軸のキーワード/サブカテゴリ]
に該当する文書数が表示されます。 セルの下部にはピンク色の文字で、検索文書中における縦軸のキーワード/サブカテゴリと横軸のキーワード/サブカテゴリとの相関の度合いが数値で表示されます。
相関値の詳細については、「」をご覧ください。 相関値の高いセルはハイライトして表示されます。
ブックマークは、現在の検索条件と表示中のビューのパラメタをローカルファイルとして保存する機能です。 保存したブックマークファイルを開くことにより、再びサーバーに接続し、保存時と同じ検索条件とパラメタで分析を再開できます。
ブックマークは、グラフや数値等、ビューの分析結果そのものは保存しておらず、サーバーに接続できない環境では使用できません。 ビューの分析結果をスナップショット的に保存する場合はレポート機能
( 参照)を使います。
- ブックマークの保存:
「ブックマーク」リンクをクリックすると、ブックマークの保存ダイアログが表示されるので、ローカルの保存先を指定します。
空のウィンドウはブックマークの保存後に閉じてください。

- ブックマークの管理:
ブックマークはローカルファイルとして管理することができます。 また同じ TEXT MINER のサーバーにアクセスできるユーザー同士ではメールでブックマークファイルを送信したり、ファイル共有したりすることも可能です。
- ブックマークからのサーバーへのアクセス:
ローカルに保存したブックマークを開くと、「JUMP」ボタンが表示されます。 ボタンをクリックすると、TEXT MINER に接続されます。

無効になった検索条件の扱い:
ブックマークは分析結果そのものは保存していないため、作成してからデータが置き換わると保存時と異なる結果が表示されます。 特に、ブックマークで検索に使用されているカテゴリが削除された場合、その検索条件は無効になります。
無効になった検索条件は赤で警告メッセージが表示され、ヒット数が0件(NOT 検索の場合は全件)になります。
無効になった検索条件の表示例:

ブックマークに保存される情報:
ブックマークには、1.分析に利用しているサーバー、2.分析に利用しているデータベース、3.検索条件、4.ビューの選択情報、5.ビューのパラメタ、6.縦横軸に選択されているカテゴリ が保存されます。
一方、カテゴリツリーのフレーム内の情報(カテゴリの表示順序、どのカテゴリが展開されている)は保存の対象ではありません。
レポート機能を用いると分析結果をローカルファイルとして保存することができます。 レポートはサーバーに接続できない環境でも開くことができ、Internet
Explorerで閲覧可能です。 また、サーバーに接続可能な環境ではブックマークと同様サーバーに再接続して、レポート保存時の検索条件とパラメタの状態から分析を続行できます。
レポート編集:
「レポート」リンクをクリックするとレポートの編集画面が開きます。 編集画面ではビューの説明の有無、コメントを編集できます。 コメントは改行を含む最大2000文字まで入力可能です。 また、表示項目に対し「サンプル文書を含める」というチェックボックスがある場合、チェックボックスをチェックすると、その項目で絞り込んだ文書集合のサンプル文書が添付されます。
レポートの内容を入力した後は、画面の一番下の「作成」ボタンを押してレポートをローカルに保存します。

レポートファイルの内容

保存されたレポートを開くとサーバーに接続せずにビューの内容を閲覧できます。「こちら」のリンクをクリックすると、サーバーに再接続し、レポートで用いられている検索条件とパラメタがセットされた状態から分析を続行できます。
レポート作成時、サンプル文書を添付するように項目にチェックした場合、サンプル文書への同一ファイル内リンクが表示されます。 リンクをクリックするとファイル下部の該当文書にジャンプします。 サンプル文書を調べることでリストされている項目が実際にどのような内容に対応しているかを確認できます。
CSV出力機能を用いると、現在表示している分析結果を、CSVファイルとして保存することができます。 CSVファイルはExcelで開く事ができるので、カスタマイズされたレポートの作成に用いる事ができます。
- CSVファイルの保存: 「CSV出力」リンクをクリックすると、CSVファイルの保存ダイアログが表示されるので、ローカルの保存先を指定します。
空のウィンドウが別に開くことがありますが、こちらはファイルの保存後に閉じてしまって問題ありません。
- 制限事項: 保存ダイアログで、CSV ファイルを保存せずに直接開くことはできません。ダイアログでは「保存」を選択し、一旦保存したファイルを開くようにして下さい。

「サーバーに保存」ボタンを選択すると、その時点での検索条件をサーバーに保存することができます。保存の確認画面ではファイル名・保存されるディレクトリ・コメントを指定することができます。
「OK」を選択すると検索条件が保存され、保存されている検索条件の一覧が表示されます。

- ファイル名およびフォルダ名の制限
- 長さは最大32文字です
- ファイル名およびフォルダ名には以下の文字は使えません
- \ 半角円記号
- \ バックスラッシュ
- / スラッシュ (フォルダ名では区切り文字として使われます)
- : 半角コロン
- * 半角アスタリスク
- ? 半角疑問符
- " 二重引用符 (ダブルクォーテーション記号)
- < 半角不等号(より小)
- > 半角不等号(より大)
- | 半角縦線
- サーバーのシステムが制限している文字
サーバーに保存されている検索条件の一覧を表示することができます。
ファイル名を選択すると検索条件をロードすることができます。
ファイル・フォルダのチェックボックスを選択し、「削除」のボタンを押すと該当の検索条件およびフォルダを削除することができます。

検索条件をXMLファイルとしてダウンロードすることができます。
- ダウンロードした検索条件を再利用するには、基本的にデータベースが同じである必要があります。どのファイルがどの検索条件のものであるかがわかるように管理してください
XMLダウンロード機能でダウンロードしたXMLファイルをアップロードすることで検索条件をロードすることができます。
- ダウンロードした検索条件を再利用するには、基本的にデータベースが同じである必要があります。どのファイルがどの検索条件のものであるかがわかるように管理してください
TEXT MINER でカラー表示されている値はTEXT MINER が算出している指標で、文書数等の黒で表示されている「生」のデータとは区別されています。
生のデータは、それを知見に読み替える際に誤解が発生しがちです。 例として、キーワード「メール…受信する」の頻度が、1月から2月で1.5倍に増えているとします。
これを「増加している」と判断するには、全文書数の推移との突合せ、統計的ノイズの考慮が必要ですが、実際にはそこまで配慮が及ばないケースが多くあります。
TEXT MINER では、指標を、増加の度合い、相関の強さ、といった直感的なイメージに直接読み替えられるように、最大限の補正を行った指標を表示しています。
- 発見的分析をサポートするビュー:
TEXT MINER では、単にキーワードやサブカテゴリの該当文書数を表示するだけでなく、文書集合上でのキーワード分布において「一様でない箇所」を可視化することにより、トピックや問題の発見をサポートしています。
頻度の時間的推移の分析(時系列ビュー、トピックビュー、増減グラフビュー)、相関分析(カテゴリビュー、2Dマップビュー)がその具体的な手法です。
- ノイズ除去:
分析対象の文書の総数が膨大であったとしても、検索条件に該当する文書数や、キーワード/サブカテゴリに対応する文書数が、統計処理に十分なサンプル数と言えるとは限りません。
また、コールセンターのデータや掲示板のログ等の場合、あるキーワードを、電話中に発言する確率/掲示板に書き込む確率が一定でも、データ上で観測されるキーワード数にはばらつき(ノイズ)があります。
TEXT MINER では「文書数の差」、「文書数の比」等の値を直接表示するのではなく、値の信頼性を考慮して、補正した値を指標として用いています。
複数のテキストからなる文書をテキスト毎に解析することが可能です。オプションメニューから分析対象とするテキスト名を選択してください
- この機能を利用するには複数テキストのエントリーとdatabase_config.xml での設定が必要です
- 分析対象の指定はブックマーク機能やレポート機能、XMLダウンロード機能で保存される検索条件には反映されません
- 該当ビュー:
相関値は、カテゴリビュー、2Dマップビューで用いられています。 カテゴリビューでは、検索条件と、リストされているキーワード/サブカテゴリの関連の強さ、2Dマップでは、縦横両軸の項目の共起のしやすさを表します。
- 補正前の値:
相関値は2つの文書集合A、Bに対して以下のように定義されます。 ここでDは全文書集合、#は文書集合中の文書数を表します。 左辺も右辺も値は同じになります。
例として、文書集合が
A={「商品」カテゴリのキーワード「パソコン」に該当する文書}、
B={「名詞...要望」カテゴリのキーワード「マニュアル…入手する…たい」に該当する文書}、
とすると、上記の式の左辺は、
パソコンに関する文書に限った時のマニュアル入手要望の割合 |
|
全文書中のマニュアル入手の要望の割合 |
に相当します。 集合を図示すると下記のようになります。 例として、マニュアル入手に関する文書は全文書中の5%、一方で、パソコンに関する文書に限るとマニュアル入手に関する文書が20%の場合、「パソコン」と「マニュアル…入手する…たい」は相関値が4であり、関連が強いと言えます。
上記の式の右辺は、AとBの密度の掛け算 (#A/#D) (#B/#D) と実際の(A∩B)の密度 #(A∩B)/#D の比で、「AとBの独立性からの逸脱」を表します。
2Dマップの指標として見る場合は、右辺の式の方が直感的です。
- 補正後の値:
相関値は上記の数式における #(A∩B) 、(例のケースにおいては、「パソコン」と「マニュアル…入手する…たい」を含む文書数)が小さい場合、値の信頼性が低くなります。
信頼性が無いのに高い相関値が算出されてしまい、分析作業の効率や精度が落ちる、といったことがないように、TEXT MINER では区間推定を用いて、信頼性の無い値は小さめに補正します。
区間推定法では、「文書が無限にある場合の真の相関値αを未知数とした際、一定確率以下の偶然を除いて、現状の相関値を実現し得る最小のα」を算出しており、詳細については確率/統計の文献をご参照ください。
- 該当ビュー:
トピック性指標はトピックビューのハイライトに用いられています。
- 指標の意味と計算の概略:
トピックビューの各行のキーワード/サブカテゴリについて、各日付での頻度の平均からの逸脱を測る指標です。 同じキーワード/サブカテゴリの他の日付に比べて相対的に頻度が高い箇所がハイライトされますが、全文書(検索該当文書)の時系列の変化に連動してハイライトされることの無いように、正規化が行われています。
この正規化により、「週ごとの分析で、休日の多い週だけ文書数が少ないために分析結果が狂う」、といったことを避けられます。 下記の2つのトピックビューの画面は、どちらも同じカテゴリ、日付におけるものです。
下の方の画面では、1998年2月の文書から3週間分を取り除いたものですが、ハイライトの傾向は同じであることが確認できます。
全文書を用いたトピックビュー:

全文書から1998年2月の3週間分を除いたトピックビュー:

- 指標の定義:
各行の頻度時系列は、検索該当文書全体の頻度時系列(トピックビューで「頻度」の行に表示される時系列)に連動した変動が無視されるように正規化され、正規化された時系列の平均とセルの頻度の差分を、変動スケールで割った値が指標になります。
数式としては、以下のようになります。 ここでDは全文書集合、#は文書集合中の文書数を表します。MとKはそれぞれ、
M = { ある月の文書 }
K = { ある行のキーワードを含む文書 }
になります。
- 該当ビュー:
増加指標は増減グラフビューのハイライトに用いられています。 アラート機能の増加検出の指標も同じものが使われています。
- 指標の意味と計算の概略:
増加指標はその名の通り、キーワード/サブカテゴリの頻度時系列の増加を測る指標で、意味としては「過去の時系列が定常状態であったとした時に、現在の日付の頻度がどれだけ逸脱しているか」を表します。
頻度時系列の定常的なノイズをポアソン分布で見積もり、そのスケールを基準に、変動の大きさを倍率で計算します。 また、全検索該当文書の頻度時系列の変化に連動してしまわないように正規化も行っています。
- 指標の定義:
検索該当文書全体の頻度時系列を
グローバル時系列:
g1,g2,…,gn (n=1,2,…,N)
とし、増減グラフビューの各行の頻度時系列を
キーワード時系列:
k1,k2,…,kn (n=1,2,…,N)
とする時、累積頻度の時系列を以下のように定義します。 ここで D (Decaying Factor) は、重み付き平均に使われるパラメタで、D
が大きいと遠い過去の時系列の頻度の寄与が大きくなり、小さいと遠い過去の頻度が無視されます。 TEXT MINER では D=0.85 を採用しており、これは日付
n-4 番目の頻度時系列の頻度が日付 n 番目の頻度の約半分の重みで平均値計算に寄与することに相当します。
重み付き累積グローバル時系列:
G1=g1
Gn=D × Gn-1 + gn (n=2,3,…,N)
重み付き累積キーワード時系列:
K1=k1
Kn=D × Kn-1 + kn (n=2,3,…,N)
全検索該当文書の変動も考慮した上での n 番目の日付におけるキーワード/サブカテゴリの頻度の推定値は、以下の式で定義されます。
キーワード平均推定値:
An=gn × (Kn-1/Gn-1) (n=2,3,…,N)
これらを用いて、n 番目の日付の増加指標 Xnは、
Xn=0 (n=1,2,3,4)
Xn=(kn - An)/√An (n≧5)
で定義されます。
ここでは、IBM の商標と、特定のIBM 以外の商標をリストします。 IBM の商標について詳しくは、http://www.ibm.com/legal/copytrade.shtml
を参照して下さい。 以下は、それぞれ各社の商標または登録商標です。
Java およびすべてのJava 関連の商標およびロゴは、Sun Microsystems, Inc. の米国およびその他の国における商標または登録商標です。
Microsoft、Windows、Windows NT およびWindows ロゴは、Microsoft Corporationの米国およびその他の国における商標です。
Intel、Intel Inside (ロゴ)、およびPentium は、Intel Corporation の米国およびその他の国における商標です。
UNIX は、The Open Group の米国およびその他の国における登録商標です。 Linux は、Linus Torvalds の米国およびその他の国における商標です。
他の会社名、製品名およびサービス名等はそれぞれ各社の商標です。
©Copyright IBM Corp. 2007, 2008. All Rights Reserved.
本書でIBM 製品、プログラム、またはサービスに言及していても、そのIBM 製品、プログラム、またはサービスのみが使用可能であることを意味するものではありません。
これらに代えて、IBM の知的所有権を侵害することのない、機能的に同等の製品、プログラム、またはサービスを使用することができます。 ただし、IBM
以外の製品とプログラムの操作またはサービスの評価および検証は、お客様の責任で行っていただきます。
IBM は、本書に記載されている内容に関して特許権(特許出願中のものを含む) を保有している場合があります。 本書の提供は、お客様にこれらの特許権について実施権を許諾することを意味するものではありません。
この情報には、技術的に不適切な記述や誤植を含む場合があります。本書は定期的に見直され、必要な変更は本書の次版に組み込まれます。 IBM は予告なしに、随時、この文書に記載されている製品またはプログラムに対して、改良または変更を行うことがあります。
本書においてIBM 以外のWeb サイトに言及している場合がありますが、便宜のため記載しただけであり、決してそれらのWeb サイトを推奨するものではありません。
それらのWeb サイトにある資料は、このIBM 製品の資料の一部ではありません。それらのWeb サイトは、お客様の責任でご使用ください。
IBM は、お客様が提供するいかなる情報も、お客様に対してなんら義務も負うことのない、自ら適切と信ずる方法で、使用もしくは配布することができるものとします。
本プログラムに関する上記の情報は、適切な使用条件の下で使用することができますが、有償の場合もあります。 本書で説明されているライセンス・プログラムまたはその他のライセンス資料は、IBM所定のプログラム契約の契約条項、IBM
プログラムのご使用条件、またはそれと同等の条項に基づいて、IBM より提供されます。
この文書に含まれるいかなるパフォーマンス・データも、管理環境下で決定されたものです。そのため、他のオペレーティング環境で得られた結果は、異なる可能性があります。
一部の測定が、開発レベルのシステムで行われた可能性がありますが、その測定値が、一般に利用可能なシステムのものと同じである保証はありません。 さらに、一部の測定値が、推定値である可能性があります。実際の結果は、異なる可能性があります。お客様は、お客様の特定の環境に適したデータを確かめる必要があります。
IBM 以外の製品に関する情報は、その製品の供給者、出版物、もしくはその他の公に利用可能なソースから入手したものです。 IBM は、それらの製品のテストは行っておりません。したがって、他社製品に関する実行性、互換性、またはその他の要求については確証できません。
IBM 以外の製品の性能に関する質問は、それらの製品の供給者にお願いします。 IBM の将来の方向または意向に関する記述については、予告なしに変更または撤回される場合があり、単に目標を示しているものです。