FileNet P8との統合

IBM Content AnalyzerはFileNet P8サーバに格納されている 文書からATMLを作成し、テキスト解析に利用することができます。また、IBM Content Analyzerはテキスト解析結果のカテゴリ情報を FileNet P8サーバに書き戻すことも可能です。このマニュアルでは、これらの機能の利用方法を解説します。
Capability
IBM Content Analyzerによって、下記の機能が提供されます。
サンプル設定ファイル
FileNet P8サーバと通信する設定ファイルのサンプルは以下のようになります。
<?xml version="1.0" encoding="UTF-8"?>
<filenetBridgeConfiguration version="1">
    <server>
        <url>http://localhost:9080/wsi/FNCEWS40DIME</url>
        <username>user</username>
        <password>password</password>
    </server>
    <domain></domain>
    <objectStore>MyObjectStore</objectStore>
    <documentSelection>
        <folders>
            <folder>/docs/analyze</folder>
        </folders>
    </documentSelection>
    <contentMapping name="DocumentContent">
        <textContentPattern encoding="MS932">text/plain</textContentPattern>
        <textContentPattern encoding="UTF-8">text/html</textContentPattern>
        <binaryContentPattern>^application/pdf$</binaryContentPattern>
    </contentMapping>
    <propertyMappings>
        <propertyMapping>
            <symbolicName>DocumentTitle</symbolicName>
            <mappingTarget>
                <title />
            </mappingTarget>
        </propertyMapping>
        <propertyMapping>
            <symbolicName>DateCreated</symbolicName>
            <mappingTarget>
                <date />
            </mappingTarget>
        </propertyMapping>
        <propertyMapping>
            <symbolicName>Comment</symbolicName>
            <mappingTarget>
                <text name="Comment" />
            </mappingTarget>
        </propertyMapping>
    </propertyMappings>
    <outputATML>
        <basename>filenet_data</basename>
        <maxDocuments>2000</maxDocuments>
    </outputATML>
    <categoryRecord property="Category">
        <serialOperation ignoreError="false" />
    </categoryRecord>
</filenetBridgeConfiguration>
この設定ファイルでは、以下の指定しています。 このサンプル設定ファイルが「config.xml」という名前であるとすると、FileNet文書を取得するには次のコマンドを実行します:
takmi_filenet2atml config.xml
このATMLファイルをテキスト解析した後、生成されたMIMLファイルのカテゴリ情報を以下のコマンドで書き戻せます:
takmi_miml2filenet config.xml filenet_data_XXXX.miml
LinuxおよびAIXでは、コマンド名に.shを加えてください。
設定ファイルのフォーマット
トップレベルのfilenetBridgeConfiguration要素の下に、次の要素が定義されます。
  1. server
  2. domain
  3. objectStore
  4. documentSelection
  5. contentMapping
  6. propertyMappings
  7. outputATML
  8. categoryRecord
これらの要素の意味は以下の通りです。
server要素
server要素はFileNet P8のサーバ情報を指定します。
サーバ情報
XML要素 説明
url FileNet P8サーバのWebサービスインターフェイスのURLです。
username FileNet P8サーバにログインするユーザ名です。
password FileNet P8サーバにログインするパスワードです。
domainおよびobjectStore要素
domainobjectStore要素は リポジトリの場所を指定します。 domain要素が空の場合、デフォルトのドメインが使われます。
documentSelection要素
documentSelection要素は対象の文書を指定します。 文書の選択はフォルダを指定するか、SQLクエリを指定して行います。
対象文書の指定
XML要素 XML属性 説明 多重度またはデータ型
folders 内部に1つ以上のfolder要素を指定します。 0 — 1
folder 対象となるFileNetフォルダのパスです。 0 — n
recursive サブフォルダの文書を再帰的に取得するかどうかを指定します。 Boolean、デフォルトはtrueです
querySQL FileNet文書を選択するカスタムのSQLクエリです。文書IDを生成するために、このクエリはSELECTリストに「Id」列を指定しなければなりません。 SQLクエリの詳細はFileNetのマニュアルを参照してください。 0 — 1
contentMapping要素
contentMapping要素の下に指定される以下のXML要素とXML属性は、 FileNet文書として格納されているファイルからテキスト情報を抽出する方法を指定します。
テキスト抽出の指定
XML要素 XML属性 説明 多重度またはデータ型
contentMapping テキスト抽出指定のトップレベル要素です。このXML要素はこの表にあるすべてのXML要素およびXML属性を含みます。 0 — 1
name 抽出されたテキストの名前です。この名前はText Minerで表示されます。 string
maxLength 抽出するテキストの長さの最大値です。テキストはこの値より長くなることはありません。 integer、デフォルトは65535です
contentReplacement Java™正規表現を用いて抽出されたテキストの特定の文字を置換します。 0 — 1
pattern 置換対象となる正規表現パターンです。 string
replacement 置換後のパターンです。これはpattern要素内の正規表現グループを指す前方参照を含むことができます。 string
textContentPattern テキストファイルとみなすMIMEタイプを指定する正規表現パターンです。 0 — n
encoding テキストファイルのエンコーディングです。 string、デフォルトは「UTF-8」です
binaryContentPattern バイナリファイルとみなすMIMEタイプを指定する正規表現パターンです。 0 — n
propertyMapping要素
propertyMapping要素で設定されるパラメータは、FileNet文書のプロパティをATML文書に変換する方法を指定します。
プロパティ変換方法の指定
XML要素 XML属性 説明 多重度またはデータ型
propertyMappings プロパティ変換方法のトップレベル要素です。この要素はゼロ個以上のpropertyMapping要素を含みます。 0 — 1
propertyMapping ひとつのプロパティの変換を表します。これはFileNet文書のひとつのプロパティを変換元として指定し、ひとつ以上の変換先を子要素として含みます。 子要素は、この表の下部に記述されています。 0 — n
symbolicName 変換元となるFileNetプロパティの名前です。表示名(Display name)ではなく、正規化された名前(Symbolic name)が用いられます。 1
mappingTarget 変換先を指定します。ひとつの変換指定が複数の変換先をもてるため、このXML要素は子要素として複数のXML要素を含むことができます。 1
standardFeature 変換先としてIBM Content Analyzerの定型情報を指定します。 0 — 1
category 定型情報のカテゴリパスを指定します。 string
dynamicPath プロパティの値によってカテゴリパスを変える指定です。 0 — n
value FileNetプロパティの値です。プロパティの値がこの設定値と一致すると、指定されたカテゴリパスの定型情報が生成されます。 プロパティの値はこの生成された定型情報の値になります。 string
category 生成される定型情報のカテゴリパスです。 string
text このXML要素は、FileNetプロパティの値をATML文書のテキストに変換します。テキストは、他の変換先とは違い、テキスト解析の対象となります。 ATML文書は複数のテキストをもてるため、複数のFileNetプロパティをATMLテキストとして指定することができます。 0 — 1
name Text Minerで表示される、テキストの名前です。 string
date FileNetプロパティの値をATML文書のdateに変換します。プロパティのデータ型はDateTimeまたはString(IBM Content Analyzerのdateを表す文字列) でなければなりません。 0 — 1
title FileNetプロパティをATML文書のタイトルに変換します。 0 — 1