リリース情報


22.14 データウェアハウスセンターでの名前およびアドレスのクレンジング

22.14.1

データウェアハウスセンターおよび Trillium ソフトウェア・システムを使用して、 名前およびアドレス・データをクレンジングします。 Trillium Software System は、名前およびアドレス・データの再フォーマット、 標準化、および検査を行う、名前およびアドレスのクレンジング製品です。 データウェアハウスセンターの Trillium Software System は、 ユーザ定義プログラムから Trillium バッチ・システム・プログラムを開始することによって使用できます。 ユーザー定義プログラムは、Trillium バッチ・システム・スクリプトまたは JCL から メタデータをインポートするとウェアハウス・ツリーに追加されます。

データウェアハウスセンターでは、 Vality and Evolutionary Technologies Inc. のツールとの統合が行われています。

22.14.1.1 要件

次の表は、ソフトウェア要件を示しています。
オペレーティング・システム 必須ソフトウェア
UNIX Trillium Software System バージョン 4.0

データウェアハウス・ マネージャー バージョン 7.2 ウェアハウス・エージェント

Windows NT および Windows 2000

Trillium Software System バージョン 4.0

データウェアハウス・ マネージャー バージョン 7.2 ウェアハウス・エージェント

リモート・アクセスの場合、ホストに ftpd および rexecd デーモンを インストールしておく必要があります。

OS/390 リモート OS/390 ホストにインストールされている Trillium Software System バージョン 4.0

UNIX、Windows NT にインストールされているデータウェアハウス・ マネージャー バージョン 7.2 ウェアハウス・エージェント

TCP/IP 3.2 またはそれ以降

OS/390 オペレーティング・システムはリモート・ホストとしてのみサポートされています。

22.14.1.2 Trillium Software System コンポーネント

Trillium Software System は、4 つの主要コンポーネント: コンバーター、 パーサー、ジオコーダー、およびマッチャーで構成されています。 コンポーネントを機能の集合として使用し、名前およびアドレスのクレンジング操作を行います。 コンポーネントは、ユーザー定義プログラムである Trillium バッチ・システムから実行できます。

コンバーター
コンバーターを使用し、ソース・データを標準化して指定の出力形式に変換します。

パーサー
パーサーを使用して、名前およびアドレス・ソース・データを解釈し、 ソース・データについてのメタデータを作成します。

ジオコーダー
ジオコーダーを使用し、ソース・データを郵便サービス・データと比較して、 配達会社や ZIP+4 コードなどの情報で欠落しているものを補充します。 ジオコーダーは、アメリカ合衆国の国勢調査データとの突き合わせ処理も行います。

マッチャー
マッチャーを使用して、似ている名前およびアドレスを比較して重複レコードを調べます。 マッチャーを使用して 1 つのレコードをレコード・グループと比較し、 参照突き合わせを行うことができます。

22.14.1.3 データウェアハウスセンターでの Trillium バッチ・システムの使用

データウェアハウスセンターでは、Trillium バッチ・システム・メタデータを使用して、 ユーザー定義プログラム・ステップを作成できます。 このステップは、ローカル・ウェアハウス・エージェント・サイト、またはリモート・ウェアハウス・ エージェント・サイトで Trillium バッチ・システム・スクリプトを呼び出します。 データウェアハウスセンターでは、Trillium バッチ・システム・スクリプトは ソースおよびターゲット・ファイルを持つステップです。 ソース・ファイルとは、最初の Trillium バッチ・システム・コマンドで使用される 入力データ・ファイルです。 ターゲット・ファイルとは、スクリプトの最後の Trillium コマンドによって作成される 出力データ・ファイルです。 また、ステップを別のプロセスにコピーして、他のステップで使用することができます。

以下のデータは、Trillium バッチ・システムの入力および出力データ・ファイルと データウェアハウスセンターのソースおよびターゲット・ファイルとの関係を示しています。

図 1. サンプル Trillium スクリプト・ファイル

REM Running the converter
pfcondrv -parmfile c:\tril40\us_proj\parms\pfcondrv.par
REM Running the parser
pfprsdrv -parmfile c:\tril40\us_proj\parms\pfprsdrv.par
REM Running the Matcher
cfmatdrv -parmfile c:\tril40\us_proj\parms\pfmatdrv.par
 

図 2. pfcondrv.par ファイルの内容

INP_FNAME01 c:\tril40\us_proj\data\convinp
INP_DDL01   c:\tril40\us_proj\dict\input.ddl
 

図 3. pfmatdrv.par ファイルの内容

OUT_DDNAME  c:\tril40\us_proj\data\maout
DDL_OUT_FNAME  c:\tril40\us_proj\dict\parseout.ddl

図 4. Trillium バッチ・システム・ステップの定義

c:\Tril40\us_proj\data\convinp (ソース・ファイル) -->
Trillium バッチ・システム・ステップ --> c:\tril40\us_proj\data\maout (ターゲット・ファイル)

22.14.1.4 Trillium メタデータのインポート

Trillium メタデータをデータウェアハウスセンターにインポートするには:

  1. Trillium バッチ・システムのスクリプトまたは JCL を作成します。 スクリプトまたは JCL ファイルは、任意のスクリプトまたは JCL 書き込みツールを 使用して作成できます。
  2. ウェアハウスを右クリックし、 「メタデータのインポート」-->「Trillium」をクリックして 「Trillium バッチ・システム」ウィンドウをオープンします。
  3. スクリプトまたは JCL」フィールドに、 実行したい Trillium バッチ・システムのスクリプトまたは JCL ファイルの名前を入力します。
  4. 入力ファイル」フィールドに、指定のスクリプト または JCL ファイルで最初に実行する Trillium バッチ・システム・プログラムの 入力データ・ファイル名を入力します。
  5. 入力 DDL」フィールドに、入力データ・ファイルを記述する 入力 DDL ファイルの名前を入力します。 このファイルは、ウェアハウス・エージェント・サイトに存在していなければなりません。
  6. 出力ファイル」フィールドに、スクリプト または JCL ファイルにある最後の Trillium バッチ・システム・プログラムの 出力データ・データ・ファイル名を入力します。
  7. 出力 DDL」フィールドに、出力データ・ファイルを記述する 出力 DDL ファイルの名前を入力します。 このファイルは、ウェアハウス・エージェント・サイトに存在していなければなりません。
  8. オプション: 「出力エラー・ファイル」フィールドに、 使用したい出力エラー・ファイルの名前を入力します。 このエラー・ファイルは、Trillium バッチ・システム・プログラムからの ランタイム・エラーを取り込みます。 これらのエラーは stderr ログに記録されます。 ローカル・ホストでは、ここで名前を指定しなかった場合、デフォルト出力エラー・ファイルが 作成されます。 出力エラー・ファイルについて詳しくは、 トピック「エラー処理」を参照してください。
  9. 接続」タブをクリックします。
  10. インポートする Trillium メタデータがウェアハウス・エージェント・サイトにある場合、 「ローカル・ホスト」をクリックします。

    インポートする Trillium メタデータがウェアハウス・エージェント・サイトにない場合は、 「リモート・ホスト」をクリックします。 このセクションで後述される「リモート・ホストの指定」を参照してください。

  11. 了解」をクリックして、Trillium メタデータをインポートし、 ノートブックをクローズします。
  12. スクリプトまたは JCL をデフォルト・エージェント・サイトから実行しない場合、 使用するウェアハウス・エージェント・サイトを Trillium バッチ・システム・ステップの 「プロパティー」ノートブックに指定してください。

インポート操作が完了すると、以下のウェアハウス・オブジェクトが ウェアハウス・ツリーに追加されます。

リモート・ホストの指定

リモート・ホストを指定するには:

  1. リモート・ホスト」をクリックして、インポートする メタデータが入っているリモート・システムの TCP/IP ホスト名を入力します。 リモート・ホストを選択した場合、リモート・ターゲット・ファイルがサポートされないため、 ターゲット・ファイルはローカル・ファイルとして作成されます。 リモート・ファイルを取得するための FTP ステップを、指定の ローカル・ターゲット・ファイルに追加できます。
  2. リモート・オペレーティング・システム」リストで、 アクセスするリモート・ホストのオペレーティング・システムをクリックします。
  3. リモート・ユーザー ID」フィールドに、 アクセスするリモート・ホスト用のユーザー ID を入力します。
  4. パスワード・オプション」リストで、アクセスしている リモート・ホストで使用したいパスワード・オプションを選択します。

    パスワード不要
    リモート・ホスト上のメタデータにアクセスするためにパスワードが 必要ないことを指定します。

    パスワードの検索
    パスワードをユーザー定義プログラムから検索することを指定します。

    パスワード・プログラム」フィールドに、 パスワードを検索するパスワード・プログラムの名前を入力します。 プログラムはウェアハウス・エージェント・サイトになければならず、出力ファイルの 最初の行にパスワードを書き込みます。

    プログラム・パラメーター」フィールドに、 パスワード・プログラムのパラメーターを入力します。 最初のパラメーターは、パスワードが書き込まれる出力ファイルにする必要があります。

    パスワードを後で入力
    パスワードを後で入力することを指定します。

    Trillium バッチ・システム・プログラムを実行するステップの 「プロパティー」ノートブックにパスワードを入力します。

22.14.1.5 メタデータのマッピング

ソースおよびターゲット・ファイルのメタデータを作成するため、 Trillium は Trillium DDL ファイルを読み取ります。 DDL ファイルは、以下のデータウェアハウスセンター・データ・タイプに変換されます。
UNIX、Windows NT およびオペレーティング・システムの DDL データ・タイプ ウェアハウス・データ・タイプ
ASCII CHARACTER

ASCII NUMERIC

EBCDIC CHARACTER

EBCIDIC NUMERIC

CHARACTER(n)
その他のタイプ NUMERIC
注:
EBCDIC CHARACTER および EBCIDIC NUMERIC データ・タイプは、 Trillium Software System が OS/390 オペレーティング・システム上で稼働している場合にのみサポートされます。

変数 n はストリング内の文字数です。

22.14.1.6 制約事項

Trillium DDL を持つ入出力 DDL ファイルとデータウェアハウスセンターの メタデータのインポート操作で重複フィールドを指定できます。 ただし、対応するウェアハウス・ソースおよびウェアハウス・ターゲット・ファイルを SQL ステップを 持つデータウェアハウスセンター、またはサンプル・コンテンツで使用することはできません。 メタデータのインポート操作ではレコード全体にわたって重複フィールドが無視されるため、 重複フィールドを指定することができますが、結果のソースおよびターゲット・ファイルでは、 これらのフィールドは列として使用されません。

エラー・ファイルを指定する場合、スクリプトの名前にブランク・スペースを入れることはできません。

22.14.2 Trillium バッチ・システム JCL ファイルの作成

Trillium バッチ・システム JCL ファイルを作成する場合、次の要件が満たされている必要があります。

スクリプトまたは JCL をリモート・ホストで実行するとき、 出力エラー・ファイルを指定する必要があります。 指定しなければ、エラー・メッセージは取り込まれず、データウェアハウスセンターに返されません。 UNIX または Windows において、エラー・メッセージを取り込む最も簡単な方法は、 Trillium バッチ・システム・スクリプトを呼び出す別のスクリプトを作成し、 標準エラー出力を出力ファイルにパイピングする方法です。

図 5. SYSTERM DD ステートメントを含むジョブ・ステップの例

//SYSTERM  DD UNIT=&UNIT,
//            DISP=(MOD,CATLG,KEEP),
//            SPACE=(400,(20,20),,,ROUND),
//            DSN=&PROJPREF.&TRILVER.&PROJECT.STDERR;

22.14.3 UNIX および Windows での Trillium バッチ・システム・スクリプト・ファイルの作成

Trillium バッチ・システム・スクリプトまたはパラメーター・ファイルに 入力ファイルの相対パスが含まれている場合、ユーザーはスクリプト・ファイルの ディレクトリーの cd ステートメントをスクリプト・ファイルの先頭に 入れる必要があります。

22.14.4 Trillium バッチ・システム・ステップの定義

Trillium バッチ・システム・ステップを定義する前に、 プロセスで使用したい Trillium メタデータをインポートする必要があります。 Trillium バッチ・システム・ステップをプロセスに追加するには:

  1. プロセス・モデラーのプロセスをオープンします。
  2. パレットで「Trillium バッチ・システム」アイコンをクリックします。
  3. 「Trillium バッチ・システム・プログラム」--> programName をクリックします。 programName は使用したい Trillium バッチ・システム・プログラムの名前です。
  4. キャンバスでステップを表示したい場所をクリックします。
  5. DB2 ユニバーサル・データベース・ヘルプ 」の トピック「ユーザー定義プログラムを実行するステップの定義」に記述されているステップを行います。

22.14.5 Trillium バッチ・システム・ユーザー定義プログラムの使用

Trillium バッチ・システム・ユーザー定義プログラムは、 DB2 データウェアハウスセンター バージョン 7.2 (Windows および UNIX 版) に含まれています。 Trillium メタデータをインポートすると作成される Trillium バッチ・システム・ステップが、 Trillium バッチ・システム・ユーザー定義プログラムを実行します。 ユーザー定義プログラムは、Trillium バッチ・システム・スクリプトまたは JCL を呼び出します。 次の表は、Trillium バッチ・システム・スクリプトまたは JCL のパラメーターを示しています。


パラメーター
リモート・ホスト
  • localhost がデフォルト値です。 Trillium バッチ・システムがウェアハウス・エージェント・サイトにインストールされている場合、 この値を使用します。
  • Trillium バッチ・システムがリモート・オペレーティング・システムに インストールされている場合、リモート・ホストの名前になります。

スクリプトまたは JCL スクリプトまたは JCL の名前
リモート・オペレーティング・システム リモート・ホストのオペレーティング・システムの名前。 リモート・ホスト・パラメーターが localhost であれば、このパラメーターは無視されます。 有効な値は以下の通りです。
  • OS/390 オペレーティング・システムでは MVS
  • AIX、SUN Solaris、HP-UX、および NUMA/Q オペレーティング・システムでは UNIX
  • Windows NT または 2000 オペレーティング・システムでは WIN
リモート・ユーザー ID リモート・コマンドを実行する権限を持つユーザー ID。 RemotehostName の値が localhost であれば、このパラメーターは無視されます。
パスワード・オプション パスワードを取得するためのメソッド。 有効な値は以下の通りです。

ENTERPASSWORD
パスワードが次のパラメーターに渡される場合、この値を使用します。

PASSWORDNOTREQUIRED
パスワードが必要ない場合、この値を使用します。

GETPASSWORD
プログラム名が次のパラメーターに渡される場合、この値を使用します。

制限事項:

  • プログラムはエージェント・サイトになければならず、パスワードを出力ファイルの 最初の行に書き込み、正常に実行された場合、0 を返します。
  • パスワード・パラメーターの値はパスワード・プログラムの名前でなければなりません。
  • プログラム・パラメーターの値は、二重引用符に囲まれたストリングでなければなりません。
  • ストリング内の最初のパラメーターは、パスワードが書き込まれる出力ファイルの名前でなければなりません。
パスワード 有効な値はパスワードまたはパスワード・プログラム名です。 パスワード・プログラムはウェアハウス・エージェント・サイトに対してローカルでなければなりません。
プログラム・パラメーター パスワード・プログラムのパラメーター。
出力エラー・ファイル 出力エラー・ファイルの名前。
注:
この表にあるパラメーターの データ・タイプはすべて CHARACTER です。

22.14.6 エラー処理

Trillium バッチ・システム・プログラムはエラー・メッセージを、 Windows NT および UNIX オペレーティング・システムでは標準エラー出力 (stderr) ファイルに、 OS/390 オペレーティング・システムでは SYSTERM データ・セットに書き込みます。

Windows NT または UNIX オペレーティング・システム上で Trillium バッチ・システム・プログラムからの エラーを取り込むには、標準エラー出力が出力エラー・ファイルにリダイレクトされていなければなりません。

OS/390 オペレーティング・システム上で Trillium バッチ・システム・プログラムからの エラーを取り込むには、JCL に SYSTERM DD ステートメントが組み込まれていなければなりません。

「メタデータのインポート」ウィンドウで出力エラー・ファイル名を指定した場合、 標準エラー出力をエラー・ファイルにリダイレクトまたは保管する必要があります。 データウェアハウスセンターはそのファイルを読み取り、ストリング ERROR を含む すべての行をエラー・メッセージとして報告します。 すべての Trillium バッチ・システム・プログラム・エラー・メッセージに、 ストリング ERROR が含まれています。

ウェアハウス・エージェント・サイトで実行されているスクリプトまたは JCL に 出力エラー・ファイルが指定されていない場合、データウェアハウスセンターは自動的に、 ファイル名を作成して、標準エラー出力をそのファイルにリダイレクトします。 エラーが見つかった場合、エラー・ファイルは削除されません。 エラー・ファイルは、環境変数 VWS_LOGGING によって指定されているディレクトリーに保管されます。 ファイル名は tbsudp-date- time.err です。 date はファイルが作成されたシステム日付で、 time はファイルが作成されたシステム時刻です。 次のファイル名は出力エラー・ファイル名の形式を示します。

 tbsudp-021501-155606.err

22.14.6.1 エラー戻りコード


エラー番号 説明
0 成功
4 警告。 Trillium バッチ・システム・ユーザー定義プログラムが一時ファイルにアクセス中、 パスワード・ファイルを消去できなかったか、または内部エラーが発生しました。

パスワード・ファイルの状況、または環境変数 VWS_LOGGING によって指定されている ディレクトリーの下に作成されたすべての一時ファイルの状況を調べてください。

8 パラメーターの数または値が正しくありません。 正しい構文については、ログ・ファイルまたは資料を読んでください。
12 Trillium バッチ・システム・ユーザー定義プログラムが FTP 経由で リモート・ホストに接続しようとして問題が発生しました。 FTP 接続、またはホスト名、ユーザー ID、およびパスワードを確認してください。
16 Trillium バッチ・システム・ユーザー定義プログラムがログ または内部ファイルを作成できません。

ユーザーが正しい許可を持っているかどうか、およびディスクが いっぱいでないかどうか確認してください。

20 OS/390 JCL を実行できないか、 または Trillium バッチ・システム・ユーザー定義プログラムが FTP 経由で OS/390 から ファイルを削除または取得しているときにエラーが発生しました。

JESLogFile を参照して、原因を調べてください。

48 環境変数 VWS_LOGGING が見つからないか、 またはログ・ファイルを作成できません。 詳しくは、ログ・ファイルを調べてください。
56 Windows NT または UNIX スクリプトを実行できないか、 または Trillium バッチ・システム・ユーザー定義プログラムがリモート・ホストに 接続しようとしてエラーが発生しました。 接続、またはホスト名、ユーザー ID、およびパスワードを確認してください。
500 スクリプトか JCL ファイルがエラーを返すか、 またはエラーを返さなくてもエラー・ファイルにデータが入っています。 詳しくは、ログ・ファイルを調べてください。 OS/390 の場合、JESLogFile も調べてください。

22.14.6.2 ログ・ファイル

Trillium バッチ・システム・ユーザー定義プログラムが実行されると、 データウェアハウスセンターはすべての診断情報をログ・ファイルに保管します。 ログ・ファイルの名前は tbsudp-date-time.log です。 date はファイルが作成されたシステム日付で、 time はファイルが作成されたシステム時刻です。 ログ・ファイルは、エージェント・サイトの環境変数 VWS_LOGGING によって 指定されているディレクトリーに作成されます。 Trillium バッチ・システム・ユーザー定義プログラムが正常に実行された場合、 ログ・ファイルは削除されます。


[ ページのトップ | 前ページ | 次ページ | 目次 | 索引 ]