Opplæring i Business Intelligence

Leksjon 8. Definere datatransformasjon og -flytting

I denne leksjonen skal du definere hvordan datavarehussenteret skal flytte og transformere dataene til et format for datavarehuset. Først skal du definere en prosess, som består av en rekke trinn i transformasjons- og flytteprosessen. Deretter skal du oppgi kildetabellene som skal transformeres for varehuset. Til slutt skal du definere datatransformasjonstrinn som bruker to forskjellige metoder for tansformasjon:

Rent konkret skal du definere prosessen Opplæringsmarked, som utfører følgende prosesser:

  1. Filen demographics.txt lastes inn i varehusdatabasen.
  2. Data velges fra tabellen GEOGRAPHIES, og en måltabell opprettes.
  3. Dataene i tabellen Demographics og måltabellen GEOGRAPHIES kombineres.

Sluttresultatet er måltabellen LOOKUP_MARKET.


Definere en prosess

I denne øvelsen skal du definere prosessobjektet for prosessen Opplæringsmarked.

Gjør slik:

  1. I vinduet Datavarehussenter utvider du oversikten Emneområder.
  2. Utvid emneområdet TBC-opplæring, som du definerte i Leksjon 5, Definere et emneområde.
  3. Høyreklikk på mappen Prosesser og klikk på Definer.

    Notisboken Definer prosess blir åpnet.

  4. I feltet Navn oppgir du navnet på prosessen:
    Opplæringsmarked
    

    Navnet kan ha opptil 80 tegn, og det skilles mellom store og små bokstaver. Første tegn i navnet må være alfanumerisk. Du kan ikke bruke & som første tegn.Dette feltet er obligatorisk.

  5. I feltet Systemansvarlig skriver du navnet ditt som kontakt for prosessdefinisjonen.
  6. I feltet Beskrivelse gir du en beskrivelse av prosessen:
    Prosess for å opprette tabellen LOOKUP_MARKET
    
  7. Klikk på flippen Sikkerhet.
  8. På listen Tilgjengelige sikkerhetsgrupper klikker du på Varehusgruppe for opplæring, som du definerte i Definere varehusgruppe.

    Når du tilføyer prosesser i sikkerhetsgruppen, lar du brukerne i gruppen (i dette tilfelelt deg) åpne og tilføye objekter i prosessen.

  9. Klikk på >.

    Varehusgruppe for opplæring blir flyttet til listen Valgte sikkerhetsgrupper.

  10. Klikk på OK.

    Notisboken Definer prosess blir lukket.


Åpne prosessen

I denne øvelsen skal du åpne prosessen, slik at du grafisk kan definere strømmen av data i prosessen i neste øvelse.

Slik åpner du prosessen Opplæringsmarked:

  1. Høyreklikk på prosessen Opplæringsmarked.
  2. Klikk på Åpne.

Tilføye tabeller i en prosess

For å definere strømmen av data må du tilføye alle kilder som trinnene transformerer, og måltabellene som er resultatene av transformasjonen.

I prosessen Opplæringsmarked skal du laste filen demographics.txt inn i måldatabasen, så du må tilføye kildefilen og måltabellen DEMOGRAPHICS_TARGET for trinnet i prosessen. Kildefilen demographics.txt er en del av varehuskilden Filkilde for opplæring, som du definerte i Leksjon 6, Definere varehuskilder. Måltabellen DEMOGRAPHICS_TARGET er en del av varehusmålet Opplæringsmål, som du definerte i Leksjon 7, Definere varehusmål.

Slik tilføyer du filen demographics.txt:

  1. Klikk på ikonet Tilføy data:
    Figure alldata not displayed.

    Klikk på lerretet på det punktet der du vil plassere tabellen. Vinduet Tilføy data blir åpnet.

  2. På listen Tilgjengelige kilde- og måltabeller utvider du oversikten Varehuskilder.

    Du får frem en liste over kildene som er definert i varehuset.

  3. Utvid oversikten for varehuskilden Filkilde for opplæring.
  4. Utvid oversikten Filer.

    I oversikten skal du kunne se X:\sqllib\samples\db2sampl\dwc\demographics.txt, der X er stasjonen der du installerte eksempelet.

  5. Velg filen demographics.txt.
  6. Klikk på > for å tilføye filen Demographics på listen Valgte kilde- og måltabeller.

Slik tilføyer du måltabellen DEMOGRAPHICS_TARGET:

  1. På listen Tilgjengelige kilde- og måltabeller utvider du oversikten Varehusmål.

    Du får frem en liste over varehusmålene som er definert i varehuset.

  2. utvid varehusoversikten Opplæringsmål.
  3. Utvid oversikten Tabeller.

    Du skal kunne se måltabellen DEMOGRAPHICS_TARGET på listen.

  4. Velg måltabellen DEMOGRAPHICS_TARGET.
  5. Klikk på > for å tilføye måltabellen DEMOGRAPHICS_TARGET på listen Valgte kilde- og måltabeller.

I neste del av øvelsen må du tilføye kildetabellen GEOGRAPHIES. Når du definerer et trinn som velger data fra tabellen GEOGRAPHIES, kan du oppgi at datavarehussenteret automatisk skal generere en måltabell, slik at du ikke behøver å tilføye en måltabell.

Slik tilføyer du kildetabellen GEOGRAPHIES:

  1. I vinduet Tilføy data velger du tabellen GEOGRAPHIES.
  2. Klikk på > for å tilføye tabellen GEOGRAPHIES på listen Valgte kilde- og måltabeller.
  3. Klikk på OK for å tilføye filen og tabellene som du valgte for prosessen.

    Filen og tabellene som du valgte, blir vist i vinduet Prosessmodell.

Siste trinn vil bruke tabellene Demographics og Geographies som kilder, så du behøver ikke å oppgi kilder for trinnet. Du kan oppgi at datavarehussenteret automatisk skal generere måltabellen, LOOKUP_MARKET, slik at du ikke behøver å oppgi måltabell i neste trinn.


Tilføye trinn i prosessen

Du må tilføye trinnene som definerer hvordan kildedataene skal transformeres til måldata. Du må definere tre trinn:

Last demografidata
Et DB2-programtrinn som laster data fra filen Demographics inn i en tabell i TBS-varehusdatabasen, som du opprettet i Leksjon 2, Opprette en varehusdatabase.

Velg geografidata
Et SQL-trinn som velger kolonner fra kildetabellen Geographies.

Kombiner markedsdata
Et SQL-trinn som kombinerer tabellene Geographies og Demographics og skriver den kombinerte tabellen til databasen Opplæringsvarehus.

Definere trinnet Last demografi

I denne øvelsen skal du definere trinnet Last demografi:

  1. Fra paletten (verktøylinjen til venstre i vinduet) klikker du på ikonet DB2-programmer, som er andre ikon nedenfra:
    Figure db2prog not displayed.

    Hvert programikon representerer en programgruppe, som er en gruppe med liknende programmer.

  2. Klikk på DB2 UDB --> Last inn.

    Programmene i en programgruppe overlapper fra programikonet.

  3. Klikk på det punktet på lerretet (det tomme området til høyre i vinduet) der du vil plassere trinnet.

    Det blir tilføyd et ikon for trinnet i vinduet.

  4. Høyreklikk på trinnet.
  5. Klikk på Egenskaper.

    Notisboken Egenskaper for trinn blir åpnet.

  6. I feltet Navn oppgir du navnet på trinnet:
    Last demografidata
    
  7. I feltet Systemansvarlig skriver du navnet ditt som kontakt for dette trinnet.
  8. I feltet Beskrivelse gir du en beskrivelse av trinnet:
    Last demografidata inn i varehuset
    
  9. Klikk på OK.

    Notisboken Egenskaper for trinn blir lukket.

  10. Klikk på ikonet Oppgaveflyt:
    Figure arrowcol not displayed.
  11. Klikk på ikonet Datalink:
    Figure arrowgry not displayed.

    Du skal bruke ikonet Datalink til å definere flyten av data fra kildefilen, gjennom transformasjon i et trinn, til måltabellen.

  12. Klikk midt på kildefilen Demographics og dra musen til trinnet Last demografidata.

    Datavarehussenteret trekker en linje mellom filen og trinnet.

    Det betyr at kildefilen Demographics inneholder kildedata for trinnet.

  13. Klikk midt på trinnet Last demografidata og dra musen til måltabellen DEMOGRAPHICS_TARGET.


    Forbindelse mellom kildefilen Demographics og trinnet Last demografidata

    Det betyr at måltabellen DEMOGRAPHICS_TARGET inneholder måldata for trinnet.

  14. Høyreklikk på trinnet.
  15. Klikk på Egenskaper.

    Notisboken Egenskaper for trinn blir åpnet.

  16. Klikk på flippen Parametere.
    Siden Parametere i notisboken Egenskaper for trinn
  17. På listen Innlastingsmodus klikker du på INSERT.

    Godta resten av standardverdiene på siden.

    Du kan hoppe over siden Kolonnetilordning, for Last program bruker ikke kolonnetilordningen til å generere måltabellen. Det genererer måltabellen på grunnlag av kildefilen.

  18. Godta standardverdiene på siden Behandlingsvalg.
    Figure db2tu021 not displayed.

    Du finner flere opplysninger om verdiene på denne siden i "Laste data inn i en tabell" i hjelpefunksjonen.

  19. Klikk på OK.

    Notisboken Egenskaper for trinn blir lukket.

Definere trinnet Velg geografidata

I denne øvelsen skal du definere trinnet Velg geografidata:

  1. På paletten klikker du på ikonet SQL:
    Figure sql not displayed.
  2. Klikk på det punktet på lerretet der du vil plassere trinnet.

    Det blir tilføyd et ikon for trinnet i vinduet.

  3. Høyreklikk på trinnet.
  4. Klikk på Egenskaper.

    Notisboken Egenskaper for trinn blir åpnet.

  5. I feltet Navn oppgir du navnet på trinnet:
    Velg geografidata
    
  6. I feltet Systemansvarlig skriver du navnet ditt som kontakt for trinnet.
  7. I feltet Beskrivelse gir du en beskrivelse av trinnet:
    Velg geografidata fra varehuskilden
    
  8. Klikk på OK.

    Notisboken Egenskaper for trinn blir lukket.

  9. Klikk på ikonet Oppgaveflyt:
    Figure arrowcol not displayed.
  10. Klikk på ikonet Datalink:
    Figure arrowgry not displayed.
  11. Klikk midt på kildetabellen Geographies og dra musen til midten av trinnet Velg geografidata.

    Datavarehussenteret trekker en linje som viser at kildetabellen Geographies inneholder kildedata for trinnet.

    Siden du skal oppgi at datavarehussenteret skal opprette måltabellen, behøver du ikke knytte en måltabell til trinnet.

  12. Høyreklikk på trinnet Velg geografidata.
  13. Klikk på Egenskaper.

    Notisboken Egenskaper for trinn blir åpnet.

  14. Klikk på flippen SQL-setning.
  15. Klikk på Bygg SQL for å bygge SQL med veiviseren SQL Assist, som genererer SQL på grunnlag av valgene du gjør i veiviseren.

    SQL Assist blir åpnet.

  16. Klikk på flippen Tabeller.
  17. Kontroller at GEOGRAPHIES står på listen.
    Figure db2tu016 not displayed.
  18. Klikk på flippen Kolonner.
  19. Klikk på >> for å tilføye alle kolonnene fra tabellen Geographies på listen Valgte kolonner.
    Siden Kolonner i veiviseren Bygg SQL
  20. Klikk på flippen Se igjennom for å se på SQL-setningen du nettopp bygget.
  21. Klikk på OK.

    SQL Assist blir lukket.SQL-setningen du nettopp bygget, blir vist på siden SQL-setning.
    Setningen GEOGRAPHIES SELECT på siden SQL-setning

  22. Klikk på Test for å teste SQL-setningen du nettopp genererte.

    Datavarehussenteret returnerer eksempelresultatene av din SELECT-setning. Disse resultatene skulle være de samme som du fikk i Leksjon 3, Se gjennom kildedataene da du så på eksempeldataene for kildetabellen Geographies.

  23. Klikk på Lukk for å lukke vinduet.
  24. Velg Opprett varehusmåltabell basert på parametere.

    Når du velger denne valgruten, angir du at datavarehussenteret skal opprette måltabellen på grunnlag av verdier som er oppgitt på siden Kolonnetilordning.

  25. På listen Varehusmål klikker du på Opplæringsmål.

    Varehusmålet er databasen eller filsystemet der måltabellen skal opprettes.

  26. Klikk på flippen Kolonnetilordning.
  27. Kontroller at kildekolonnene blir konvertert riktig til målkolonner.
    Figure db2tu019 not displayed.
  28. Klikk på flippen Behandlingsvalg.
  29. På listen Type innlegging av data klikker du på Erstatt.
  30. Kontroller at det er merket av i valgruten Kjør ved forespørsel.

    Godta resten av standardverdiene på siden. Du finner flere opplysninger om verdiene på denne siden i hjelpefunksjonen.

  31. Klikk på OK.

    Notisboken Egenskaper for trinn blir lukket. Datavarehussenteret genererer en måltabell kalt "Velg_geogra_T". Navnet på måltabellen står i anførselstegn fordi det inneholder blanding av små og store bokstaver.

  32. Endre navnet på måltabellen:

    1. Høyreklikk på måltabellen "Velg_geograp_T".
    2. Klikk på Egenskaper.

      Notisboken Tabell blir åpnet.

    3. I feltet Tabellskjema skriver du IWH.
    4. I feltet Tabellnavn skriver du navnet på tabellen:
      GEOGRAPHIES_TARGET
      
    5. I feltet Beskrivelse gir du en beskrivelse av tabellen:
      Selvgenerert måltabell for trinnet Velg geografidata.
      
    6. I feltet Navn på virksomhet oppgir du et beskrivende navn for tabellen:
      Geografimål
      
    7. Fjern merket i valgruten Del av et OLAP-skjema.
    8. Klikk på flippen Kolonner for å se på kolonnedefinisjonene.
    9. Klikk på OK.Notisboken Tabell blir lukket.

Definere trinnet Kombiner markedsdata

Slik definerer du trinnet Kombiner markedsdata:

  1. På paletten klikker du på ikonet SQL.
  2. Klikk på det punktet på lerretet der du vil plassere trinnet.

    Det blir tilføyd et ikon for trinnet i vinduet.

  3. Høyreklikk på trinnet.
  4. Klikk på Egenskaper.

    Notisboken Egenskaper for trinn blir åpnet.

  5. I feltet Navn oppgir du navnet på trinnet:
    Kombiner markedsdata
    
  6. I feltet Systemansvarlig skriver du navnet ditt som kontakt for trinnet.
  7. I feltet Beskrivelse gir du en beskrivelse av trinnet:
    Kombinerer geografitabellen med demografitabellen
    
  8. Klikk på OK.

    Notisboken Egenskaper for trinn blir lukket.

  9. Klikk på ikonet Oppgaveflyt:
    Figure arrowcol not displayed.
  10. Klikk på ikonet Datalink:
    Figure arrowgry not displayed.
  11. Klikk midt på tabellen GEOGRAPHIES_TARGET og dra musen til midten av trinnet Kombiner markedsdata. Gjenta dette trinnet med tabellen DEMOGRAPHICS_TARGET og trinnet Kombiner markedsdata.

    Datavarehussenteret trekker en linje som viser at tabellene GEOGRAPHIES_TARGET og DEMOGRAPHICS_TARGET inneholder kildedata for trinnet.

    Siden du skal oppgi at datavarehussenteret skal opprette måltabellen, behøver du ikke knytte en måltabell til trinnet.

  12. Høyreklikk på trinnet Kombiner markedsdata.
  13. Klikk på Egenskaper.

    Notisboken Egenskaper for trinn blir åpnet.

  14. Klikk på flippen SQL-setning.
  15. Klikk på Bygg SQL for å få datavarehussenteret til å generere SQL. (Eller du kan skrive din egen SQL.)

    SQL Assist blir åpnet.

  16. Klikk på flippen Tabeller.
  17. Kontroller at tabellene DEMOGRAPHICS_TARGET og GEOGRAPHIES_TARGET er valgt.
  18. Klikk på flippen Kolonner.
    Setningen GEOGRAPHIES SELECT på siden SQL-setning
  19. Klikk på >> for å tilføye alle kolonnene fra tabellen Geographies og Demographics på listen Valgte kolonner.
  20. På listen Valgte kolonner klikker du på DEMOGRAPHICS_TARGET.STATE.
  21. Klikk på <.

    Kolonnen DEMOGRAPHICS_TARGET.STATE flyttes til listen Tilgjengelige kolonner.

  22. Klikk på DEMOGRAPHICS_TARGET.CITY.
  23. Klikk på <.

    Kolonnen DEMOGRAPHICS_TARGET.CITY flyttes til listen Tilgjengelige kolonner.

  24. Du trenger ikke kolonnene DEMOGRAPHICS_TARGET.STATE og DEMOGRAPHICS_TARGET.CITY, fordi de allerede er definert i tabellen GEOGRAPHIES_TARGET. Du skal kombinere tabellene ved hjelp av kolonnen CITY i begge tabeller, som er unik.

  25. Klikk på Tilføy.

    Vinduet Expression Builder blir åpnet.

  26. I feltet Uttrykk skriver du følgende CASE-setning:
    case
    when POPULATION < 9000000   then 1
    when POPULATION < 15000000  then 2
    Else				 3
    end
    

    Figure db2tu062 not displayed.
  27. Klikk på OK.

    Det blir tilføyd en ny kolonne på listen Valgte kolonner.

  28. Klikk på feltet Navn for den nye kolonnen og skriv navnet på kolonnen:
    SIZE_ID
    
  29. Trykk på Enter.
  30. Klikk på Flytt opp for å flytte kolonnen SIZE_ID over kolonnen POPULATION.
  31. Klikk på flippen Kombineringer.
  32. I tabellen GEOGRAPHIES velger du kolonnen CITY.
  33. I tabellen DEMOGRAPHICS velger du kolonnen CITY.
  34. Klikk på Kombiner.

    SQL Assist trekker en strek mellom CITY-kolonnene, som betyr at tabellene er knyttet sammen med den kolonnen.


    Setningen GEOGRAPHIES SELECT på siden SQL-setning

  35. Klikk på flippen Se igjennom for å se på SQL-setningen du nettopp bygget.
  36. Klikk på OK.

    SQL Assist blir lukket.

  37. Velg Opprett varehusmåltabell basert på parametere.

    Når du velger denne valgruten, angir du at datavarehussenteret skal opprette måltabellen på grunnlag av verdier oppgitt på sidene SQL-setning og Kolonnetilordning.

  38. På listen Varehusmål klikker du på Opplæringsmål.
  39. Klikk på flippen Kolonnetilordning.
  40. Kontroller at kildekolonnene blir konvertert riktig til målkolonner.
  41. Klikk på flippen Behandlingsvalg.
  42. På listen Type innlegging av data klikker du på Erstatt.
  43. Merk av i valgruten Kjør ved forespørsel for å kjøre trinnen ved forespørsel.

    Godta resten av standardverdiene på siden. Du finner flere opplysninger om verdiene på denne siden i hjelpefunksjonen.

  44. Klikk på OK.

    Notisboken Egenskaper for trinn blir lukket.

  45. Endre navnet på måltabellen:

    1. Høyreklikk på måltabellen "Kombiner ma_T".
    2. Klikk på Egenskaper.

      Notisboken Tabell blir åpnet.

    3. I feltet Tabellskjema skriver du IWH.
    4. I feltet Tabellnavn skriver du navnet på tabellen:
      LOOKUP_MARKET
      
    5. I feltet Beskrivelse gir du en beskrivelse av tabellen:
      Data for dimensjonen Market
      
    6. Kontroller at Del av et OLAP-skjema og Dimensjonstabell er valgt.

      Denne tabellen er en av dimensjonstabellene du skal ta med i et stjerneskjema i Leksjon 16, Opprette et stjerneskjema i datavarehussenteret.

    7. Klikk på flippen Kolonner for å se på kolonnedefinisjonene.
    8. Fjern merket i Kan ha nullverdier for kolonnen CITY ID, for du skal definere denne kolonnen som en primærnøkkel for tabellen i Leksjon 11, Definere nøkler på måltabeller
    9. Klikk på OK.Notisboken Tabell blir lukket.

    Figure db2tu042 not displayed.

Hva du har gjort

Du definerte dimensjonstabellen LOOKUP_MARKET i prosessen Opplæringsmarked, som inneholder tre trinn:

Kildene og målene for hvert av trinnene er:
Trinn Kilder Mål
Last demografidata Filen Demographics Tabellen Demografimål
Velg geografidata Tabellen Geographies Tabellen Geografimål
Kombiner markedsdata Tabellene Demografimål og Geografimål Tabellen LOOKUP_MARKET

For denne veiviseren tilføyde du datalinker for hvert trinn mens du definerte egenskapene for hvert trinn. Du kan også gjøre dette ved å tilføye alle trinnene i prosessen samtidig, knytte trinnene til kildene og målene, og deretter definere egenskapene for hvert trinn. Datavarehussenteret tildeler standardnavn til trinn som du endrer i notisboken Trinn.


Definere resten av stjerneskjemaet (valgfritt)

Tabellen du opprettet i forrige del, LOOKUP_MARKET, er en av dimensjonstabellene i eksempelet i Problemstilling. Denne delen omfatter trinnene for bygging av resten av dimensjonstabellene og faktatabellen for stjerneskjemaet.

Denne delen er valgfri, men hvis du ikke fullfører trinnene her, kan du ikke gjøre følgende leksjoner:

Hvis du vil hoppe over denne delen, fortsetter du med Leksjon 9, Teste varehustrinn.

Når du definerer hver tabell, må du definere en ny prosess for tabellen. I stedet for å definere ditt eget trinn for prosessen skal du kopiere trinnet som er definert i eksempelet. Definisjonen av trinnet er i datavarehussenteret du bruker. Når du kopierer trinnet, kopierer datavarehussenteret kildene som trinnet bruker, og genererer en måltabell.

Slik definerer du dimensjonstabellen Product:

  1. Definer en ny prosess etter fremgangsmåten i Definere en prosess. Kall prosessen Opplæringsprodukt.
  2. Fra hovedvinduet til Datavarehussenter utvider du oversikten til du ser prosessen Sample Product.
  3. Høyreklikk på prosessen Sample Product.
  4. Klikk på Åpne.

    Vinduet Prosessmodell blir åpnet.

  5. Høyreklikk på trinnet Select Product.
  6. Klikk på Kopier.

    Du får frem vinduet Kopier trinn.

  7. I feltet Navn skriver du navnet for kopien av trinnet:
    Velg produkt for opplæring
    
  8. I feltet Ny prosess velger du eller skriver navnet på prosessen du vil kopiere trinnet til:
    Opplæringsprodukt
    
  9. Kontroller at Kopier måltabell er valgt.
  10. I feltet Varehusmål velger du Varehusmål fra listen.
    Setningen GEOGRAPHIES SELECT på siden SQL-setning
  11. Klikk på OK.

    Trinnet og kildene kopieres til prosessen Opplæringsprodukt. Datavarehussenteret genererer tilsvarende måltabell.

  12. Åpne prosessen Opplæringsprodukt etter fremgangsmåten i Åpne prosessen.
  13. Kontroller at prosessen inneholder følgende objekter:
  14. Endre navnet på måltabellen TARGET_PRODUCT til LOOKUP_PRODUCT.

Gjenta dette for resten av dimensjonstabellene og faktatabellen.
Dimensjon Opplærings- prosess Sample Process Eksempel- trinn Opplærings- trinn Varehus- mål Kilde- tabeller Måltabell Nytt navn på måltabell
Time Tutorial Time Sample Time Select Time Velg opplæringstid Opplæringsmål TIME
TARGET_
TIME


LOOKUP_
TIME

Scenario Opplæringssituasjon Sample Scenario Select Scenario Velg opplæringssituasjon Opplæringsmål SCENARIO
TARGET
_SCENARIO


LOOKUP_
SCENARIO

Faktatabell Faktatabell for opplæring Sample Fact Table Fact Table Join Tutorial Fact Table Join Opplæringsmål
SALES,
INVENTORY
ogPRODUCT
_COSTS


TARGET_
FACT_
Tabell (TABLE)


FACT_
Tabell (TABLE)


Hva du har gjort

Du har nå fem prosesser og deres tilknyttede kilder, mål og trinn definert i datavarehussenteret:


[ Øverst på siden | Forrige side | Neste side | Innholdsfortegnelse ]