Centro de Data Warehouse Guia de Administração

Correlação transformador

Use o transformador Correlação para determinar em que extensão as alterações do valor de um atributo (tal como a duração no emprego) estão associadas às alterações de um outro atributo (tal como salário). Os dados para uma análise de correlação consistem em duas colunas de entrada. Cada coluna contém valores para um dos atributos de interesse. O transformador Correlação pode calcular várias medidas de associação entre as duas colunas de entrada. Você pode selecionar mais de uma estatística para calcular um determinado par de colunas de entrada.

Os dados nas colunas de entrada também podem ser tratados como uma amostra obtida de uma população maior e o transformador de Correlação pode ser usado para testar se os atributos estão correlacionados na população. Nesse contexto, a hipótese nula afirma que os dois atributos não estão correlacionados e a hipótese alternativa afirma que eles estão correlacionados.

O transformador Correlação calcula qualquer uma das estatísticas relacionadas à correlação em um ou mais pares de colunas:

Coeficiente de correlação r
O coeficiente de correlação r é uma medida da relação linear entre dois atributos ou colunas de dados. O coeficiente de correlação também é conhecido como o coeficiente de correlação produto momentâneo do Pearson. O valor de r pode ir de -1 a +1 e é independente das unidades de medida. Um valor de r próximo de 0 indica uma correlação pequena entre os atributos; um valor próximo de +1 ou -1 indica um alto nível de correlação.

Quando dois atributos têm um coeficiente de correlação, um aumento no valor de um atributo indica um aumento provável no valor do segundo atributo. Um coeficiente de correlação menor do que 0 indica uma correlação negativa. Quando um atributo mostra um aumento de valor, o outro atributo tende a mostrar uma redução.

Considere duas variáveis x e y:

Covariância
A covariância é uma medida de relação linear entre dois atributos ou colunas de dados. O valor da covariância pode variar de -infinito a +infinito. Contudo, se o valor da covariância for muito pequeno ou muito grande para ser representado por um número, o valor será representado pelo NULL.

Diferente do coeficiente de correlação, a covariância é dependente das unidades de medida. Por exemplo, a medida dos valores de dois atributos em polegadas e não em pés aumenta a covariância por um fator de 144.

Valor T
O valor T é o valor observado da estatística T utilizada para testar a hipótese de que dois atributos estão correlacionados. O valor T pode variar entre -infinito e +infinito. Um valor T próximo de 0 é a evidência para a hipótese nula de que não existe correlação entre os atributos. Um valor T distante de 0 (seja positivo ou negativo) é a evidência para a hipótese alternativa de que existe correlação entre os atributos.

A definição da estatística T é:

T = r * SQRT((n-2) / (1 - r*r))

em que r é o coeficiente de correlação, n é o número de pares de valores de entrada e SQRT é a função da raiz quadrada.

Se o coeficiente de correlação r for -1 ou +1, o valor T será representado por NULL. Se o valor T for muito pequeno ou muito grande para ser representado por um número, o valor será representado pelo NULL.

Valor P
O valor P é a probabilidade, quando a hipótese nula é verdadeira, de que o valor absoluto da estatística T seria igual ou excederia o valor observado (valor T). Um valor P pequeno é a evidência de que a hipótese nula é falsa e de que os atributos estão, na verdade, correlacionados.

As tabelas de origem e de destino devem estar presentes no banco de dados warehouse. Esse transformador pode criar uma tabela de destino no mesmo banco de dados warehouse que contém a origem, se você quiser. Você pode fazer alterações na etapa somente quando ela estiver no modo de desenvolvimento.


Figure db2db046 not displayed.

Para definir uma etapa do transformador de Correlação:

  1. Abra o bloco de notas da etapa.
  2. Especifique as informações gerais do transformador. Para obter mais informações, consulte o manual Fornecendo informações gerais sobre uma etapa.
  3. Clique na guia Parâmetros.


    Figure db2db047 not displayed.

  4. Opcional: Clique em colunas a serem usadas como colunas de agrupamento e clique em >. As colunas de agrupamento podem conter caracteres ou dados numéricos.
  5. Defina as estatísticas de correlação:
    1. Clique com o botão direito em algum lugar da tabela de definição do Transformador e clique em Incluir. Uma linha é incluída na tabela.
    2. No título Coluna de Dados 1 na linha que acabou de incluir, clique e selecione a primeira coluna para o cálculo. Somente colunas do tipo numérico são listadas.
    3. No título Coluna de Dados 2, clique e selecione a segunda coluna para o cálculo. Somente colunas do tipo numérico são listadas. Você não pode usar a mesma coluna na Coluna de Dados 2 que usa na Coluna de Dados 1.
    4. Dê um clique duplo no título Estatísticas da linha que acabou de criar. O botão ... ficará disponível.
    5. Clique no botão .... A janela Correlação - Selecionar Estatísticas é aberta.
    6. Clique em uma ou mais estatísticas da lista Estatísticas disponíveis. Em seguida, clique em >. As estatísticas são movidas para a lista Estatísticas selecionadas.
    7. Repita as etapas de 5a a 5f, conforme apropriado.
    8. Clique em OK. A janela Correlação - Selecionar Estatísticas é fechada.

      O transformador Correlação suporta dados parciais. Por exemplo, se você selecionar uma coluna para definir estatísticas, mas não selecionar as estatísticas para ela, o transformador Correlação salvará a seleção da coluna. No entanto, você não pode mapear colunas de uma linha que tem uma seleção de dados parcial, nem pode executar com sucesso uma etapa que tem uma seleção de dados parcial.

  6. Na página Mapeamento de Coluna, mapeie as colunas resultantes das estatísticas de correlação até as colunas em sua tabela de destino.

    Os nomes de colunas para as estatísticas de correlação são baseados nas entradas da coluna de dados selecionada na página Parâmetros e na estatística selecionada para ela. Uma coluna é criada para cada estatística selecionada e suas colunas de dados correspondentes. Por exemplo, se suas colunas de dados, Salary e Employment, tiverem as estatísticas de correlação Covariance e T-value definidas, as colunas Covariance_Salary_Employment e T-value_Salary_Employment serão exibidas na página Mapeamentos de Coluna. As colunas de saída são listadas à esquerda da página, sob o título Colunas de Origem. As colunas de destino da tabela de saída ligada à etapa são listadas no lado direito da página. Use a página Mapeamento de Coluna para executar as seguintes tarefas:

    Se a coluna de destino for mapeada para uma coluna de origem, o mapeamento permanecerá intacto. Se a página Parâmetros não produzir nenhuma coluna de saída, ou se esta etapa não estiver ligada a uma tabela de destino e você não tiver especificado a geração automática de uma tabela padrão na página Parâmetros, não será possível usar esta página para mapear suas colunas. Algumas etapas não permitirão a alteração do mapeamento de coluna.

  7. Na página Opções de Processamento, forneça informações sobre como a etapa processa. Para obter mais informações, consulte o manual Definindo as opções de processamento.
  8. Clique em OK para salvar suas alterações e fechar o bloco de notas etapa.


[ Início da Página | Página Anterior | Próxima Página | Índice | Índice Remissivo ]