Centro de Data Warehouse Guia de Administração
Use o transformador Correlação para determinar em que extensão as
alterações do valor de um atributo (tal como a duração no emprego) estão
associadas às alterações de um outro atributo (tal como salário). Os
dados para uma análise de correlação consistem em duas colunas de
entrada. Cada coluna contém valores para um dos atributos de
interesse. O transformador Correlação pode calcular várias medidas de
associação entre as duas colunas de entrada. Você pode selecionar mais
de uma estatística para calcular um determinado par de colunas de
entrada.
Os dados nas colunas de entrada também podem ser tratados como uma amostra
obtida de uma população maior e o transformador de Correlação pode ser usado
para testar se os atributos estão correlacionados na população. Nesse
contexto, a hipótese nula afirma que os dois atributos não estão
correlacionados e a hipótese alternativa afirma que eles estão
correlacionados.
O transformador Correlação calcula qualquer uma das estatísticas
relacionadas à correlação em um ou mais pares de colunas:
- Coeficiente de correlação r
- O coeficiente de correlação r é uma medida da relação linear
entre dois atributos ou colunas de dados. O coeficiente de correlação
também é conhecido como o coeficiente de correlação produto momentâneo do
Pearson. O valor de r pode ir de -1 a +1 e é independente das
unidades de medida. Um valor de r próximo de 0 indica uma
correlação pequena entre os atributos; um valor próximo de +1 ou -1
indica um alto nível de correlação.
Quando dois atributos têm um coeficiente de correlação, um aumento no valor
de um atributo indica um aumento provável no valor do segundo atributo.
Um coeficiente de correlação menor do que 0 indica uma correlação
negativa. Quando um atributo mostra um aumento de valor, o outro
atributo tende a mostrar uma redução.
Considere duas variáveis x e y:
- Se r = 1, então x e y estarão perfeita e positivamente
correlacionados. Os valores possíveis de x e y todos
se situam em uma linha reta com uma inclinação positiva no plano (x,
y).
- Se r = 0, x e y não estarão correlacionados. Eles
não têm uma relação linear aparente. Entretanto, isso não significa que
x e y são estatisticamente independentes.
- Se r = -1, x e y estarão perfeita e negativamente
correlacionados. Os valores possíveis de x e y todos
se situam em uma linha reta com uma inclinação negativa no plano (x,
y).
- Covariância
- A covariância é uma medida de relação linear entre dois atributos ou
colunas de dados. O valor da covariância pode variar de -infinito
a +infinito. Contudo, se o valor da covariância for muito pequeno ou
muito grande para ser representado por um número, o valor será representado
pelo NULL.
Diferente do coeficiente de correlação, a covariância é dependente das
unidades de medida. Por exemplo, a medida dos valores de dois atributos
em polegadas e não em pés aumenta a covariância por um fator de 144.
- Valor T
- O valor T é o valor observado da estatística T utilizada para testar a
hipótese de que dois atributos estão correlacionados. O valor T pode
variar entre -infinito e +infinito. Um valor T próximo de 0 é a
evidência para a hipótese nula de que não existe correlação entre os
atributos. Um valor T distante de 0 (seja positivo ou negativo) é a
evidência para a hipótese alternativa de que existe correlação entre os
atributos.
A definição da estatística T é:
T = r * SQRT((n-2) / (1 - r*r))
em que r é o coeficiente de correlação, n é o número de
pares de valores de entrada e SQRT é a função da raiz quadrada.
Se o coeficiente de correlação r for -1 ou +1, o valor T será
representado por NULL. Se o valor T for muito pequeno ou muito grande
para ser representado por um número, o valor será representado pelo
NULL.
- Valor P
- O valor P é a probabilidade, quando a hipótese nula é verdadeira, de que o
valor absoluto da estatística T seria igual ou excederia o valor observado
(valor T). Um valor P pequeno é a evidência de que a hipótese nula é
falsa e de que os atributos estão, na verdade, correlacionados.
As tabelas de origem e de destino devem estar presentes no banco de dados
warehouse. Esse transformador pode criar uma tabela de destino no mesmo
banco de dados warehouse que contém a origem, se você quiser. Você pode
fazer alterações na etapa somente quando ela estiver no modo de
desenvolvimento.

Para definir uma etapa do transformador de Correlação:
- Abra o bloco de notas da etapa.
- Especifique as informações gerais do transformador. Para obter mais
informações, consulte o manual Fornecendo informações gerais sobre uma etapa.
- Clique na guia Parâmetros.

- Opcional: Clique em colunas a serem usadas como colunas de
agrupamento e clique em >. As colunas de agrupamento
podem conter caracteres ou dados numéricos.
- Defina as estatísticas de correlação:
- Clique com o botão direito em algum lugar da tabela de definição do
Transformador e clique em Incluir. Uma linha é incluída na
tabela.
- No título Coluna de Dados 1 na linha que acabou de incluir,
clique e selecione a primeira coluna para o cálculo. Somente colunas do
tipo numérico são listadas.
- No título Coluna de Dados 2, clique e selecione a segunda
coluna para o cálculo. Somente colunas do tipo numérico são
listadas. Você não pode usar a mesma coluna na Coluna de Dados 2 que
usa na Coluna de Dados 1.
- Dê um clique duplo no título Estatísticas da linha que acabou
de criar. O botão ... ficará
disponível.
- Clique no botão .... A janela
Correlação - Selecionar Estatísticas é aberta.
- Clique em uma ou mais estatísticas da lista Estatísticas
disponíveis. Em seguida, clique em >. As
estatísticas são movidas para a lista Estatísticas
selecionadas.
- Repita as etapas de 5a a 5f, conforme apropriado.
- Clique em OK. A janela Correlação - Selecionar
Estatísticas é fechada.
O transformador Correlação suporta dados parciais. Por exemplo, se
você selecionar uma coluna para definir estatísticas, mas não selecionar as
estatísticas para ela, o transformador Correlação salvará a seleção da
coluna. No entanto, você não pode mapear colunas de uma linha que tem
uma seleção de dados parcial, nem pode executar com sucesso uma etapa que tem
uma seleção de dados parcial.
- Na página Mapeamento de Coluna, mapeie as colunas resultantes das
estatísticas de correlação até as colunas em sua tabela de destino.
Os nomes de colunas para as estatísticas de correlação são baseados nas
entradas da coluna de dados selecionada na página Parâmetros e na estatística
selecionada para ela. Uma coluna é criada para cada estatística
selecionada e suas colunas de dados correspondentes. Por exemplo, se
suas colunas de dados, Salary e Employment, tiverem as estatísticas de
correlação Covariance e T-value definidas, as colunas
Covariance_Salary_Employment e T-value_Salary_Employment serão exibidas na
página Mapeamentos de Coluna. As colunas de saída são listadas à
esquerda da página, sob o título Colunas de Origem. As
colunas de destino da tabela de saída ligada à etapa são listadas no lado
direito da página. Use a página Mapeamento de Coluna para executar as
seguintes tarefas:
- Para criar um mapeamento, clique em uma coluna de origem e arraste-a para
uma coluna de destino. Uma seta será desenhada entre a coluna de origem
e a coluna de destino.
- Para excluir um mapeamento, clique com o botão direito em uma seta e
clique em Excluir. Se a tabela de saída não for usada por
nenhuma das etapas que estão no modo de teste ou produção, você poderá alterar
os atributos da coluna de destino.
- Para renomear uma coluna de destino, dê um clique duplo no nome da coluna
e digite o novo nome. Você também pode modificar qualquer outro
atributo da coluna de destino com um clique duplo no atributo.
Se a coluna de destino for mapeada para uma coluna de origem, o
mapeamento permanecerá intacto. Se a página Parâmetros não produzir
nenhuma coluna de saída, ou se esta etapa não estiver ligada a uma tabela de
destino e você não tiver especificado a geração automática de uma tabela
padrão na página Parâmetros, não será possível usar esta página para mapear
suas colunas. Algumas etapas não permitirão a alteração do mapeamento
de coluna.
- Na página Opções de Processamento, forneça informações sobre como a etapa
processa. Para obter mais informações, consulte o manual Definindo as opções de processamento.
- Clique em OK para salvar suas alterações e fechar o bloco de
notas etapa.
[ Início da Página | Página Anterior | Próxima Página | Índice | Índice Remissivo ]