O QUE É VARIÁVEL ALEATÓRIA?

Na Ciência de Dados, as variáveis aleatórias são a chave para desbloquear o poder preditivo dos dados.

O que é uma variável aleatória?


Uma variável aleatória é uma medida de interesse em análise estatística que assume valores em um possível conjunto de observações


Achou confuso? Imagina que eu peça para você jogar um dado comum de 6 lados e observar qual o valor da face voltada para cima, nós não sabemos o resultado, porém nós sabemos que as possibilidades são os valores de 1 a 6.



Esse valor observado é chamado de variável aleatória.


Para facilitar o entendimento, eu trouxe mais alguns exemplos:


  • Altura de uma pessoa:


A altura de um adulto é uma variável aleatória dentro de um intervalo de números, levando como parâmetros a menor e maior pessoa do mundo, uma afirmativa razoável é que a altura de uma pessoa está entre 63 e 251 cm.


Conheça a maior e a menor pessoa do mundo.


  • Temperatura em graus celsius


A temperatura de um local medida em graus celsius também é uma variável aleatória dentro de um intervalo, utilizando os parâmetros de máximo e mínimo registrados na terra, é razoável afirmar que essa variável aleatória assume valores entre -89 a 57 graus centígrados.


Conheça o lugar mais quente e mais frio do mundo.


Além dos exemplos anteriores que são de variáveis quantitativas, também existem variáveis aleatórias que são qualitativas, por exemplo qual será o sexo de um recém nascido (Menino ou Menina) ou qual será a cor dos olhos (Castanhos, Verde ou Azul).

Quais são as categorias das variáveis aleatórias?

As variáveis aleatórias podem ser divididas em um primeiro momento entre quantitativas e qualitativas, que basicamente divide variáveis numéricas e não numéricas. Dentro de cada uma dessas duas categorias, temos mais duas categorias que são hierárquicas as variáveis quantitativas e qualitativas.


Entre as variáveis quantitativas ou numéricas, temos as variáveis aleatórias contínuas e variáveis aleatórias discretas.


Na categoria das variáveis qualitativas, dividimos entre variáveis aleatórias ordinais e variáveis aleatórias nominais.


  • Variável Quantitativa discreta:


Uma variável quantitativa discreta é aquela que além de numérica, nós conseguimos enumerar os possíveis resultados, isto é, é possível contar os resultados possíveis. Por exemplo, o exemplo de lançamento de dados com 6 lados, os valores possíveis são 1, 2, 3, 4, 5 e 6, qualquer outro valor é impossível.


  • Variável Quantitativa contínua:


A variável quantitativa contínua é numérica também, mas não conseguimos contar todos os valores que ela pode assumir, isto é, ela assume infinitos valores. Por exemplo, a altura de uma pessoa está em todos os valores possíveis dentro de um intervalo, mas não podemos contar todas as possíveis soluções.


  • Variável Qualitativa ordinal


Uma variável qualitativa ordinal, é não numérica, porém tem uma ordem pré estabelecida. Por exemplo, o grau de escolaridade é ordinal mas não numérico, sabemos que o ensino superior vem depois do ensino médio, mas não conseguimos calcular a diferença numérica deles.


  • Variável Qualitativa nominal


Uma variável qualitativa nominal, é não numérica e não tem ordem. Por exemplo, o gênero de uma pessoa pode ser masculino ou feminino, não existe uma ordem entre eles e também não é possível calcular diferenças numéricas.


Como essas quatro categorias (discreta, contínua, ordinal e nominal) são hierárquicas as duas primeiras (quantitativa e qualitativa), é muito comum descrever as variáveis somente com as mesmas.



Medida de centralidade

As medidas de centralidade são indicadores que dão informações sobre a distribuição de probabilidade das variáveis aleatórias, as 2 principais medidas de centralidade são a média e a mediana. Vamos aos exemplos:


  • Média:

O time de basquete da escola tem em média 1,97 metros de altura, isso significa que a nossa variável aleatória (altura dos jogadores do time) está distribuída em torno de 1,97 metros.


Para calcular a média, basta somar todos os valores e dividir pela quantidade de valores. Por exemplo, levando em conta a amostra (1,3,5,5,7,9), temos que a soma desses valores é 30 e dividido pelo tamanho do conjunto (6 números), a média é igual a 5.


  • Mediana:

O time de basquete da escola tem mediana de 1,90 metros de altura, isso significa que metade dos jogadores está acima dessa altura e a outra metade abaixo.

Para calcular a mediana, é preciso ordenar todos os valores da amostra, no caso de quantidade ímpar de números na amostra, a mediana será o valor central e no caso de quantidade par na amostra, a mediana é a média dos 2 valores centrais. 


Por exemplo, levando em conta a amostra (1,3,5,10,7,9), temos que, como a amostra tem 6 valores, os valores centrais dos valores ordenados são 5 e 7, logo a mediana é 6. Se tivéssemos a seguinte amostra (1,2,5,7,8), a mediana seria 5.


A principal diferença entre as duas medidas, além da forma de calcular,  é a sensibilidade a outliers, isto é, um valor muito maior ou muito menor que os demais em uma amostra tem um poder de influência maior para a média do que para a mediana, principalmente em amostras pequenas.


Por exemplo, vamos pegar a amostra (1,6,8,9,76), a média dessa amostra é 20, mas se tirarmos o valor 73 da amostra e calcularmos novamente a média, o valor da média é igual a 6, muito distante da média calculada para o grupo todo. 


Para o mesmo exemplo, a mediana encontrada para todos os valores da amostra é 8, se retirarmos o valor 73 novamente da amostra e calculamos novamente a mediana, o valor é igual a 7, bem próxima da mediana para todos os valores da amostra.


Essa influência dos valores outliers na média é inversamente proporcional ao tamanho da amostra, isto é, quanto maior a amostra, menor será a influência dos outliers nas média.

Medida de dispersão

As medidas de dispersão, assim como as de posição, são informações sobre a distribuição das variáveis aleatórias. Elas indicam o quão distantes os valores podem estar da medida central. Vamos aos exemplos:


  • Desvio Padrão / Variância :

O time de basquete da escola tem em média 1,90 metros de altura e um desvio padrão de 6 centímetros, isso significa que a nossa variável aleatória (altura dos jogadores do time) está entre 1,84 metros e 1,96 metros.


Para calcular o desvio padrão precisamos tirar a raiz quadrada, da soma das diferenças entre cada valor observado e o valor central, elevado ao quadrado. Por exemplo, levando em conta a amostra (1,3,5) temos que a média é 3 e as diferenças elevadas ao quadrado são (4,0,4), a soma desses valores é 8, logo o desvio padrão é raiz quadrada de 8, que é igual a 2,82.


  • Mínimo e Máximo (Amplitude) :

O time de basquete tem no mínimo 1,81 metros e no máximo 2,03 metros, isso significa que os possíveis valores da variável aleatória (altura dos jogadores do time) estão dentro desse intervalo. Também sabemos que o intervalo tem 22 centímetros de amplitude.


Para calcular a amplitude é muito simples, encontre o valor máximo e mínimo, em seguida calcule a diferença entre eles. Por exemplo, usando (1,3,4,5,7) como amostra, sabemos que o máximo é 7 e o mínimo é 1, logo a amplitude é 6.







Comentários

Postar um comentário