Na Ciência de Dados, as variáveis aleatórias são a chave para desbloquear o poder preditivo dos dados.
O que é uma variável aleatória?
Uma variável aleatória é uma medida de interesse em análise estatística que assume valores em um possível conjunto de observações.
Achou confuso? Imagina que eu peça para você jogar um dado comum de 6 lados e observar qual o valor da face voltada para cima, nós não sabemos o resultado, porém nós sabemos que as possibilidades são os valores de 1 a 6.
Esse valor observado é chamado de variável aleatória.
Para facilitar o entendimento, eu trouxe mais alguns exemplos:
Altura de uma pessoa:
A altura de um adulto é uma variável aleatória dentro de um intervalo de números, levando como parâmetros a menor e maior pessoa do mundo, uma afirmativa razoável é que a altura de uma pessoa está entre 63 e 251 cm.
Conheça a maior e a menor pessoa do mundo.
Temperatura em graus celsius
A temperatura de um local medida em graus celsius também é uma variável aleatória dentro de um intervalo, utilizando os parâmetros de máximo e mínimo registrados na terra, é razoável afirmar que essa variável aleatória assume valores entre -89 a 57 graus centígrados.
Conheça o lugar mais quente e mais frio do mundo.
Além dos exemplos anteriores que são de variáveis quantitativas, também existem variáveis aleatórias que são qualitativas, por exemplo qual será o sexo de um recém nascido (Menino ou Menina) ou qual será a cor dos olhos (Castanhos, Verde ou Azul).
Quais são as categorias das variáveis aleatórias?
As variáveis aleatórias podem ser divididas em um primeiro momento entre quantitativas e qualitativas, que basicamente divide variáveis numéricas e não numéricas. Dentro de cada uma dessas duas categorias, temos mais duas categorias que são hierárquicas as variáveis quantitativas e qualitativas.
Entre as variáveis quantitativas ou numéricas, temos as variáveis aleatórias contínuas e variáveis aleatórias discretas.
Na categoria das variáveis qualitativas, dividimos entre variáveis aleatórias ordinais e variáveis aleatórias nominais.
Variável Quantitativa discreta:
Uma variável quantitativa discreta é aquela que além de numérica, nós conseguimos enumerar os possíveis resultados, isto é, é possível contar os resultados possíveis. Por exemplo, o exemplo de lançamento de dados com 6 lados, os valores possíveis são 1, 2, 3, 4, 5 e 6, qualquer outro valor é impossível.
Variável Quantitativa contínua:
A variável quantitativa contínua é numérica também, mas não conseguimos contar todos os valores que ela pode assumir, isto é, ela assume infinitos valores. Por exemplo, a altura de uma pessoa está em todos os valores possíveis dentro de um intervalo, mas não podemos contar todas as possíveis soluções.
Variável Qualitativa ordinal
Uma variável qualitativa ordinal, é não numérica, porém tem uma ordem pré estabelecida. Por exemplo, o grau de escolaridade é ordinal mas não numérico, sabemos que o ensino superior vem depois do ensino médio, mas não conseguimos calcular a diferença numérica deles.
Variável Qualitativa nominal
Uma variável qualitativa nominal, é não numérica e não tem ordem. Por exemplo, o gênero de uma pessoa pode ser masculino ou feminino, não existe uma ordem entre eles e também não é possível calcular diferenças numéricas.
Como essas quatro categorias (discreta, contínua, ordinal e nominal) são hierárquicas as duas primeiras (quantitativa e qualitativa), é muito comum descrever as variáveis somente com as mesmas.
Medida de centralidade
As medidas de centralidade são indicadores que dão informações sobre a distribuição de probabilidade das variáveis aleatórias, as 2 principais medidas de centralidade são a média e a mediana. Vamos aos exemplos:
Média:
O time de basquete da escola tem em média 1,97 metros de altura, isso significa que a nossa variável aleatória (altura dos jogadores do time) está distribuída em torno de 1,97 metros.
Para calcular a média, basta somar todos os valores e dividir pela quantidade de valores. Por exemplo, levando em conta a amostra (1,3,5,5,7,9), temos que a soma desses valores é 30 e dividido pelo tamanho do conjunto (6 números), a média é igual a 5.
Mediana:
O time de basquete da escola tem mediana de 1,90 metros de altura, isso significa que metade dos jogadores está acima dessa altura e a outra metade abaixo.
Para calcular a mediana, é preciso ordenar todos os valores da amostra, no caso de quantidade ímpar de números na amostra, a mediana será o valor central e no caso de quantidade par na amostra, a mediana é a média dos 2 valores centrais.
Por exemplo, levando em conta a amostra (1,3,5,10,7,9), temos que, como a amostra tem 6 valores, os valores centrais dos valores ordenados são 5 e 7, logo a mediana é 6. Se tivéssemos a seguinte amostra (1,2,5,7,8), a mediana seria 5.
A principal diferença entre as duas medidas, além da forma de calcular, é a sensibilidade a outliers, isto é, um valor muito maior ou muito menor que os demais em uma amostra tem um poder de influência maior para a média do que para a mediana, principalmente em amostras pequenas.
Por exemplo, vamos pegar a amostra (1,6,8,9,76), a média dessa amostra é 20, mas se tirarmos o valor 73 da amostra e calcularmos novamente a média, o valor da média é igual a 6, muito distante da média calculada para o grupo todo.
Para o mesmo exemplo, a mediana encontrada para todos os valores da amostra é 8, se retirarmos o valor 73 novamente da amostra e calculamos novamente a mediana, o valor é igual a 7, bem próxima da mediana para todos os valores da amostra.
Essa influência dos valores outliers na média é inversamente proporcional ao tamanho da amostra, isto é, quanto maior a amostra, menor será a influência dos outliers nas média.
Medida de dispersão
As medidas de dispersão, assim como as de posição, são informações sobre a distribuição das variáveis aleatórias. Elas indicam o quão distantes os valores podem estar da medida central. Vamos aos exemplos:
Desvio Padrão / Variância :
O time de basquete da escola tem em média 1,90 metros de altura e um desvio padrão de 6 centímetros, isso significa que a nossa variável aleatória (altura dos jogadores do time) está entre 1,84 metros e 1,96 metros.
Para calcular o desvio padrão precisamos tirar a raiz quadrada, da soma das diferenças entre cada valor observado e o valor central, elevado ao quadrado. Por exemplo, levando em conta a amostra (1,3,5) temos que a média é 3 e as diferenças elevadas ao quadrado são (4,0,4), a soma desses valores é 8, logo o desvio padrão é raiz quadrada de 8, que é igual a 2,82.
Mínimo e Máximo (Amplitude) :
O time de basquete tem no mínimo 1,81 metros e no máximo 2,03 metros, isso significa que os possíveis valores da variável aleatória (altura dos jogadores do time) estão dentro desse intervalo. Também sabemos que o intervalo tem 22 centímetros de amplitude.
Para calcular a amplitude é muito simples, encontre o valor máximo e mínimo, em seguida calcule a diferença entre eles. Por exemplo, usando (1,3,4,5,7) como amostra, sabemos que o máximo é 7 e o mínimo é 1, logo a amplitude é 6.
Consegui entender perfeitamente todos os conceitos ensinados, muito boa a didática!
ResponderExcluirValeu Gu!
Excluir