0% acharam este documento útil (0 voto)
37 visualizações28 páginas

Intro Data Analysis

O documento apresenta conceitos básicos de estatística, incluindo estatística descritiva, inferência estatística, variáveis, medidas de tendência central, medidas de dispersão e relações entre variáveis. É introduzida a distinção entre população, amostra e parâmetro, assim como os tipos de variáveis e medidas como média, mediana, moda, variância e desvio padrão.

Enviado por

Gabriel Araújo
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
37 visualizações28 páginas

Intro Data Analysis

O documento apresenta conceitos básicos de estatística, incluindo estatística descritiva, inferência estatística, variáveis, medidas de tendência central, medidas de dispersão e relações entre variáveis. É introduzida a distinção entre população, amostra e parâmetro, assim como os tipos de variáveis e medidas como média, mediana, moda, variância e desvio padrão.

Enviado por

Gabriel Araújo
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
Você está na página 1/ 28

Estatística

Widemberg S. Nobre
Professor Adjunto

UFRJ

20 de outubro de 2023

1/20
Estatística

▶ O uso de dados como forma de apresentar e tirar conclusões sobre


problemas de interesse

⇒ Estatística descritiva: se preocupa com a organização e apresentação


dos dados observados (tabelas, gráficos, medidas descritivas como
média e variância...)

⇒ Inferência estatística: se preocupa de como dar informação sobre um


universo (população) a partir de um conjunto de dados observados
(amostra)

2/20
Conceitos básicos
▶ População: conjunto de todos os elementos sob investigação.
Usaremos a letra N o número total de elementos populacionais.

▶ Amostra: qualquer subconjunto da população. O número de elementos


da amostra será denotado pela letra n

▶ Parâmetro: qualquer característica numérica de uma da população de


interesse.

Exemplo: Mercado de trabalho


▶ População: Pessoas com 14 anos ou mais aptas a trabalhar

▶ Amostra: conjunto de 1000 pessoas entrevistadas

▶ Parâmetro: Número de pessoas entrevistadas Trabalhando


3/20
Conceitos Básicos
Às características populacionais de interesse daremos o nome de variáveis.
Existem 4 tipos gerais de variáveis:
▶ Quantitativa: as características de interesse possuem natureza
numérica
▶ Discreta: característica enumerável (número de reações químicas num intervalo
de tempo)
▶ Contínua: característica não-enumerável (tempo até a primeira reação química)

▶ Qualitativa: as características de interesse são divididas em categorias


▶ Nominal: categorias não ordenadas (gênero, etnia, etc)
▶ Ordinal: categorias ordenadas (grau de instrução)

4/20
Conceitos Básicos
Às características populacionais de interesse daremos o nome de variáveis.
Existem 4 tipos gerais de variáveis:
▶ Quantitativa: as características de interesse possuem natureza
numérica
▶ Discreta: característica enumerável (número de reações químicas num intervalo
de tempo)
▶ Contínua: característica não-enumerável (tempo até a primeira reação química)

▶ Qualitativa: as características de interesse são divididas em categorias


▶ Nominal: categorias não ordenadas (gênero, etnia, etc)
▶ Ordinal: categorias ordenadas (grau de instrução)

▶ É natural imaginar que o tratamento de dados deve depender do tipo


de variável em estudo.
Análise exploratória de dados
Dados brutos são inerentes a ambiguidades. Logo, faz-se necessário
resumir a informação presente nos dados. Podemos sumarizar informação
através de estruturas visuais e de medidas resumo.
As formas básicas de visualização são:
▶ Visualização tabelar
▶ Visualização gráfica

As medidas resumo são separadas em:


▶ Medidas de tendência central/pontual (média, mediana, moda,
quantis)
▶ Medidas de dispersão (variância, desvio padrão, distância
interquartílica)
5/20
Análise exploratória de dados

Algumas medidas importantes para a nossa discussão.


▶ Frequência absoluta: número de vezes que cada valor é observado
▶ Frequência relativa: numero de vezes que cada valor é observado
dividido pelo tamanho da amostra
▶ Frequência acumulada: soma das frequências absolutas dos valores
inferiores ou iguais ao valor dado

6/20
Exemplo: dados quantitativos

Pesquisa realizada em 20 domicílios do RJ, com o objetivo de contabilizar


o número de filhos por família
dados observados: 0, 1, 0, 1, 2, 1, 0, 0, 1, 0, 1, 4, 2, 1, 3, 1, 2, 1, 1, 1
n° de filhos Frequência absoluta Freq. relativa Freq. acumulada
0 5 5/20 5
1 10 10/20 15
2 3 3/20 18
3 1 1/20 19
4 1 1/20 20

7/20
Medidas de Tendência Central
Como o próprio nome sugere, as medidas de tendência central/pontual são
aquelas que resumem dados através de pontos.
▶ Média Aritmética: dados os valores x1 , x2 , · · · , xn , definimos

1 n
X̄ = ∑ xi
n i=1

▶ Mediana: dados os valores x1 , x2 , · · · , xn , sejam x(1) , x(2) , · · · , x(n) os


mesmos valores ordenados de forma não-crescente. Definimos a
mediana Q2 como crescente

x([n+1]/2) , se n é ímpar
Q2 = x(n/2) + x(n/2+1)
2 , se n é par

▶ Moda: é o valor que ocorre com maior frequência


8/20
Medidas de Dispersão
As medidas de centralidades podem ser insuficientes para caracterizar
e/ou comparar bases de dados. Neste contexto, introduzimos as medidas
de dispersão, as quais indicam o grau de espalhamento dos dados.
Suponha os valores observados x1 , x2 , · · · , xn .
▶ Variância amostral:
1 n
s2 = ∑ (xi − x̄)2
n i=1
▶ Desvio padrão amostral:
s
p 1 n
s = s2 = ∑ (xi − x̄)2
n i=1
▶ Coeficiente de variação amostral:
s
cv =
x̄ 9/20
Quartis
Os quartis são valores que dividem os dados em 4 partes com a mesma
certas proporções de
proporção de dados.
Sejam x(1) , x(2) , · · · , x(n) os ordenados em ordem crescente. Define-se:
▶ Primeiro quartil Q1 : valor que possui 25% dos dados observados
menores ou iguais a ele, e 75% dos dados observados maiores ou iguais
a ele
▶ Segundo quartil Q2 (mediana): valor que possui 50% dos dados
observados menores ou iguais a ele, e 50% dos dados observados
maiores ou iguais a ele
▶ Terceiro quartil Q3 : valor que possui 75% dos dados observados
menores ou iguais a ele, e 25% dos dados observados maiores ou iguais
a ele
A distância interquartílica (DIQ) é definida como: DIQ= Q3 − Q1 .
10/20
Exemplo
dados observados: 0, 1, 0, 1, 2, 1, 0, 0, 1, 0, 1, 4, 2, 1, 3, 1, 2, 1, 1, 1
▶ Calcule média, mediana, moda, variância amostral, desvio padrão
amostral, o coeficiente de variação amostral e a distância interquatílica
dos dados acima

11/20
Exemplo
dados observados: 0, 1, 0, 1, 2, 1, 0, 0, 1, 0, 1, 4, 2, 1, 3, 1, 2, 1, 1, 1
▶ Calcule média, mediana, moda, variância amostral, desvio padrão
amostral, o coeficiente de variação amostral e a distância interquatílica
dos dados acima
▶ Como ficaria o cálculo se usamos a tabela de frequência abaixo?

n° de filhos Frequência absoluta Freq. relativa Freq. acumulada


0 5 5/20 5
1 10 10/20 15
2 3 3/20 18
3 1 1/20 19
4 1 1/20 20

11/20
Relação entre variáveis

Na grande maioria dos problemas, desejamos investigar relações entre duas


ou mais variáveis.
Essas relações podem ser de dois tipos:

▶ Relação de Associação

▶ Relação de Causalidade

12/20
Relação entre variáveis

Exemplo: Paradoxo de Simpson


▶ Suponha a existência de uma nova doença para a qual existem dois
possíveis tratamentos: A e B. Suponha que seu trabalho seja decidir
qual tratamento utilizar. Assuma ainda que a métrica para tomada de
decisão é a minimização do número de mortes. Uma problemática
presente nos dados é que o tratamento B é mais escasso que o
tratamento A.
Relação entre variáveis

Exemplo: Paradoxo de Simpson


Considere que as informações disponíveis, são:
▶ O que acontece com o individuo que segue um dos tratamentos
▶ Condição da doença: grave ou leve
▶ O tratamento que foi atribuído
Relação entre variáveis

Exemplo: Paradoxo de Sympson


Em um levantamento inicial, obteve-se os seguintes resultados
Taxa de mortalidade
Tratamento A 16% (240/1500)
Tratamento B 19% (105/550)

▶ Com base nesses resultados iniciais, qual o melhor tratamento?


Relação entre variáveis

Exemplo: Paradoxo de Sympson


Em um levantamento inicial, obteve-se os seguintes resultados
Taxa de mortalidade
Tratamento A 16% (240/1500)
Tratamento B 19% (105/550)

▶ Com base nesses resultados iniciais, qual o melhor tratamento?


▶ Tratamento A? Precisamos de novas informações?
Relação entre variáveis

Exemplo: Paradoxo de Simpson


Adicionando a informação sobre a condição da doença, temos
Taxa de mortalidade Total
Leve Grave
Tratamento A 15% (210/1400) 30% (30/100) 16% (240/1500)
Tratamento B 10% (5/50) 20% (100/500) 19% (105/550)

▶ E agora, qual o melhor tratamento?

16/20
Relação entre variáveis

Exemplo: Paradoxo de Simpson


Adicionando a informação sobre a condição da doença, temos
Taxa de mortalidade Total
Leve Grave
Tratamento A 15% (210/1400) 30% (30/100) 16% (240/1500)
Tratamento B 10% (5/50) 20% (100/500) 19% (105/550)

▶ E agora, qual o melhor tratamento?


▶ Seria o Tratamento B?
Relação entre variáveis

Exemplo: Paradoxo de Simpson


Adicionando a informação sobre a condição da doença, temos
Taxa de mortalidade Total
Leve Grave
Tratamento A 15% (210/1400) 30% (30/100) 16% (240/1500)
Tratamento B 10% (5/50) 20% (100/500) 19% (105/550)

▶ E agora, qual o melhor tratamento?


▶ Seria o Tratamento B? Ainda precisamos de mais informações?
Relação entre variáveis

Exemplo: Paradoxo de Simpson


Vamos analisar os dados com calma. Pelo que discutimos dos dados,
podemos tirar duas informações:
▶ O tratamento parece ter impacto na taxa de mortalidade
▶ A condição da doença também parece ter impacto na taxa de
mortalidade

17/20
Relação entre variáveis

Exemplo: Paradoxo de Sympson


O ponto chave dessa análise é que não temos informação quanto a relação
entre as variáveis tratamento e condição da doença

18/20
Relação entre variáveis

Exemplo: Paradoxo de Sympson


O ponto chave dessa análise é que não temos informação quanto a relação
entre as variáveis tratamento e condição da doença
Caso 1 Se a condição da doença impactasse a atribuição do tratamento, qual
seria a melhor escolha?

18/20
Relação entre variáveis

Exemplo: Paradoxo de Sympson


O ponto chave dessa análise é que não temos informação quanto a relação
entre as variáveis tratamento e condição da doença
Caso 1 Se a condição da doença impactasse a atribuição do tratamento, qual
seria a melhor escolha?
Caso 2 Se a condição da doença for impactada pela atribuição do tratamento,
qual seria a melhor escolha?

18/20
Relação entre variáveis

Exemplo: Paradoxo de Sympson


O ponto chave dessa análise é que não temos informação quanto a relação
entre as variáveis tratamento e condição da doença
Caso 1 Se a condição da doença impactasse a atribuição do tratamento, qual
seria a melhor escolha?
Caso 2 Se a condição da doença for impactada pela atribuição do tratamento,
qual seria a melhor escolha?
Caso 3 Se a condição da doença não tivesse qualquer relação com a atribuição
do tratamento, qual seria a melhor escolha?

18/20
Coeficiente de Correlação amostral (variáveis
quantitativas)
Sejam X e Y duas variáveis que desejamos estudar as relações entre elas.
Assim, introduzimos o coeficiente de correlação amostral
Definição
Sejam x1 , x2 , · · · , xn uma amostra aleatória. O coeficiente de correlação
amostral é definido como:
sxy
Cor(X , Y ) = ,
sx sy
em que
1 n
sxy = ∑ xi yi − x̄ ȳ .
n − 1 i=1
Observação: sxy é denominado coeficiente de covariância amostral. As
quantidades s e s representam os desvios padrões de X e Y , 19/20
Coeficiente de Correlação amostral (variáveis
quantitativas)
▶ O coeficiente de correlação é adimensional
▶ Cor(X , Y ) é um número no intervalo [−1, 1].
▶ Quão mais próximo de −1 ou 1 estiver esse valor, maior é a relação linear entre
as variáveis.
▶ Quão mais próximo de 0 estiver esse valor, menor é a relação linear entre as
variáveis.

▶ Cor(X , Y ) mede um tipo específico de dependência, chamada


dependência linear.

Nota: Correlação não implica causalidade.


20/20

Você também pode gostar

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy