APOSTILA de Bioestatistica
APOSTILA de Bioestatistica
2019
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
CONTEÚDO I
ANÁLISE EXPLORATÓRIA DE DADOS:
∑x
i =1
i → Soma simples → x1 + x2 + x3 + ... + xn
∑x
i =1
2
i → Soma de quadrados → x12 + x 22 + ... + x n2
2
n
∑ xi → Quadrado da soma → (x1 + x2 + ... + xn)2
i =1
n
n n
∑x ∑y
i =1
i
i =1
i → Produto das somas → (x1 + x2 + ... + xn) (y1 + y2 + ... + yn)
n
A expressão ∑x
i =1
i é lida da seguinte maneira: Somatório ou soma de x índice i, com i
variando de 1 até n.
A finalidade do índice i é indicar a ordem de cada parcela/termo da soma. O número
inferior indica a ordem da primeira parcela e o superior da última parcela. São também
chamados de limite inferior e limite superior, respectivamente.
1
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
EXERCÍCIO PROPOSTO
6
b) ∑X
i =1
i
2
2
6
c) ∑ X i
i =1
6
d) ∑ (X Y )
i =1
i i
6 6
e) ∑ X i . ∑ Yi
i =1 i =1
EXERCÍCIO COMPLEMENTAR
1 – Considere os dados:
i fi Xi
1 3 10
2 5 11
3 9 15
4 10 19
5 2 21
6 1 26
Calcular os seguintes somatórios:
2
6
6
∑ fi X i
∑(f X ) −
2 i =1
6 i i 6
6 6 6 ∑( f X ) i i
i =1
∑f i
a) ∑X i b) ∑ f i c) ∑ ( f i X i
2
) d) i =1
6
e) 6
i =1
i =1 i =1 i =1
∑ i =1
fi ∑f
i =1
i −1
Gabarito
a) 102 b) 30 c) 8.098 d) 15,93 e) 16,62
2
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
1 – INTRODUÇÃO
A estatística é uma ciência de obtenção de informações a partir de dados numéricos.
Ela é entendida como a matemática aplicada a dados observados, fornecendo métodos para
geração, coleta, organização, descrição, análise e interpretação dos dados. O estudo estatístico
tem se revelado essencial no mundo moderno. Ao verificar os diferentes meios de
comunicação (internet, rádio, televisão, jornais e revistas) evidencia-se a relevância da
estatística para a sociedade.
A estatística faz parte do cotidiano de cada cidadão. Ela se mostra imprescindível para
a tomada de decisões, para a resolução de problemas e, principalmente, para a pesquisa
científica. Seu objetivo é proporcionar conhecimentos a partir de dados. Na estatística os
dados não são apenas números, mas sim números com um contexto, tornando-os
informativos. É fundamental conhecer a origem dos dados, contextualizando-os com as
questões a serem solucionadas. Devido à automatização na resolução de cálculos, bem como
na construção de gráficos e tabelas, o mais relevante que podemos obter de um estudo
estatístico é a compreensão de ideias e a interpretação dos resultados.
Vejamos algumas situações onde a estatística se torna foco central:
Na pesquisa eleitoral, quando os percentuais de intenção de votos de cada candidato
são divulgados;
Na pesquisa médica, quando se anuncia os benefícios de um novo medicamento;
Na pesquisa de opinião pública sobre um novo produto lançado no mercado;
Na divulgação de vítimas (mortos, feridos e desabrigados) por sinistros naturais;
Na avaliação do desempenho de determinado setor econômico;
2 – DEFINIÇÕES
População: é o conjunto constituído por todos os indivíduos (ou objetos) que
apresentam pelo menos uma variável/característica comum, cujo comportamento tem-
se interesse em analisar.
Amostra: é definida como um subconjunto da população, ou seja, uma parte dos
indivíduos (ou dos objetos) da população, por meio da qual se faz inferência (tomada
de decisões/conclusões) sobre as características da população. Uma amostra tem que
ser representativa, ou seja, apresentar comportamento característico similar ao da
população.
Variável: é uma característica qualquer do objeto em estudo. Pode ser classificada
como:
3
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
Variável Qualitativa: É uma variável que assume como possíveis “valores” atributos
ou qualidades do objeto em estudo. São, portanto, por natureza, dados não numéricos.
Variáveis Qualitativas denotam características individuais das unidades sob análise,
tais como: sexo; estado civil; naturalidade; raça; grau de instrução; etc. Classificação
da Variável Qualitativa:
i) Variável Qualitativa Nominal: quando não existe nenhuma ordenação em
suas realizações. Exemplos: cor dos olhos; sexo; tipo sanguíneo; etc.
ii) Variável Qualitativa Ordinal: quando existe uma ordenação em suas
realizações. Exemplos: nível de escolaridade; estágio da doença; classificação em
concurso; etc.
Variável Quantitativa: É uma variável que assume como possíveis valores números,
resultantes de uma contagem ou mensuração. Ou seja, são variáveis que assumem
valores em uma escala métrica definida por uma origem e uma unidade, por exemplo:
idade; salário; peso; etc. Classificação da Variável Quantitativa:
i) Variável Quantitativa Discreta: quando assume um número finito ou infinito
enumerável de valores. Exemplos: número de filhos por casal; quantidade de leitos em
um hospital; número de acidentes em uma rodovia em determinado período; etc.
ii) Variável Quantitativa Contínua: quando assume um número infinito de
valores, em geral, em intervalos de números reais. Exemplos: medidas de altura e de
peso; taxa de glicose; nível de colesterol; etc.
Dados: são as informações inerentes às variáveis que caracterizam os elementos
(unidades de observação) que constituem a população ou a amostra em estudo. Os
dados obtidos em pesquisas devem ser analisados e interpretados com auxílio de
métodos estatísticos. Inicialmente deve-se fazer uma análise descritiva, que consiste
em organizar e descrever os dados, identificando medidas de posição e de dispersão.
Rol: é a classificação dos dados (valores numéricos) em ordem crescente, o que
facilita a verificação da composição do conjunto de dados, identificando o maior e o
menor valor, além de elementos que podem se repetir. Por exemplo, considere o Rol
de 40 valores (em decibéis) do nível de ruído do tráfego de automóveis:
58,0 59,5 59,5 60,2 60,2 60,2 60,2 62,5 62,5 62,5
62,5 62,5 65,0 65,0 65,0 65,0 65,0 65,0 65,0 65,0
66,4 66,4 66,4 66,4 66,4 66,4 66,4 67,0 67,0 67,0
67,0 67,0 67,0 68,3 68,3 68,3 68,3 70,1 70,1 71,9
4
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
5
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
6
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
7
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
8
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
Este gráfico (Polígono de Frequência Acumulada) pode ser utilizado para fornecer
informações adicionais. Por exemplo, para saber o valor correspondente X de uma
determinada frequência acumulada conhecida.
X + X 2 + ... + X n ∑X i
X= 1 = i =1
n n
9
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
Se os valores de X1, X2, ..., Xn ocorrem com respectivas frequências (pesos) fi (pi), tem-
se a Média Aritmética Ponderada, definida por:
n
f1 X 1 + f 2 X 2 + ... + f n X n ∑f X
i =1
i i
Xp= =
f1 + f 2 + ... + f n n
∑f i =1
i
4.2 Moda
A moda (Mo) de um conjunto de dados/observações é o valor/atributo que ocorre com
maior frequência. É uma medida que pode ser calculada para quaisquer tipos de dados:
Variáveis Quantitativas e Qualitativas. De acordo com o comportamento da série estatística
de dados podemos ter: Série Amodal; Série Unimodal; Série Bimodal; ...; Série Multimodal.
EX1: {1, 2, 3, 4, 5} O conjunto não tem moda (Amodal);
EX2: {1, 2, 2, 2, 3, 4} Mo = 2 (Unimodal);
EX3: {1, 1, 2, 3, 4, 4, 5, 5} Mo = 1, 4 e 5 (Trimodal ou Multimodal).
10
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
4.3 Mediana
A mediana (Md) é definida como sendo à medida que ocupa a posição central de uma
série de observações, estando os dados ordenados (Rol) segundo suas grandezas. A mediana é
o valor abaixo ou acima do qual se tem a metade dos dados/observações, isto é, 50% dos
dados estão abaixo e 50% estão acima do valor da mediana.
Primeiramente deve-se identificar a posição do elemento mediano em um conjunto de
dados (n) em Rol para, posteriormente, verifica-se qual é o respectivo valor da mediana.
Caso em que o número de dados (n) é ímpar:
PMd = X n +1
2
P − f aai
Md = Linf . + h
fi
11
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
em que:
n
P = posição do elemento mediano P = ;
2
Linf. = limite inferior da classe mediana;
faai = frequência acumulada da classe anterior a classe mediana;
fi = frequência da classe mediana;
h = amplitude da classe mediana.
4.4.1 Quartil
Os Quartis dividem o conjunto de dados em quatro partes do mesmo tamanho. O
primeiro quartil (Q1) deixa um quarto das observações abaixo e três quartos acima. O segundo
quartil (Q2 = Md) deixa metade dos valores abaixo e metade dos valores acima. Já o terceiro
quartil (Q3) deixa três quartos dos valores abaixo e um quarto acima.
Esquema dos Quartis:
12
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
i.n
PQi = posição do elemento do Quartil i PQi = ;
4
Linf. = limite inferior da classe do Quartil i;
faai = frequência acumulada da classe anterior a classe do Quartil i;
fi = frequência da classe do Quartil i;
h = amplitude da classe do Quartil i.
4.4.2 Decil
Os Decis dividem o conjunto de dados em dez partes do mesmo tamanho. Esquema
dos Decis:
4.4.3 Percentil
Os Percentis dividem o conjunto de dados em cem (100) partes do mesmo tamanho.
Esquema dos Percentis:
13
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
5.1 Variância
A variância mede a dispersão dos valores em torno da média, sendo representada por
^
Var, s2 ou σ 2 . Ela é dada pela soma dos quadrados dos desvios em relação à média
aritmética dividido por (n – 1) graus de liberdade (g.l.), ou seja:
2
n
n n
∑ Xi
∑ ( X i − X ) 2 ∑ X i2 − i =1
SQD n
Var = s2 = = i =1 = i =1
n −1 n −1 n −1
Se os valores X1, X2, ..., Xn estiverem associados as frequências f1, f2, ..., fn, a variância
é definida por:
14
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
2
n
n
∑ fi X i
∑ f i X i2 − n
i =1
2
i =1
∑ fi
i =1
s = n
∑f
i =1
i −1
DP = s = Var = s 2
15
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
6 – MEDIDA DE ASSIMETRIA
A medida de Assimetria é um indicador da distribuição dos dados, sendo definida pelo
Coeficiente de Assimetria de Pearson (As):
X − Mo
As =
DP
De acordo com essa estatística (As) a distribuição pode ser classificada como:
Simétrica → As = 0;
Assimétrica Negativa (ou à esquerda) → As < 0;
Assimétrica Positiva (ou à direita) → As > 0.
Essas classificações podem ser assim esquematizadas:
7 – ANÁLISE BIDIMENSIONAL
Aprendemos a organizar e resumir informações pertencentes a uma única variável (ou
único conjunto de dados). Entretanto, frequentemente há interesse em analisar o
comportamento simultâneo de duas ou mais variáveis (quantitativas e/ou qualitativas).
16
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
A linha dos totais fornece a distribuição da variável sexo, ao passo que a coluna dos
totais fornece a distribuição da variável nível de atividade física. As distribuições assim
obtidas são chamadas de Distribuições Marginais das Variáveis Sexo e Nível de Atividade
Física.
O Coeficiente de Contingência é uma medida que quantifica a associação entre duas
variáveis, sendo bastante utilizado quando se tem duas variáveis qualitativas, embora também
possa ser aplicado no caso de variáveis quantitativas agrupadas em intervalos de classe.
Inicialmente, obtêm-se as diferenças entre os valores observados (oij) na pesquisa e os valores
esperados (eij). Essas diferenças são chamadas de desvios [d = (oij - eij)]. A estatística Qui-
Quadrado ( χ 2 ) leva em consideração esses desvios, sendo definida pela expressão:
(oij − eij )2
χ2 = ∑ ∑j e
i ij
Os valores esperados em cada célula da tabela de contingência podem ser
determinados por:
eij =
(Total da linha i )x(Total da coluna j)
(Total geral)
De acordo com Pearson, o Coeficiente de Contingência (C) proposto é definido:
χ2
C= ,
χ2 +n
em que:
n é o número total de observações.
O Coeficiente de Contingência (C) acima descrito pode variar entre 0 e 1, sendo que a
proximidade de zero (0) indica falta de associação entre as variáveis, ao passo que sua
proximidade de um (1) torne-se um indicativo de alta associação entre as variáveis.
17
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
Xi (Peso) X1 X2 X3 .......... Xn
Yi (Altura) Y1 Y2 Y3 .......... Yn
n ∑ X i ∑ Yi
^
Cov( X , Y ) SPXY ∑X Y
i =1
i i − i =1
n
i =1
rxy = ρ xy = … Cov(X,Y) = =
Var ( X ).Var (Y ) n −1 n −1
18
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
EXERCÍCIOS PROPOSTOS
19
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
h) Coeficiente de Variação;
i) Erro Padrão da Média;
j) Nota acima da qual se encontram 60% dos dados;
k) O percentual de alunos que obtiveram nota superior a 7,50;
l) Coeficiente de Assimetria.
5 – Sete clones de cacau foram avaliados para Número Total de Frutos Colhidos (NTFC) e
Número Total de Frutos Sadios (NTFS). Determinar o Coeficiente de Correlação (r) entre as
variáveis NTFC e NTFS.
Clones CAB443 CAB444 CAB447 CAB450 CAB452 CAB453 CAB454
NTFC (X) 92,00 75,40 60,40 100,60 46,20 97,60 42,00
NTFS (Y) 66,40 44,80 41,40 82,40 33,40 77,60 29,40
20
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
EXERCÍCIOS COMPLEMENTARES
1 – Considere os dados: {12; 17; 17; 17; 10; 10; 9; 9; 9; 12; 12; 6; 6; 6; 17; 17; 12; 12; 9; 9; 9;
12; 12; 12; 12}. Determinar:
a) Tabela de Distribuição de Frequências;
b) Média, Mediana e Moda;
c) Erro padrão da média e Coeficiente de variação;
d) Considere que os dados foram obtidos incorretamente. As medidas apresentam erros
de modo que todos os valores da série tenham que ser multiplicados por um fator de
correção igual a 1,1. Corrigindo o suposto erro, qual seria o novo valor da média, do
erro padrão da média e do coeficiente de variação?
e) Coeficiente de Assimetria.
3 – Uma prova consta de três questões com pesos (Pi) iguais a 1, 2 e 3, para as notas (Xi) da
1ª, 2ª e 3ª questão, respectivamente (i = 1, 2, 3). Considerar o intervalo de valores de zero a
dez em cada questão. Determinado aluno obteve nota oito (8) na prova. Qual nota ele
conseguiu na 1ª questão, sabendo que na 2ª questão obteve nota seis (6) e na 3ª nota nove (9)?
21
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
5 – Um caminhão cujo peso vazio é de 3.200 kg será carregado com 470 caixas de 11 kg
cada, 360 caixas de 9 kg cada, 500 caixas de 4 kg cada e 750 caixas de 6 kg cada. O motorista
do caminhão pesa 75 kg e a lona de cobertura da carga pesa 48 kg.
a) Sabendo-se que este caminhão tem que passar por uma balança que só permite a
passagem de veículos com peso máximo de 16 toneladas, pergunta-se: Ele passará
pela balança? JUSTIFICAR;
b) Qual o peso médio das caixas carregadas no caminhão?
22
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
23
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
Determinar:
a) Média, Mediana e Moda;
b) Variância, Desvio Padrão e Coeficiente de Variação;
c) 1º Quartil, 2º Decil e 30º Percentil;
d) Valor acima do qual se encontram 60% dos dados;
e) Curtose.
12 – Cem (100) animais foram divididos em dois grupos: 1º grupo com 56 animais e 2º grupo
com 44 animais. No primeiro grupo, que foi vacinado contra determinada doença, 47 animais
não adoeceram. No segundo grupo, que não recebeu a vacina, 28 animais não adoeceram.
a) Construir a Tabela de Contingência;
b) Calcular o Coeficiente de Contingência.
24
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
Gabarito
1 – b) X = 11,4 Md = 12 Mo = 12
c) s( X ) = 0,6904 CV(%) = 30,285%
d) X = 12,54 s( X ) = 0,7594 CV(%) = 30,285%
e) – 0,1738
2–
X Mo Md s2 s s( X ) CV(%)
a) 4,0 3e6 4,0 3,333 1,825 0,689 45,62%
b) 5,25 3e8 5,0 8,5 2,915 1,030 55,52%
c) 87,333 Amodal 87,0 17,466 4,179 1,706 4,78%
3–9
4 – a) 150
b) 300
c) 1,8
d) 11 ; 1,8 ; 16,36%
5 – a) Não
b) 7,17 kg
7 – a) {38 ; 40 ; 44 ; 45 ; 45 ; 46 ; 49 ; 49 ; 49}
b) Mo = 49
c) Md = 45
d) s2 = 15,5
e) s = 3,937
f) CV(%) = 8,748%
25
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
8–
Peso (X) Comprimento (Y)
a) X 20,58 kg 101,3 cm
b) Md 20,35 kg 102,5 cm
c) Mo 19,00 kg 100; 104 e 105 cm
d) s2 14,2973 kg2 17,7889 cm2
e) s 3,7812 kg 4,2177 cm
f) s( X ) 1,1957 kg 1,3338 cm
g) CV(%) 18,37% 4,16%
h) Comprimento
i) rxy = 0,7710
10 – Turma B
12 – b) C = 0,226
26
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
CONTEÚDO II
PROBABILIDADE
1 – INTRODUÇÃO E DEFINIÇÕES
A teoria da probabilidade representa um instrumento para a construção e análise de
modelos matemáticos relacionados a fenômenos aleatórios. Ao estudarmos um fenômeno
aleatório estamos diante de um experimento cujo resultado não pode ser determinado, mas
sim ter o seu comportamento probabilístico.
27
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
28
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
fA = 0 ↔ nA = 0
Se A ∩ B = Ø, então fAUB = fA + fB
2 – TEOREMAS DE PROBABILIDADE
Teorema 4 → Sejam “A”, “B” e “C” três Eventos Quaisquer associados ao mesmo
experimento aleatório, então:
P(A U B U C) = P(A) + P(B) + P(C) – P(A ∩ B) – P(A ∩ C) – P(B ∩ C) + P(A ∩ B ∩ C)
29
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
3 – INDEPENDÊNCIA DE EVENTOS
Sejam “A” e “B” dois eventos quaisquer, associados ao mesmo experimento aleatório.
Dizemos que “A” e “B” são dois Eventos Independentes se for válida a igualdade:
P(A ∩ B) = P(A) x P(B)
Supondo a presença de três eventos quaisquer “A”, “B” e “C”. Eles serão
independentes se, e somente se, forem válidas as seguintes condições:
i) P(A ∩ B) = P(A) x P(B)
P(A ∩ C) = P(A) x P(C)
P(B ∩ C) = P(B) x P(C)
ii) P(A ∩ B ∩ C) = P(A) x P(B) x P(C)
4 – PROBABILIDADE CONDICIONAL
Sejam “A” e “B” dois eventos quaisquer, associados ao mesmo experimento aleatório.
A probabilidade do evento “A” ocorrer uma vez que o evento “B” tenha ocorrido, ou seja, a
Probabilidade Condicional de “A” dado que “B” ocorreu, é definida por:
P( A ∩ B)
P(A/B) = , para P(B) > 0
P ( B)
(Lê-se: Probabilidade Condicional de “A” dado que “B” ocorreu)
OBS: Quando P(B) = 0 tem-se que P(A/B) = 0.
30
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
EXERCÍCIOS PROPOSTOS
1 – De acordo com o experimento de cada alínea defina seu espaço amostral (S):
a) Lançamento de uma moeda duas vezes;
b) Jogar um dado e observar sua face superior;
c) Uma fábrica produz determinado artigo. Da linha de produção são retirados três
artigos, cada qual classificado como Bom (B) ou Defeituoso (D).
3 – Um lote é formado por dez artigos bons, quatro com defeitos menores e dois com defeitos
graves. Um artigo é escolhido ao acaso. Calcular a probabilidade de que:
a) Ele não tenha defeitos;
b) Ele não tenha defeitos graves;
c) Ele seja perfeito ou tenha defeitos graves.
5 – Sejam A, B e C três eventos associados ao mesmo espaço amostral. Sabe-se que P(A) =
P(B) = 1/3; P(C) = 1/4; P(A ∩ B) = 1/8; P(A ∩ C) = P(B ∩ C) = 1/9 e P(A ∩ B ∩ C) = 1/20.
Calcular as seguintes probabilidades:
a) De um evento “X”, que consiste na realização de pelo menos um dos eventos A, B ou
C;
b) Os eventos A, B e C são independentes?
c) Os eventos A, B e C são mutuamente exclusivos?
31
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
Determinar:
a) A probabilidade de o aluno estar matriculado em Matemática Pura (MP);
b) A probabilidade de o aluno ser do sexo feminino;
c) Dado que o aluno escolhido ao acaso esteja matriculado no curso de Estatística (E),
qual a probabilidade de ser do sexo feminino;
d) Sabendo que uma aluna foi escolhida, qual a probabilidade dela estar matriculada no
curso de Estatística (E).
32
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
EXERCÍCIOS COMPLEMENTARES
1 – Defina e dê exemplo:
a) Espaço Amostral;
b) Evento;
c) Evento Mutuamente Exclusivo;
d) Evento Não Mutuamente Exclusivo;
e) Evento Independente;
f) Evento Dependente.
33
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
e) Estatística ou Química?
7 – Jogam-se dois dados. Se as duas faces mostram números diferentes, qual a probabilidade
de que uma das faces seja o 4?
10 – Uma urna contém cinco bolas pretas, três vermelhas e duas brancas. Foram extraídas três
bolas com reposição. Qual a probabilidade de terem sido duas bolas pretas e uma vermelha?
11 – Uma caixa A contém oito peças, das quais três são defeituosas. Uma outra caixa B
contém cinco peças, das quais duas são defeituosas. Uma peça é retirada aleatoriamente de
cada caixa.
a) Qual a probabilidade “p” de ambas as peças não serem defeituosas?
b) Qual a probabilidade “p” de que uma peça seja defeituosa e a outra não?
12 – Uma urna contém 12 bolas: cinco brancas, quatro vermelhas e três pretas. Outra urna
contém 18 bolas: cinco brancas, seis vermelhas e sete pretas. Uma bola é retirada de cada
urna. Qual a probabilidade de que as duas bolas sejam da mesma cor?
34
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
Gabarito
2 – a) 1/36
b)1/4
c) 5/12
3 – a) 7/8
b)1/4
c) 3/8
4 – a) 0,01
b) 0,81
c) 0,19
5 – a) 1/3
b) 4/15
c) 1/10
d)1/2
e)1/2
6 – a) 223/360
b) 137/360
7 – 1/3
8 – 1/4
10 – 9/40
11 – a) 3/8
b) 19/40
12 – 35/108
35
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
CONTEÚDO III
VARIÁVEIS ALEATÓRIAS
1 – INTRODUÇÃO E CONCEITOS
Variável Aleatória (v.a.) é toda e qualquer variável associada a uma probabilidade, isto
é, os seus valores estão relacionados a um experimento aleatório.
Exemplo: Ao jogar uma moeda duas vezes, o espaço amostral associado a este
experimento aleatório será: S = { Ca Ca ; Ca Co ; Co Ca ; Co Co}.
Podemos considerar, por exemplo, uma variável aleatória “X”, que pode ser
representada pelo número de caras na face superior da moeda. Temos então uma função
definida no espaço amostral, que será denominada variável aleatória, sendo designada, em
geral, por uma letra maiúscula (X, Y, Z, ...).:
Espaço Amostral (S) Variável Aleatória (X)
Ca Ca 2
Ca Co 1
Co Ca 1
Co Co 0
Uma variável aleatória pode ser classificada como Variável Aleatória Discreta (v.a.d.)
ou Variável Aleatória Contínua (v.a.c.).
36
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
OBS: Ressaltar que a v.a.d. X que segue Distribuição Binomial pode assumir os valores:
X = {0 ; 1 ; 2 ; 3 ; ... ; n}
37
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
38
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
Probabilidade. Para obter a área de interesse sob a Curva da Normal Padrão utiliza-se a
Variável Normal Padronizada (Z):
X −µ
Z= ,
σ
em que:
Z = Valor da Variável Normal Padronizada (valores tabelados);
X = Valor específico assumido pela v.a.c. X;
µ = Média da v.a.c. X;
σ = Desvio Padrão da v.a.c. X.
Notação da Variável Normal Padronizada (Z): Z ∼ N (µ ; σ2) → Z ∼ N (0 ; 1).
EXERCÍCIOS PROPOSTOS
1 – Um produtor de sementes afirma que 80% das sementes produzidas por determinado
genótipo germinam. Você planta cinco destas sementes compradas deste produtor. Qual a
probabilidade de:
a) Exatamente duas sementes germinarem;
b) Exatamente duas sementes não germinarem;
c) Pelo menos duas sementes germinarem;
d) Suponha que 100 pessoas estejam em situação análoga a sua, isto é, cada uma plantou
cinco destas sementes. Para quantas pessoas espera-se que exatamente duas sementes
germinem?
2 – Entre 2.000 famílias com quatro crianças cada, quantas famílias são esperadas que
apresentem:
a) Pelo menos um menino;
b) Exatamente uma menina.
3 – Calcular:
a) P(Z ≤ 1,82);
b) P(Z ≤ - 2,03);
c) P(- 2,55 ≤ Z ≤ 1,20);
d) P(Z ≥ 1,93).
39
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
4 – Seja X uma v.a.c. normalmente distribuída com média 850 e desvio padrão 48.
Determinar:
a) P(X < 790);
b) P(X > 940);
c) P(760 < X < 920).
5 – Em determinada região, a altura das pessoas apresenta distribuição normal com desvio
padrão de 8 cm e tal que 20% da população é constituída de pessoas com menos de 168 cm de
altura. Calcular o percentual de pessoas com altura:
a) Superior a 190 cm;
b) Entre 170 e 185 cm.
EXERCÍCIOS COMPLEMENTARES
2 – Considere a amostragem de 3 peças que saem de uma linha de produção. Sabe-se que
desta linha de produção 20% das peças são defeituosas. Calcular as probabilidades:
a) De duas peças serem defeituosas;
b) De duas peças não serem defeituosas;
c) Quantas peças defeituosas são esperadas em uma amostragem de 500 peças?
3 – Sabe-se que 24% dos indivíduos que recebem determinado medicamento sofrem certos
efeitos colaterais. Se este medicamento for ministrado a quatro pacientes, qual a probabilidade
de:
a) Nenhum sofrer efeitos colaterais;
b) Pelo menos um sofrer efeitos colaterais;
c) Três não sofrerem efeitos colaterais.
40
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
4 – Em uma prova com 10 questões de múltipla escolha, cada uma com 5 alternativas e
somente uma correta, pede-se:
a) Em média, quantas questões acerta um aluno que marca todas as questões inteiramente
ao acaso?
b) Qual a probabilidade do aluno acertar 5 questões?
6 – Dada uma distribuição normal com µ = 100 e σ = 10. Determinar a probabilidade de que:
a) X > 75;
b) 75 < X < 85;
c) X > 112;
d) X < 80 ou X > 110;
e) X < 80 e X > 110;
f) X < 90 e X > 80;
g) Considere que 80% dos dados estejam entre dois valores X1 e X2 (simetricamente
distribuídos em torno da média). Encontrar os dois valores;
h) Considere que 70% dos dados estejam abaixo de determinado valor X. Encontrar o
valor de X.
7 – As notas de uma prova são normalmente distribuídas com média 73 e variância 225. Os
15% melhores alunos recebem o conceito A e os 11,9% piores alunos recebem o conceito R
(Reprovado). Pede-se:
a) Nota mínima para receber o conceito A?
b) Nota mínima para ser aprovado?
c) P(X ≥ 55,3).
8 – A obtenção dos pesos X, de um grande número de espigas de milho, mostrou que essa
variável é normalmente distribuída com média µ = 120g e desvio padrão σ = 10g. Em um
programa de melhoramento genético da cultura do milho, entre outras características, uma
linhagem deve satisfazer à condição 112g < X < 140g. Em um programa envolvendo 450
41
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
linhagens, qual deve ser o número provável de linhagens que atende a essa condição (112g <
X < 140g)?
10 – Em indivíduos sadios, o consumo renal de oxigênio tem distribuição normal com média
12 cm3/min e desvio padrão 1,5 cm3/min. Determinar:
a) O percentual de indivíduos sadios com consumo inferior a 10 cm3/min;
b) O percentual de indivíduos sadios com consumo superior a 8 cm3/min;
c) O percentual de indivíduos sadios com consumo entre 9,4 e 13,2 cm3/min;
d) O valor do consumo renal que é superado por 98,5% dos indivíduos sadios.
Gabarito
1 – a) 625/3888 b) 3125/3888 c) 763/3888
4 – a) 2 b) 0,0264
5 – a) 12 b) 3
8 – 345
9 – a) 16,52 b) 2.486
42
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
CONTEÚDO IV
INFERÊNCIA ESTATÍSTICA
1 – INTRODUÇÃO
Ao retirar uma amostra aleatória de uma população e calcularmos a partir desta
amostra qualquer quantidade (medidas descritivas numéricas), encontramos estatísticas, ou
seja, chamaremos os valores calculados em função dos elementos da amostra de estatísticas.
As estatísticas, sendo variáveis aleatórias, terão alguma distribuição de probabilidade,
com uma média, uma variância, etc. A distribuição de probabilidade de uma estatística é
denominada de Distribuição Amostral.
A Inferência Estatística tem por objetivo fazer generalização sobre uma população
com base em dados de uma amostra. As populações são caracterizadas por medidas
descritivas numéricas chamadas de parâmetros. Muitas pesquisas tem por objetivo fazer
inferência a respeito de um ou mais parâmetros da população. Essa inferência pode ser por
meio de um único valor numérico (estimação por ponto), por uma amplitude de valores
numéricos (estimação por intervalo) ou pelo simples “sim” ou “não” (teste de hipótese).
A estimação por ponto utiliza a informação da amostra para chegar a um único valor
numérico ou ponto, que estima o parâmetro de interesse (parâmetro populacional). Ex: Média,
Variância, Coeficiente de Variação, etc.
A estimação por intervalo utiliza a informação da amostra para chegar a dois números,
entre os quais se espera encontrar o parâmetro de interesse. Caso este intervalo esteja
associado a uma probabilidade “1 – α”, tem-se um intervalo de confiança com coeficiente de
confiabilidade (c) de “1 – α”.
2 – CONCEITOS
População: é o conjunto de todos os elementos sobre os quais desejamos desenvolver
determinado estudo;
Amostra: é uma parte dos elementos da população, ou seja, qualquer subconjunto da
população;
Parâmetro: é uma medida utilizada para descrever uma característica da população;
Estatística: é uma medida utilizada para descrever uma característica da amostra, ou
seja, uma estatística T é uma função de X1, X2, X3, ..., Xn → T = f (X1, X2, X3, ..., Xn);
43
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
Estimador: é qualquer estatística T = f (X1, X2, X3, ..., Xn) utilizada para estimar uma
quantia desconhecida. Em geral, ele é representado por uma determinada fórmula;
Estimativa: é o valor numérico assumido pelo estimador quando os valores observados
(X1, X2, X3, ..., Xn) são considerados.
44
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
EXERCÍCIOS PROPOSTOS
1 – Uma Variável Aleatória X apresenta Distribuição Normal, com média 100 e desvio padrão
10. Determinar:
a) P (95 < X < 105); Considerando X a média de uma amostra de 25 elementos.
b) O tamanho (n) que deveria ter a amostra para que P (90 < X < 110) fosse obtida a
95% de confiança.
2 – Seja X a durabilidade (em horas) de uma peça de equipamento, tal que σ = 5 horas.
Admita que 100 peças foram amostradas fornecendo uma durabilidade média ( X ) de 500
horas. Determinar:
a) Um intervalo de 95% de confiança para a média (µ);
b) O tamanho da amostra para o intervalo obtido: IC (µ)95%: 500 ± 1,63.
EXERCÍCIOS COMPLEMENTARES
1 – Para avaliar a precisão de uma balança de laboratório, pesa-se repetidas vezes um objeto
padrão de peso conhecido igual a 10 gramas. As leituras da balança tem distribuição normal.
Sabe-se que o desvio padrão das leituras é de 0,0002 gramas. Pesa-se o objeto cinco vezes e o
resultado médio é 10,0023 gramas.
a) Estabelecer um intervalo de 95% de confiança para a média das repetidas pesagens do
objeto;
b) Quantas pesagens devem entrar no cálculo da média a fim de que se obtenha uma
margem de erro de ± 0,0001 com 95% de confiança?
2 – Uma agência de propaganda, que atende a uma das principais estações de rádio, gostaria
de calcular a quantidade média de tempo que a audiência gasta diariamente ouvindo a rádio.
A partir de estudos anteriores determinou-se o desvio padrão de 45 minutos. Determinar:
a) O tamanho da amostra caso a agência queira ter 90% de confiança de estar correta em
um intervalo de ± 5 minutos;
b) O novo tamanho da amostra caso seja desejado um nível de 99% de confiança;
(considerar a mesma margem de erro da alínea anterior: ± 5 minutos)
45
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
c) Faça inferências a respeito dos tamanhos das amostras encontrados nas alíneas
anteriores (a e b), justificando o motivo de suas dimensões distintas.
3 – Estudos anteriores levam a supor que crianças de dois meses alimentadas exclusivamente
com leite do Tipo A sofrem um aumento de peso que segue distribuição normal, com média
desconhecida, porém com variância de 9.000 gramas2. Escolhe-se ao acaso 20 crianças de
dois meses, alimentando-as exclusivamente com leite do tipo A. Nesta amostra o aumento de
peso médio foi de 475 gramas. Estabelecer um intervalo de 99% de confiança para o aumento
médio do peso em crianças submetidas às condições apresentadas.
Gabarito
3 – 420,27 ≤ µ ≤ 529,73
5 – n = 2.662,56 ≈ 2.663
46
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
APÊNDICE
Esta Tabela será utilizada em prova. Portanto, não deverá conter informações
adicionais.
Nome: _______________________________________________________________
47
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
48