Biostatistica PDF
Biostatistica PDF
și biostatistică
Curs VII
Elena Poenaru
elena.poenaru@gmail.com
Analiza de
corelație și regresie
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Corelaţia
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Corelaţia
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Corelaţia
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Corelaţia
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Corelaţia
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Corelația
Ex: Datele referitoare la rezistență (forţa musculară) și
înălțime pentru 41 de bărbați alcoolici (Hickish et al., 1989).
Diagrama de corelație (Scatter):
Cât de potrivită
(rezistența)
Corelaţia:
măsoară cât de potrivită
este relaţia liniară
Înălțimea (cm)
Hickish T, Colston K, Bland JM, Maxwell JD. (1989) Vitamin D deficiency and muscle strength in male
alcoholics. Clinical Science 77, 171-176.
Elena Poenaru CURS 1
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Corelația
• Coeficientul de corelatie masoara puterea de
asociere sau puterea relatiei intre doua variabile
cantitative
• Fiecare punct reprezinta un
subiect (rezistenta Y, inaltine X);
Forța muculară
• Tendinta: barbatii mai inalti au
(rezistența)
(newtoni)
forta mai mare.
• Cel mai inalt nu are forta cea
mai mare si nici cel mai mic
forta cea mai mica corelatia Înălțimea (cm)
ne permite sa masuram cat de
aproape este asocierea
Elena Poenaru CURS 1
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Corelaţia
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Corelația
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Corelația
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Corelația
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Corelația
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Corelația
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Corelația
creste
scade
1
C=
n
∑ ( x k − mX )( y k − mY )
€ C − 53.75
rX ,Y = = = -0.96
s X sY 55.90
Elena Poenaru CURS 1
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Corelația
Cov( X , Y )
ρ( X , Y ) = ∈ [−1,1]
Var ( X ) ⋅ Var (Y )
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Coeficientul de corelație
• Coeficientul de corelatie se bazeaza pe diferentele (abaterile)
dintre fiecare observatie si media sa:
X-mX, Y-mY; unde mX, mY - mediile celor doua serii de date
• Vom însuma produsele de abateri pentru toți subiecții.
• Se traseaza media pentru
forta musculara si
(rezistența)
Media
rezistenței
∑( x k − mX ) ( yk − mY )
i=1
Înălțimea (cm)
Elena Poenaru CURS 1
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Coeficientul de corelație
• Produsele observaţiilor din cadranele dreapta sus şi stânga
jos sunt pozitive.
• Produsele observatiilor din cadranele stinga sus si dreapta
jos sunt negative
• Stinga jos: valori < media
(rezistența)
• Dreapta sus: valori > media Media
rezistenței
ambele abateri sunt pozitive,
produsul lor este pozitiv
Înălțimea (cm)
Elena Poenaru CURS 1
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Coeficientul de corelație
• Produsele observaţiilor din cadranele dreapta sus şi
stânga jos sunt pozitive.
– OBS: mai multe observatii in aceste doua cadrane
• Produsele observaţiilor din cadranele dreapta jos şi
stânga sus sunt negative.
Forța muculară (newtoni)
Media
înălțimii
(rezistența)
Media
rezistenței
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Coeficientul de corelație
• Suma de produse este pozitivă.
• Corelația este pozitivă.
• Cu cit subiectii au valori mai mari pentru inaltine si
rezistenta produse mai mari
• Relatia este mai puternica cu cit aceasta suma de produse
are valoare mai mare
(rezistența)
Media
rezistenței
Înălțimea (cm)
Elena Poenaru CURS 1
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Coeficientul de corelație
Ex: datele referitoare la rezistență (forţa musculară) și
vârsta pentru 41 de bărbați alcoolici (Hickish et al., 1989).
(rezistența)
Vârsta (ani)
Elena Poenaru CURS 1
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Coeficientul de corelație
Ex: datele referitoare la rezistență (forţa musculară) și
vârsta pentru 41 de bărbați alcoolici.
• Vom avea mai multe produse negative suma de
produse este negativă Corelația este negativă.
(rezistența)
Media
rezistenței
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Coeficientul de corelație
• Se împarte suma de produse prin produsul celor două
rădăcini pătrate extrase din sumele de pătrate de abateri
(care corespund fiecărei variabile).
se obține coeficientul de corelație care de obicei este
notat cu r (de la regresie)
Cov(X,Y )
• Valoarea minimă = -1.00. r = ∈ [−1,1]
Var(X) ⋅ Var(Y )
• Valoarea maximă = 1.00.
N
Coeficientul de corelatie este Cov(X,Y ) = ∑ ( xk − mX ) ( yk − mY )
cunoscut și sub numele de: i=1
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Coeficientul de corelație
• Se împarte suma de produse prin produsul celor două
rădăcini pătrate extrase din sumele de pătrate de abateri
(care corespund fiecărei variabile) coeficientul de
corelație r .
• Valoarea minimă = -1.00. Valoarea maximă = 1.00.
Forța muculară (newtoni)
• r = 0.42.
• Corelaţia este pozitivă și
(rezistența)
• destul de scăzută.
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Coeficientul de corelație
• Se împarte suma de produse prin produsul celor două
rădăcini pătrate extrase din sumele de pătrate de abateri
(care corespund fiecărei variabile) coeficientul de
corelație (r).
• Valoarea minimă = -1.00. Valoarea maximă = 1.00.
Forța muculară (newtoni)
r = - 0.42.
Corelaţia este negativă și
(rezistența)
destul de scăzută.
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Coeficientul de corelație
• Corelaţia este pozitivă când valori mari ale unei variabile
se asociază cu valori mari ale celeilalte variabile.
Variabila Y
Variabila X
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Coeficientul de corelație
• Corelaţia este pozitivă când valori mari ale unei variabile
se asociază cu valori mari ale celeilalte variabile.
Variabila Y
Variabila X
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Coeficientul de corelație
• Corelaţia este negativă când valori mari ale unei
variabile se asociază cu valori mici ale celeilalte
variabile.
Variabila Y
Variabila X
Elena Poenaru CURS 1
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Coeficientul de corelație
• Corelaţia este negativă când valori mari ale unei
variabile se asociază cu valori mici ale celeilalte
variabile.
Y
Variabila Y
Variabila
Variabila
Variabila XX
Elena Poenaru CURS 1
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Coeficientul de corelație
• r = +1.00 când valori mari ale unei variabile sunt
asociate cu valori mari pentru cealaltă variabilă şi
punctele se află exact pe o linie dreaptă corelatie
puternica
Y
Variabila Y
Variabila
Variabila
Variabila XX
Elena Poenaru CURS 1
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Coeficientul de corelație
• r = -1.00 când valori mari ale unei variabile sunt asociate
cu valori mici pentru cealaltă variabilă şi punctele se află
exact pe o linie dreaptă.
Variabila Y
Variabila X
Elena Poenaru CURS 1
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Coeficientul de corelație
• r nu va fi egal cu -1.00 sau +1.00 în cazul în care avem o
relație perfectă ci doar dacă punctele se află exact pe o
linie dreaptă.
• Corelatia masoara apropierea de o relatie nu de o relatie
perfecta!
Variabila Y
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Coeficientul de corelație
• r = 0.00 în cazul în care nu avem o relație liniară.
• Valori mari ale unei variabile sunt asociate atit cu valori
mici cat si cu valori mari ale celeilalte variabile; nu exista
un anumit sens!
Variabila Y
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Coeficientul de corelație
• Este posibil ca r = 0.00 în cazul în care avem o relație
aproape perfectă însă aceasta nu este liniară.
Variabila Y
Variabila X
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
(rezistența)
• r = 0.42. p = 0.006.
• 95% CI aproximativ: (0.13, 0.64).
• Programele de analiză statistică
dau rar un astfel de
interval de încredere. Înălțimea (cm)
Elena Poenaru CURS 1
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Regresia
• Daca valoarea coeficientului de corelatie liniara r indica o
corelatie liniara stransa atunci se pune problema stabilirii
unei relatii numerice exacte
• Aceasta relatie exacta este obtinuta prin regresie liniara.
• In general statisticianul cauta o ecuatie care exprima
relatia dintre doua variabile ecuatiile gasite se numesc
ecuatii de predictie:
Regresia liniara stabileste
dependenta ın medie a lui y ın
functie de x.
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Regresia
Întrebare: există o legătură Y
(asociere) între variabilele X şi Y?
ε este “eroarea” x X
Elena Poenaru CURS 1
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Regresia
Y
În practică dispunem de
eşantioane de valori
“perechi”? Valoare prezisa
Y = α + βX y1
yi Eroarea εi
Estimăm α şi β din datele
eşantionului (metoda celor y2
mai mici pătrate) Valoare
observata
Obţinem dreapta de
regresie X
x1 xi x2
Elena Poenaru CURS 1
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Regresia
r apropiat de 1
r apropiat de 0
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
• Regresia:
prezicerea unei variabile
BMI(kg/m2)
cu ajutorul altor variabile
• Exista o relatie intre
BMI si CA (din diagrama)
Circumferință abdominală
CA (cm)
Elena Poenaru CURS 1
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
• Ce este o relație?
• Regresia: Putem prezice BMI cu ajutorul CA?
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
• Relația liniară:
BMI = intercept + panta × CA
Relaţia estimată se numeşte liniară deoarece
reprezentarea sa grafică este o linie sau mai bine-zis o
dreaptă.
• Panta cu cit creste in medie variabila rezultat la
cresterea variabilei independente (variabila predictor)
• Interceptul valoarea variabilei rezultat (BMI) cind
predictorul (CA) are valoarea zero.
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
BMI(kg/m2)
Circumferință abdominală
CA (cm)
Elena Poenaru CURS 1
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
BMI(kg/m2)
valorile BMI
prezise de linie.
Circumferință abdominală
CA (cm) Elena Poenaru CURS 1
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
BMI(kg/m2)
mai mici pătrate
iar estimările
obţinute sunt denumite
linia sau ecuaţia
celor mai mici pătate.
Circumferință abdominală
CA (cm)
Elena Poenaru CURS 1
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
BMI(kg/m2)
in medie, ind CA creste
cu o unitate
• Atentie la unitatile de
masura! daca se
schimba unitatea
de masura se schimba Circumferință abdominală
coeficientii ! CA (cm) Elena Poenaru CURS 1
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
H0: panta = 0
BMI(kg/m2)
Cresterea BMI in
raport cu CA este nula
CA nu influenteaza BMI
Circumferință abdominală
CA (cm) Elena Poenaru CURS 1
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
BMI(kg/m2)
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Presupuneri:
• Abaterile de la linia de regresie trebuie să aibă o distribuție
normală cu varianță uniformă varianta nu trebuie sa
depinda de valorile predictorului (variabile independente)
• Observatiile sunt independente intre ele
BMI(kg/m2)
Circumferință abdominală
CA (cm) Elena Poenaru CURS 1
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Diferenţa
(obezi - subponderali) =
10.298 - 8.066 = 2.232.
95% CI = (1.05 - 3.42) MJ,
p = 0.0008.
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
BMI (kg/m2)
Circumferință abdominală – CA (cm) Circumferința brațului – CB (cm)
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Reziduuri
Reziduuri Inversa normalei
• Se poateobserva o mica abatere de la normalitate cozi ceva mai lungi
(departare a capetelor de la linia de egalitate) si o mica asimetrie (vezi
histograma) Elena Poenaru CURS 1
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Regresia logistică
Ex: Continuarea tratamentului de către pacienți până la 12
săptămâni (Peveler et al., 1999).
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Regresia logistică
Ex: Continuarea tratamentului de către pacienți până la 12 săptămâni.
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Regresia logistică
• Se dorește prezicerea proporţiei de pacienți care vor continua
tratamentul.
• Se dorește determinarea unei ecuaţii de regresie:
proporţia = intercept + panta1 × consiliere + panta2 × prospect
Problema este că proporţiile nu pot fi mai mici decât zero sau mai
mari decât unu.
Cum putem împiedica ecuaţia să prezică proporţii imposibile?
Trebuie găsită o scară prin care rezultatul să nu fie limitat!
à Raportul cotelor nu are limită superioară, astfel că acesta poate fi
mai mare decât unu, dar mai trebuie ca valoarea sa să fie mai mare sau
egală cu zero.
à Logaritmul cotei poate lua orice valoare se va folosi logaritmul
raportului cotelor numit logit sau transformarea logistică.
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Regresia logistică
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Regresia logistică
Se dorește prezicerea proporţiei de pacienți care vor continua
tratamentul.
log raport cote = intercept + panta1×consiliere + panta2×prospect
log raportul cotelor = -0.559 + 0.980×consiliere + 0.216× prospect
95% CI: (0.426, 1.53) (-0.339, 0.770)
p = 0.001 p = 0.4
Prin antilogaritmare:
Raportul cotelor = 0.57 × 2.66consiliere × 1.24prospect
95% CI: (1.53, 4.64) (0.71, 2.16)
Observație: consilirea = 0 sau 1, 2.660 = 1 sau 2.661 = 2.66.
Raportul cotelor (OR) pentru consiliere este 2.66,
95% CI: (1.53, 4.64), p = 0.001.
Raportul cotelor (OR) pentru prospect este 1.24,
95% CI: (0.71, 2.16), p = 0.4.
Elena Poenaru CURS 1
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Dimensiunea eșantionului
• Va trebui întotdeauna să avem mai multe observaţii
decât variabile.
Reguli empirice:
• Regresia multiplă: cel puțin 10 observații pentru o
variabilă
• Regresia logistică: cel puţin 10 observaţiile pentru
rezultatul "da" şi cel puțin 10 observaţii pentru rezultatul
"nu" pentru fiecare variabilă.
• În caz contrar, metodele pot fi foarte instabile.
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Tipuri de regresie
Regresia multiplă şi regresia logistică sunt tipurile de regresie care
pot fi văzute de cele mai multe ori în literatura medicală.
Există multe alte tipuri de regresie pentru diverse tipuri de variabile
rezultat:
Regresia Cox (analiza de supravieţuire)
Regresie logistică ordonată (variabilele rezultat care sunt
calitative cu categorii ordonate)
Regresie multinomială (variabile rezultat care sunt calitative cu
categorii neordonate)
Regresie Poisson (variabile rezultat care sunt valori obținute
prin numărare - counts)
Regresie binomială negativă (variabile rezultat care sunt valori
obținute prin numărare - counts cu surse suplimentare de
variabilitate)
Elena Poenaru CURS 1
2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica
Bibligrafie
• Informatica Medicala si Biostatistica – T. Spircu,
Ed Carol Davila 2006
• Statistica pe intelesul tuturor – Elena Druica, Editura C.H.
Beck, 2011
• Johnson Robert, Elementary Statistics, Duxbury Press,
1984, Boston
• www.mste.uiuc.edu/hill/dstat/dstat.html
• www.stats.gla.ac.uk/steps/glossary/paired_data.htm
2012