0% au considerat acest document util (0 voturi)
237 vizualizări75 pagini

Biostatistica PDF

Încărcat de

dani1234567dani123
Drepturi de autor
© © All Rights Reserved
Respectăm cu strictețe drepturile privind conținutul. Dacă suspectați că acesta este conținutul dumneavoastră, reclamați-l aici.
Formate disponibile
Descărcați ca PDF, TXT sau citiți online pe Scribd
0% au considerat acest document util (0 voturi)
237 vizualizări75 pagini

Biostatistica PDF

Încărcat de

dani1234567dani123
Drepturi de autor
© © All Rights Reserved
Respectăm cu strictețe drepturile privind conținutul. Dacă suspectați că acesta este conținutul dumneavoastră, reclamați-l aici.
Formate disponibile
Descărcați ca PDF, TXT sau citiți online pe Scribd
Sunteți pe pagina 1/ 75

Informatică medicală

și biostatistică
Curs VII

Elena Poenaru
elena.poenaru@gmail.com
Analiza de
corelație și regresie
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Corelaţia

•  In statistica adesea apar probleme de tipul: pentru aceeasi


populatie avem doua seturi de date corespunzatoare la
doua variabile distincte si se pune ıntrebarea daca ıntre cele
doua variabile exista vreo legatura (relatie)?
–  Daca da, care este aceasta relatie? Cum sunt aceste variabile
corelate? Relatiile pe care le discutam aici nu sunt neaparat de tip
cauza-efect. Ele sunt relatii matematice care permit anticiparea
comportamentului unei variabile ın functie de comportamentul
celeilalte
–  EX: Doctorii care testeaza un nou medicament prescriu cantitati
diferite si observa raspunsul pacientilor; se pune ıntrebarea:
cantitatea de medicament prescrisa determina oare timpul de
insanatosire al pacientului?

Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Corelaţia

•  In cazul ın care pentru o populatie avem doua seturi de date


corespunzatoare la doua variabile distincte se formeaza
perechile de date (x, y), ın care x este valoarea primei
variabile si y este valoarea celei de-a doua variabile.
•  O pereche ordonata de date (x, y) se numeste data
bidimensionala.
–  In mod traditional, variabila X (avand valorile x) se numeste variabila
de intrare (variabila independenta), iar variabila Y (avand valorile y)
se numeste variabila de iesire (variabila dependenta).
–  Variabila de intrare X este cea masurata sau controlata pentru a
prezice variabila Y .

Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Corelaţia

Ex: In cazul testarii medicamentului doctorii (masoara)


controleaza cantitatea de medicament prescrisa si
consideram aceasta cantitate x, fiind valoarea variabilei de
intrare (independenta) X .

•  Timpul de recuperare y este valoarea variabilei de iesire


(dependente) Y.

Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Corelaţia

•  Analiza de corelatie are ca obiectiv sa stabileasca


legatura dintre cele doua variabile
•  In cazul problemelor de analiza a corelatiei dintre doua
variabile datele esantionului se prezinta sub forma unei
diagrame de imprastiere.
•  O diagrama de ımprastiere sau nor de puncte este
reprezentarea grafica a perechilor de date ıntr-un sistem de
coordonate ortogonal. Valorile x ale variabilei de intrare X
sunt reprezentate pe axa Ox, iar valorile y ale variabilei de
iesire Y sunt reprezentate pe axa Oy.

Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Corelaţia

În practică, atunci când studiem


legătura între două variabile
numerice, începem prin a alege
un eşantion, apoi înregistrăm
datele provenite din măsurătorile
efectuate asupra indivizilor;

Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Corelația
Ex: Datele referitoare la rezistență (forţa musculară) și
înălțime pentru 41 de bărbați alcoolici (Hickish et al., 1989).
Diagrama de corelație (Scatter):
Cât de potrivită

Forța muculară (newtoni)


este relația?

(rezistența)
 Corelaţia:
măsoară cât de potrivită
este relaţia liniară

Înălțimea (cm)
Hickish T, Colston K, Bland JM, Maxwell JD. (1989) Vitamin D deficiency and muscle strength in male
alcoholics. Clinical Science 77, 171-176.
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Corelația
•  Coeficientul de corelatie masoara puterea de
asociere sau puterea relatiei intre doua variabile
cantitative
•  Fiecare punct reprezinta un
subiect (rezistenta Y, inaltine X);

Forța muculară
•  Tendinta: barbatii mai inalti au

(rezistența)
(newtoni)
forta mai mare.
•  Cel mai inalt nu are forta cea
mai mare si nici cel mai mic
forta cea mai mica  corelatia Înălțimea (cm)
ne permite sa masuram cat de
aproape este asocierea
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Corelaţia

Funcţii EXCEL: CORREL(), PEARSON()


 Această funcţie are două argumente care sunt domeniile
în care am inserat cele două serii de date.
OBS: Coeficientul de corelatie Pearson poate fi calculat
doar in cazul datelor numerice
Coeficientul de corelaţie Spearman
 Daca X şi Y nu pot fi obţinute prin măsurători
coeficientiul de corelatie se va calcula, cu formula
6∑ d k Pentru X, Y ordinale, dk – diferenţa rangurilor pentru
ro = 1 − concurentul k (ex: rangurile acordate concurenţilor de
n(n 2 − 1) către doi arbitri)
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Corelația

•  Daca pentru valorile x, care cresc, ale variabilei de intrare X,


exista o deplasare clara (bine definita) ale valorilor y, ale
variabilei Y, atunci spunem ca avem corelatie.
•  Avem o corelatie pozitiva daca y tinde sa creasca si avem o
corelatie negativa daca y tinde sa descreasca odata cu
cresterea lui x.
•  Precizia schimbarii lui y atunci cand x creste determina cat
de puternica este corelatia.

Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Corelația

Cand nr de tigări creste,


capaciatea pulmonara tinde să
scada
creste
scade
 Cele 2 variabile covariază în
directii opuse (valorile tind sa fie în
directii opuse fată de medii – nr de
tigări este deasupra mediei grupului,
Media produsului de abateri este o măsură a capacitatea pulmonară este sub
modului în care cele 2 variabile se modifică media grupului!)
împreună! Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Corelația

•  Daca perechile (x, y) tind sa urmeze o dreapta zicem ca


avem o corelatie liniara.
•  Daca toate perechile (x, y) se gasesc pe o dreapta (care nu
este nici orizontala nici verticala) atunci zicem ca avem o
corelatie liniara perfecta.
OBS: Daca toate perechile (x, y) se gasesc pe o dreapta
orizontala sau verticala nu exista corelatie intre cele doua
variabile, aceasta intrucat schimbarea uneia nu afecteaza
valoarea celeilalte variabile.

Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Corelația

•  Coeficientul de corelatie liniara r masoara cat de puternica


este corelatia liniara dintre cele doua variabile.
–  Reflecta consistenta efectului pe care-l are schimbarea valorii
variabilei independente X asupra variabilei dependente Y.
–  Obs: Valoarea coeficientului de corelatie liniara r permite sa se
formuleze un raspuns la ıntrebarea: exista o corelatie liniara ıntre
cele doua variabile considerate?
•  Coeficientul de corelatie liniara r are valoarea ıntre −1 si +1.
–  valoarea r = +1  o corelatie liniara pozitiva perfecta,
–  Valoarea r = −1  ınseamna o corelatie liniara negativa perfecta.
•  Daca pentru x crescand rezulta o crestere generala a
valorilor lui y, atunci r indica o corelatie liniara pozitiva.
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Corelația

•  Daca valoarea calculata r este apropiata de 0, atunci nu


exista corelatie liniara.
•  Daca valoarea calculata r este aproape de +1 sau −1, atunci
banuim ca ıntre cele doua variabile exista corelatie liniara.
•  Intre 0 si 1 exista o valoare numita punct de decizie care
indica daca exista sau nu exista corelatie liniara.
•  Un punct simetric exista si intre −1 si 0.
•  Valoarea punctului de decizie depinde de marimea
esantionului.

Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Corelația

creste
scade
1
C=
n
∑ ( x k − mX )( y k − mY )

Cov( X , Y ) 2 ≤ Var ( X ) ⋅Var (Y )

€ C − 53.75
rX ,Y = = = -0.96
s X sY 55.90
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Corelația

•  Coeficientul de corelatie se bazeaza pe diferentele (abaterile)


dintre fiecare observatie si media sa:
X-mX, Y-mY; unde mX, mY - mediile celor doua serii de date
 Introducerea coeficientului de corelatie (teoretic)

Cov( X , Y )
ρ( X , Y ) = ∈ [−1,1]
Var ( X ) ⋅ Var (Y )

ρ( X , Y ) = 0  Cele doua variabile aleatoare sunt independente

ρ( X , Y ) = 1 sau - 1  în cazul în care între variabile există o relaţie


liniară Y = a+bX (cu b>0 sau b<0)
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Coeficientul de corelație
•  Coeficientul de corelatie se bazeaza pe diferentele (abaterile)
dintre fiecare observatie si media sa:
X-mX, Y-mY; unde mX, mY - mediile celor doua serii de date
•  Vom însuma produsele de abateri pentru toți subiecții.
•  Se traseaza media pentru
forta musculara si

Forța muculară (newtoni)


Media
înălțimii

media pentru inaltime
prin doua linii

(rezistența)
Media

rezistenței

Sumă de produse în jurul mediei!


N

∑( x k − mX ) ( yk − mY )
i=1
Înălțimea (cm)
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Coeficientul de corelație
•  Produsele observaţiilor din cadranele dreapta sus şi stânga
jos sunt pozitive.
•  Produsele observatiilor din cadranele stinga sus si dreapta
jos sunt negative
•  Stinga jos: valori < media 

Forța muculară (newtoni)


ambele abateri sunt negative, Media
înălțimii

produsul lor este pozitiv

(rezistența)
•  Dreapta sus: valori > media Media

rezistenței

 ambele abateri sunt pozitive,
produsul lor este pozitiv

Înălțimea (cm)
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Coeficientul de corelație
•  Produsele observaţiilor din cadranele dreapta sus şi
stânga jos sunt pozitive.
–  OBS: mai multe observatii in aceste doua cadrane
•  Produsele observaţiilor din cadranele dreapta jos şi
stânga sus sunt negative.
Forța muculară (newtoni)

Media
înălțimii

(rezistența)

Media

rezistenței

Înălțimea (cm) Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Coeficientul de corelație
•  Suma de produse este pozitivă.
•  Corelația este pozitivă.
•  Cu cit subiectii au valori mai mari pentru inaltine si
rezistenta  produse mai mari
•  Relatia este mai puternica cu cit aceasta suma de produse
are valoare mai mare

Forța muculară (newtoni)


•  Valoarea sumei de produse Media
înălțimii

este pozitiva
 corelatie pozitiva

(rezistența)
Media

rezistenței

Înălțimea (cm)
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Coeficientul de corelație
Ex: datele referitoare la rezistență (forţa musculară) și
vârsta pentru 41 de bărbați alcoolici (Hickish et al., 1989).

Diagrama de corelație (scatter):


•  Forta musculara
tinde sa fie mai mica

Forța muculară (newtoni)


pentru barbati cu
varsta mai mare

(rezistența)

Vârsta (ani)
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Coeficientul de corelație
Ex: datele referitoare la rezistență (forţa musculară) și
vârsta pentru 41 de bărbați alcoolici.
•  Vom avea mai multe produse negative  suma de
produse este negativă  Corelația este negativă.

Forța muculară (newtoni)


Media
vârstei

(rezistența)
Media

rezistenței

Vârsta (ani) Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Coeficientul de corelație
•  Se împarte suma de produse prin produsul celor două
rădăcini pătrate extrase din sumele de pătrate de abateri
(care corespund fiecărei variabile).
 se obține coeficientul de corelație care de obicei este
notat cu r (de la regresie)
Cov(X,Y )
•  Valoarea minimă = -1.00. r = ∈ [−1,1]
Var(X) ⋅ Var(Y )
•  Valoarea maximă = 1.00.
N
Coeficientul de corelatie este Cov(X,Y ) = ∑ ( xk − mX ) ( yk − mY )
cunoscut și sub numele de: i=1

  coeficient de corelaţie Pearson


  coeficient de corelaţie al produselor momentelor.

Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Coeficientul de corelație
•  Se împarte suma de produse prin produsul celor două
rădăcini pătrate extrase din sumele de pătrate de abateri
(care corespund fiecărei variabile)  coeficientul de
corelație r .
•  Valoarea minimă = -1.00. Valoarea maximă = 1.00.
Forța muculară (newtoni)

•  r = 0.42.
•  Corelaţia este pozitivă și
(rezistența)

•  destul de scăzută.

Înălțimea (cm) Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Coeficientul de corelație
•  Se împarte suma de produse prin produsul celor două
rădăcini pătrate extrase din sumele de pătrate de abateri
(care corespund fiecărei variabile)  coeficientul de
corelație (r).
•  Valoarea minimă = -1.00. Valoarea maximă = 1.00.
Forța muculară (newtoni)

r = - 0.42.
Corelaţia este negativă și
(rezistența)

destul de scăzută.

Înălțimea (cm) Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Coeficientul de corelație
•  Corelaţia este pozitivă când valori mari ale unei variabile
se asociază cu valori mari ale celeilalte variabile.
Variabila Y

Variabila X

Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Coeficientul de corelație
•  Corelaţia este pozitivă când valori mari ale unei variabile
se asociază cu valori mari ale celeilalte variabile.
Variabila Y

Variabila X

Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Coeficientul de corelație
•  Corelaţia este negativă când valori mari ale unei
variabile se asociază cu valori mici ale celeilalte
variabile.
Variabila Y

Variabila X
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Coeficientul de corelație
•  Corelaţia este negativă când valori mari ale unei
variabile se asociază cu valori mici ale celeilalte
variabile.
Y

Variabila Y
Variabila

Variabila
Variabila XX
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Coeficientul de corelație
•  r = +1.00 când valori mari ale unei variabile sunt
asociate cu valori mari pentru cealaltă variabilă şi
punctele se află exact pe o linie dreaptă  corelatie
puternica
Y

Variabila Y
Variabila

Variabila
Variabila XX
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Coeficientul de corelație
•  r = -1.00 când valori mari ale unei variabile sunt asociate
cu valori mici pentru cealaltă variabilă şi punctele se află
exact pe o linie dreaptă.
Variabila Y

Variabila X
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Coeficientul de corelație
•  r nu va fi egal cu -1.00 sau +1.00 în cazul în care avem o
relație perfectă ci doar dacă punctele se află exact pe o
linie dreaptă.
•  Corelatia masoara apropierea de o relatie nu de o relatie
perfecta!

Variabila Y

Variabila X Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Coeficientul de corelație
•  r = 0.00 în cazul în care nu avem o relație liniară.
•  Valori mari ale unei variabile sunt asociate atit cu valori
mici cat si cu valori mari ale celeilalte variabile; nu exista
un anumit sens!

Variabila Y

Variabila X Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Coeficientul de corelație
•  Este posibil ca r = 0.00 în cazul în care avem o relație
aproape perfectă însă aceasta nu este liniară.
Variabila Y

Variabila X

Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Teste pentru coeficientul de corelație


•  Putem testa ipoteza nulă pentru a stabili daca
coeficientul de corelație în populaţie este zero.
•  Prin test t simplu.
•  H0: r=0  nu avem relatie de tip liniar
•  Presupunere: observațiile sunt independente și cel puţin
una dintre variabilele urmează o distribuţie normală.
•  Abateri mari de la aceste presupuneri fac ca valoarea p
pentru acest test să fie foarte instabilă.
•  r = 0.42. p = 0.006.
•  Programele de analiză statistică dau, aproape întotdeauna,
o valoare p în momentul în care raportează un coeficient de
corelaţie.
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Teste pentru coeficientul de corelație


•  Se poate calcula un interval de încredere pentru
coeficientul de corelație în populaţie.
•  Se folosește transformarea Z a lui Fisher.
•  Presupunere: ambele variabile urmează distribuţii normale.
•  Abateri mari de la aceste
presupuneri fac ca valoarea p
pentru acest test să fie

Forța muculară (newtoni)


foarte instabilă.

(rezistența)
•  r = 0.42. p = 0.006.
•  95% CI aproximativ: (0.13, 0.64).
•  Programele de analiză statistică
dau rar un astfel de
interval de încredere. Înălțimea (cm)
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Analiza de corelație și regresie

 Coefeicientul de corelatie  masoara puterea de


asociere sau puterea relatiei intre doua variabile
cantitative

 Analiza de corelatie si regresie  metoda de


analiza a datelor cantitative, obtinute ca rezultat al
unei masuratori

Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresia
•  Daca valoarea coeficientului de corelatie liniara r indica o
corelatie liniara stransa atunci se pune problema stabilirii
unei relatii numerice exacte
•  Aceasta relatie exacta este obtinuta prin regresie liniara.
•  In general statisticianul cauta o ecuatie care exprima
relatia dintre doua variabile  ecuatiile gasite se numesc
ecuatii de predictie:
 Regresia liniara stabileste
dependenta ın medie a lui y ın
functie de x.

Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresia
Întrebare: există o legătură Y
(asociere) între variabilele X şi Y?

Dată o valoare x a variabilei X, y


putem “previziona” valoarea
corespunzătoare a variabilei Y?
x X
Legătură liniară?
Y
Y = α + βX
Permitem ca valorile lui Y să aibă o
mică “abatere aleatoare” y

ε este “eroarea” x X
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresia
Y
În practică dispunem de
eşantioane de valori
“perechi”? Valoare prezisa
Y = α + βX y1
yi Eroarea εi
Estimăm α şi β din datele
eşantionului (metoda celor y2
mai mici pătrate) Valoare
observata
Obţinem dreapta de
regresie X
x1 xi x2
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresia

Întrebare: există o legătură


(asociere) liniară între variabilele
X şi Y?
Răspuns “corect”: DA
(coeficient de corelaţie = r)

r apropiat de 1

r apropiat de 0

Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresia liniară simplă


Ex: Indicele de masa corporală (BMI) și circumferința
abdominală (CA) in cm la 86 femei (Malcolm Savage)
•  Ce este o relație?
•  Regresia: Putem prezice BMI cu ajutorul CA?

•  Regresia:
prezicerea unei variabile

BMI(kg/m2)
cu ajutorul altor variabile
•  Exista o relatie intre
BMI si CA (din diagrama)

Circumferință abdominală
CA (cm)
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresia liniară simplă

Ex: Indicele de masa corporală (BMI) și circumferința


abdominală (CA) la 86 femei (Malcolm Savage).

•  Ce este o relație?
•  Regresia: Putem prezice BMI cu ajutorul CA?

•  Care este valoarea medie a indicelui de masa


corporală (BMI) pentru femei, pentru orice
valoare observată a circumferinței abdominale
(CA) ?

Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresia liniară simplă


•  Ex: Indicele de masa corporală (BMI) și circumferința
abdominală (CA) la 86 femei (Malcolm Savage).
•  Ce este o relație?

•  Regresia: Putem prezice BMI cu ajutorul CA?

•  Care este valoarea medie a BMI-ului pentru femei,


pentru orice valoare observată a CA?
•  BMI este rezultatul, variabila dependentă, Y, sau
variabila din partea stângă.
•  CA este predictorul, variabila explicativă, variabila
independentă, x, sau variabila din partea dreaptă.
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresia liniară simplă

•  Relația liniară:
BMI = intercept + panta × CA
Relaţia estimată se numeşte liniară deoarece
reprezentarea sa grafică este o linie sau mai bine-zis o
dreaptă.
•  Panta  cu cit creste in medie variabila rezultat la
cresterea variabilei independente (variabila predictor)
•  Interceptul  valoarea variabilei rezultat (BMI) cind
predictorul (CA) are valoarea zero.

Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresia liniară simplă

Care este linia pe care trebuie să o alegem ?


 Stabilesc un criteriu!

BMI(kg/m2)

Circumferință abdominală
CA (cm)
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresia liniară simplă

Care este linia pe care trebuie să o alegem ?


Criteriu: se aleage linia care face ca distanţa de la puncte
la linie, în direcţia lui y să fie la nivel minim.
•  Distanțele sunt
diferenţele între valorile
BMI observate şi

BMI(kg/m2)
valorile BMI
prezise de linie.

Circumferință abdominală
CA (cm) Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresia liniară simplă

Care este linia pe care trebuie să o alegem ?


Vom alege linia pentru care se va obține minimul sumei de
pătrate ale acestor diferenţe.
•  Metoda este cunoscută
sub numele de
principiu celor

BMI(kg/m2)
mai mici pătrate
iar estimările
obţinute sunt denumite
linia sau ecuaţia
celor mai mici pătate.
Circumferință abdominală
CA (cm)
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresia liniară simplă


BMI = -4.15 + 0.35 × CA
•  Se pot determina intervale de încredere şi valorile p
pentru coeficienţii obținuți.
Panta  0.35 = coeficient de regresie
Intercept  -4.15
• Coeficientul de regresie
arata cu cit creste BMI,

BMI(kg/m2)
in medie, ind CA creste
cu o unitate
• Atentie la unitatile de
masura!  daca se
schimba unitatea
de masura se schimba Circumferință abdominală
coeficientii ! CA (cm) Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresia liniară simplă


•  Se pot determina intervale de încredere şi valorile p
pentru coeficienţii obținuți (pentru panta si intercept)
Panta = 0.35 Kg/m2/cm, 95% CI = (0.31 - 0.40) Kg/m2/cm,
p <0.001 în raport cu valoarea zero.
Interceptul = -4.15 kg/m2, 95% CI = (-7.11 la -1.18) kg/m2.

H0: panta = 0

BMI(kg/m2)
 Cresterea BMI in
raport cu CA este nula
 CA nu influenteaza BMI

Circumferință abdominală
CA (cm) Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresia liniară simplă


•  Se pot determina intervale de încredere pentru estimațiile
obținute prin regresie și valoarea prezisă pentru un nou subiect.

Intervale de 95% încredere pentru Intervale de predicție sau intervale de


estimațiile de regresie pentru BMI 95% încredere pentru valori BMI
și circumferința abdominală
prezise cu ajutorul circumferinței
abdominale

BMI(kg/m2)

BMI(kg/m2)

Circumferință abdominală Circumferință abdominală


CA (cm) CA (cm) Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresia liniară simplă

Presupuneri:
•  Abaterile de la linia de regresie trebuie să aibă o distribuție
normală cu varianță uniformă  varianta nu trebuie sa
depinda de valorile predictorului (variabile independente)
•  Observatiile sunt independente intre ele

BMI(kg/m2)

Circumferință abdominală
CA (cm) Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresia liniară simplă


Presupuneri: abaterile de la linia de regresie (diferenta dintre
valorile observate si cele prezise) trebuie să aibă o distribuție
normală cu varianță uniformă.
•  Se calcula diferenţele dintre valoarea observată a variabilei
rezultat şi valoarea prezisă prin modelul de regresie, adică
abaterile sau reziduurile.
1. Verificarea normalității distribuției 2. Verificarea uniformității varianței

BMI rezidual (kg/m2)


BMI rezidual (kg/m2)
Frecvența

BMI rezidual (kg/m2) Inversa Circumferință abdominală


normalei CA (cm) Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Variabile predictor binare


Ex: Energia consumată în 24 ore (MJ) în două grupuri de femei,
subponderale și obeze.

Construim modelul de regresie liniară:


•  Vom defini o nouă variabilă obez
= 1 în cazul în care o femeie este obeză
= 0 dacă ea este subponderală.

•  Dacă vom efectua analiza de regresie


obținem:
energie = 8.07 + 2.23 × obez
panta: 95% CI = (1.05 - 3.42) MJ,
p = 0.0008.  se testeaza egalitatea
pantei cu 0
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Variabile predictor binare


Doua metode: 1. Analiza de regresie:
energie = 8.07 + 2.23 × obez
panta: 95% CI = (1.05 - 3.42) MJ,
p = 0.0008.
Testul Student
Regresie
T Energie consumată (kJ)
2. Testul Student t:
Energie consumată (kJ)

Diferenţa
(obezi - subponderali) =
10.298 - 8.066 = 2.232.
95% CI = (1.05 - 3.42) MJ,
p = 0.0008.

Subpond. Obeze Cele două metode sunt identice!


Grup femei Obez

Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Variabile predictor binare


Comparatie intre presupunerile pentru cele doua metode:


Presupunerile metodei t pentru două eșantioane sunt:
1.  Consumul de energie urmează o distribuţie normală în
fiecare populaţie
2.  Varianțele sunt aceleaşi în fiecare populaţie.
Presupunerile modelului de regresie sunt:
1.  Diferenţele între consumul de energie observat şi cel
prezis urmează o distribuţie normală
2.  Varianțele diferenţelor sunt aceleaşi indiferent de valoarea
predictorului.
Sunt aceleaşi!
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresie liniară multiplă


•  Mai mult de o variabilă predictor:
Ex: cu doua variabile predictor
BMI (kg/m2)

BMI (kg/m2)
Circumferință abdominală – CA (cm) Circumferința brațului – CB (cm)

BMI = -1.35 + 0.31 × CA BMI = -4.59 + 9.1 × CB

BMI = -5.94 + 0.18 × CA + 0.59 × CB


Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresie liniară multiplă


Mai mult de o variabilă predictor: ex: doua variabile predictor
BMI = -1.35 + 0.31 × CA BMI = -4.59 + 9.1 × CB
BMI = -5.94 + 0.18 × CA + 0.59 × CB
•  Ecuatie cu 2 variabile predictor  metoda: regresie liniara multipla)
•  În acest caz s-au determinat coeficienţii astfel încât suma
pătratelor diferenţelor între BMI observat și cel prezis de
regresie să fie minimă
 metoda: regresia obişnuită a celor mai mici pătrate sau
OLS (ordinary least squares).
 Ca si CB sunt ambii predictori importanti pentru BMI!
(p<0.0001)
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresie liniară multiplă


Mai mult de o variabilă predictor: ex: doua variabile predictor
BMI = -1.35 + 0.31 × CA BMI = -4.59 + 9.1 × CB
BMI = -5.94 + 0.18 × CA + 0.59 × CB
•  Ambii coeficienţi sunt acum mai aproape de zero,
deoarece circumferinta abdominală (CA) și a brațul (CB)
sunt legate între ele.

Circumferința abdominală CA (cm)


CB = 7.52 + 2.79 × CA
r = 0.77, p <0.001
 Circumferinta abdominală
(CA) și a brațului (CA) explică,
fiecare, o parte din relaţia
cu BMI.
Circumferința brațului – CB (cm)
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresie liniară multiplă


Mai mult de o variabilă predictor: ex: doua variabile predictor
•  Putem determina intervale de încredere pentru coeficienți și testa ipotaza
nulă referitoare la egalitatea cu zero a coeficienților din populație.

BMI = -5.94 + 0.18 × CA + 0.59 × CB


95% CI (-8.10, -3.77) (0.14, 0.22) (0.45, 0.74)
p <0.001 p <0.001
•  Cu cit este mai mare panta predictorului cu atit este mai
important
•  Fiecare predictor reduce importanţa celuilalt deoarece aceștia
sunt legați unul de celălalt ca şi de BMI.
•  De obicei, în regresiile multiple, este foarte posibil ca una
dintre variabilele să devină nesemnificativă chiar dacă regresia
în ansamblu este înalt semnificativă.
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresie liniară multiplă


Presupuneri:
La fel ca în cazul regresiei liniare simple, pentru a fi valide
intervalele de încredere şi valorile p, datele trebuie să
îndeplinească următoarele presupuneri:
  Abaterile de la linia de regresie trebuie să aibă o distribuție
normală
  Varianța să fie uniformă
  Observațiile trebuie să fie independente
•  Modelul pentru date se referă la faptul că relația pentru
fiecare dintre predictori poate fi reprezentată adecvat nu
numai printr-o dreaptă ci și printr-o curbă.

Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresie liniară multiplă


Presupuneri: Abaterile de la linia de regresie trebuie să aibă o
distribuție normală.
•  Verificarea printr-o histogramă și o reprezentare grafică a
normalității pentru reziduuri:
Frecvență

Reziduuri
Reziduuri Inversa normalei
•  Se poateobserva o mica abatere de la normalitate cozi ceva mai lungi
(departare a capetelor de la linia de egalitate) si o mica asimetrie (vezi
histograma) Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresie liniară multiplă


Presupuneri: Varianța să fie uniformă.
•  Reprezentarea grafica a reziduurilor in raport cu valorile
prezise, printr-o diagramă de corelație pentru reziduuri si
estimatiile liniei de regresie  nu exista relatie liniara
Reziduuri

BMI prezis (Kg/m2)


Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresie liniară multiplă


Variabile binare: sex à o alta variabila predictor posibila
Variabila masculin = 0 pentru o femeie și
= 1 pentru un bărbat.
BMI = 20.51 + 0.40 × masculin
95% CI (19.64, 21.38) (-0.75, 1.55)
p = 0.5
•  p=0.5  ecuatia pentru BMI
si sex nu arata semnificatie
BMI (kg/m2)

pentru sex (ca variabila


predictor pentru BMI)
•  Sexul (masculin) nu este o
variabilă semnificativă
Femei Bărbați singură!
Sex Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresie liniară multiplă


Variabile binare: sex
Variabila masculin = 0 pentru o femeie și
= 1 pentru un bărbat.
BMI = 20.51 + 0.40 × masculin
95% CI (19.64, 21.38) (-0.75, 1.55)
p = 0.5

BMI = -6.44 + 0.18 × CA + 0.64 × CB - 1.39 × masculin


95% CI: (-8.49, -4.39) (0.14, 0.22) (0.50, 0.78) (-1.94, -0.84)
p <0.001 p <0.001 p <0.001

•  Se poate observa că variabila "masculin" a devenit semnificativă deoarece


atât circumferinţa abdominală CA cât şi a braţului CB ca predictori au
micșorat mult varianța BMI-lui.
•  Valoarea medie pentru BMI este mai mică pentru bărbaţi decât femei cu
aceeaşi circumferinţă abdominală şi a braţului cu 1.39 unităţi.
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresie liniară multiplă


Variabile binare: sex
Variabila masculin = 0 pentru o femeie și
= 1 pentru un bărbat.
BMI = -6.44 + 0.18 × CA + 0.64 × CB - 1.39 × masculin
95% CI:(-8.49, -4.39) (0.14, 0.22) (0.50, 0.78) (-1.94, -0.84)
p <0.001 p <0.001 p <0.001

•  În cazul în care avem ca predictori atât variabile continue


cât şi categoriale, regresie este numită și analiză de
covarianţă sau ANCOVA.
•  Variabilele continue (precum înălțimea sau vârsta) se
numesc covariate.
•  Variabilele categoriale (precum ciroza) se numesc factori.
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresia logistică
Ex: Continuarea tratamentului de către pacienți până la 12
săptămâni (Peveler et al., 1999).

•  Studiu clinic referitor la consilierea pentru tratamentul


antidepresiv si informarea prin prospect
–  4 grupuri: consiliere+ prospect, consiliere, prospect, niciuna
•  Consiliere: p = 0.001, Prospect: p = 0.4
 Se obțin prin modelul de regresie logistică.
Peveler R, George C, Kinmonth A-L, Campbell M, Thompson C. Effect of antidepressant drug counselling and
information leaflets on adherence to drug treatment in primary care: randomised controlled trial. BMJ 1999; 319: 612-615.

Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresia logistică
Ex: Continuarea tratamentului de către pacienți până la 12 săptămâni.

•  Variabila rezultat este binară  tratamentul va continua sau nu?


•  Se dorește prezicerea proporţiei de pacienți care vor continua
tratamentul indiferent de grupul în care au fost alocați:
–  grupul cu consiliere şi/sau grupul cu prospect.
•  Se dorește determinarea unei ecuaţii de regresie.
 Metoda: Calculul OR (raportul cotelor)  verific daca estimarea este
corecta  daca nu este, aleg alta metoda
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresia logistică
•  Se dorește prezicerea proporţiei de pacienți care vor continua
tratamentul.
•  Se dorește determinarea unei ecuaţii de regresie:
proporţia = intercept + panta1 × consiliere + panta2 × prospect
  Problema este că proporţiile nu pot fi mai mici decât zero sau mai
mari decât unu.
  Cum putem împiedica ecuaţia să prezică proporţii imposibile?
Trebuie găsită o scară prin care rezultatul să nu fie limitat!
à Raportul cotelor nu are limită superioară, astfel că acesta poate fi
mai mare decât unu, dar mai trebuie ca valoarea sa să fie mai mare sau
egală cu zero.
à Logaritmul cotei poate lua orice valoare  se va folosi logaritmul
raportului cotelor numit logit sau transformarea logistică.

Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresia logistică

•  Se dorește prezicerea proporţiei de pacienți care vor


continua tratamentul.
log raport cote = intercept + panta1×consiliere + panta2×prospect
•  panta1= panta pentru consiliere va fi creşterea logaritmului
raportului cotelor pentru continuarea tratamentului în cazul în
care grupul cu consiliere este comparat cu grupul fără
consiliere.
•  panta1 va fi logaritmului raportului cotelor pentru consiliere, cu
ambele estimări şi eroarea sa standard ajustate pentru
prezenţa respectiv absenţa prospectului.
•  Dacă vom antilogaritma vom obține raportul cotelor (OR)
ajustat.
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Regresia logistică
Se dorește prezicerea proporţiei de pacienți care vor continua
tratamentul.
log raport cote = intercept + panta1×consiliere + panta2×prospect
log raportul cotelor = -0.559 + 0.980×consiliere + 0.216× prospect
95% CI: (0.426, 1.53) (-0.339, 0.770)
p = 0.001 p = 0.4
Prin antilogaritmare:
Raportul cotelor = 0.57 × 2.66consiliere × 1.24prospect
95% CI: (1.53, 4.64) (0.71, 2.16)
Observație: consilirea = 0 sau 1, 2.660 = 1 sau 2.661 = 2.66.
Raportul cotelor (OR) pentru consiliere este 2.66,
95% CI: (1.53, 4.64), p = 0.001.
Raportul cotelor (OR) pentru prospect este 1.24,
95% CI: (0.71, 2.16), p = 0.4.
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Dimensiunea eșantionului
•  Va trebui întotdeauna să avem mai multe observaţii
decât variabile.
Reguli empirice:
•  Regresia multiplă: cel puțin 10 observații pentru o
variabilă
•  Regresia logistică: cel puţin 10 observaţiile pentru
rezultatul "da" şi cel puțin 10 observaţii pentru rezultatul
"nu" pentru fiecare variabilă.
•  În caz contrar, metodele pot fi foarte instabile.

Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Tipuri de regresie
Regresia multiplă şi regresia logistică sunt tipurile de regresie care
pot fi văzute de cele mai multe ori în literatura medicală.
Există multe alte tipuri de regresie pentru diverse tipuri de variabile
rezultat:
  Regresia Cox (analiza de supravieţuire)
  Regresie logistică ordonată (variabilele rezultat care sunt
calitative cu categorii ordonate)
  Regresie multinomială (variabile rezultat care sunt calitative cu
categorii neordonate)
  Regresie Poisson (variabile rezultat care sunt valori obținute
prin numărare - counts)
  Regresie binomială negativă (variabile rezultat care sunt valori
obținute prin numărare - counts cu surse suplimentare de
variabilitate)
Elena Poenaru CURS 1

2012
UMF “Carol Davila”
Informatica Medicala & Biostatistica

Bibligrafie
•  Informatica Medicala si Biostatistica – T. Spircu,
Ed Carol Davila 2006
•  Statistica pe intelesul tuturor – Elena Druica, Editura C.H.
Beck, 2011
•  Johnson Robert, Elementary Statistics, Duxbury Press,
1984, Boston
•  www.mste.uiuc.edu/hill/dstat/dstat.html
•  www.stats.gla.ac.uk/steps/glossary/paired_data.htm

Elena Poenaru CURS 1

2012

S-ar putea să vă placă și

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy