Regresiona analiza
Tehnoloski fakultet u Leskovcu
SEMINARSKI RAD
TEMA: REGRESIONA ANALIZA
Student: Nikolić Kristina 5279
Mentor:
Nenad Ćirković
SEMINARSKI RAD
SADRŽAJ:
1 Tumačenje modela logističke regresije
.................................................................................4
Tumačenje linearne aproksimacije
...........................................................................4
Tumačenje racija verovatnoće dešavanja
................................................................7
................................................................................................. 8
Intervali pouzdanosti za efekte
.................................................................................9
Distribucija proračuna verovatnoće
.......................................................................10
Kvalitet podesnosti za modele sa neprekidnim prediktorima
..............................11
Uporedni testovi kvaliteta podesnosti i modela racija verodostojnosti
Višestruka logistička regresija
........................................................................................14
Primer sa krabama pri korišćenju prediktora boje i širine
.................................14
Kvantitativna obrada rednog prediktora
..............................................................16
Odabir modela sa nekoliko prediktora
..................................................................17
2

SEMINARSKI RAD
1 Tumačenje modela logističke regresije
Statističko modeliranje binarnih promenljivih odgovora podrazumeva merenje izbora koje za
svaki subjekat može biti uspešno ili neuspešno. Binarni podaci su verovatno najčešći oblik
kategorijskih podataka. Najrasprostranjeniji model binarnih podataka je
logistička regresija
.
Za binarni izbor Y i kvantitativnu objašnjavajuću promenljivu X, neka π(x) predstavlja
verovatnoću uspeha kada X ima vrednost x. Ova verovatnoća je parametar za binomnu
distribuciju. Model logističke regresije ima linearni oblik za logit ove verovatnoće.
(Jednačina 1)
Ova formula prikazuje da π(x) raste ili opada sa S-funkcijom od
x
.
Druga formula za logističku regresiju odnosi se direktno na verovatnoću uspeha. Ova formula
koristi eksponencijalnu funkciju exp(x) = e
x
u obliku
(Jednačina 2)
1.1 Tumačenje linearne aproksimacije
Parametar β određuje stopu rasta ili opadanja S-krive. Oznaka β β ukazuje na to da li je kriva
opadajuća ili rastuća, kao i na stopu rasta promene kako | β | raste. Kada model ima vrednost β
= 0, desna strana Jednačine 2 pojednostavljuje se u konstantu. Zatim, π(x) je identičan sa svim
x
, te kriva prelazi u horizontalnu pravu liniju. Binarni izbor Y postaje potom konstanta X.
Grafik 1 pokazuje S-stranu modela logističke regresije za π(x). Budući da ova funkcija ima
zakrivljeni, a ne pravolinijski izgled, zaključuje se da stopa promene u π(x) po jedinici
promene u
x
varira. Prava linija koja predstavlja tangentu na krivi za datu vrednost
x
prikazuje
stopu promene u toj tački. Za parametar β logističke regresije, ta prava ima nagib jednak
. Na primer, linija tangente na krivu za vrednost x kod koje je π(x) = 0,5 ima
nagib β(0,5)(0,5) = 0,25β; s druge strane, kada je π(x) = 0,9 ili 0,1, nagib iznosi 0,09β. Nagib
se približava vrednosti 0 kako se verovatnoća približava vrednosti 1,0 ili 0.
Najoštriji nagib krive događa se za vrednost
x
kada je π(x) = 0,5; ova vrednost
x
iznosi
x = -α / β. (Vrednost π(x) = 0,5 se ovde može proveriti zamenom -α / β za x u Jednačini 2, to
jest, zamenom vrednosti π(x) = 0,5 u Jednačini 1 i rešavanjem po
x
) Ova vrednost
x
se ponekad
naziva
srednjim nivoom efektivnosti
i označava se sa EL
50
. Njime se prikazuje nivo kod kojih
svaki rezultat ima 50% šanse.
4
SEMINARSKI RAD
Graf 1: Linearna aproksimacija logističke regresione krive
1.2 Primer sa krabama
Izračunavanja maksimalne verodostojnosti (ML) za modele uklapanja logističke regresije su
prilično složena, ali se lako izvode korišćenjem statističkog softvera. U svrhu ilustracije ovog
modela mogu se koristiti podaci u vezi sa krabama. Binarni izbor će se koristiti da bi se videlo
dali ženke krabe imaju prisutnog mužjaka (tj. satelita); u tom smislu, važi Y = 1 ako ženka
krabe ima bar jednog satelita, a Y = 0 ako nema satelita.
Grafik 2 prikazuje podatke koji se sastoje od skupa tačaka na nivou Y = 1 i drugi niz tačaka na
nivou Y = 0. Numerisani simboli ukazuju na broj opservacija u svakoj tački. Izgleda da Y = 1
teži da se dogodi relativno češće što su veće
x
vrednosti. Pošto Y uzima samo vrednosti 0 i 1,
teško je odrediti da li model logističke regresije ima smisla prilikom razvijanja Y za vrednost
x
. Bolje informacije rezultiraju iz grupisanja vrednosti širine u svaku katerogoriju i računanja
uzorka za udeo kraba koji imaju satelite za svaku kategoriju. Ovim se otkriva da li prave
proporcije slede približno trend koji zahteva ovaj model. Tabela 1 prikazuje podatke
grupisanja kojima se može ispitati adekvatnost Pojzonovih modela regresije. U svakoj od osam
kategorija širine računali smo uzorak za udeo kraba koji imaju satelite, kao i srednju širinu za
krabe u ovoj kategoriji. Grafik 2 takođe sadrži osam tačaka koje predstavljaju uzorak
proporcije ženki kraba koje imaju satelite koji se računa preko srednjih širina za ovih osam
kategorija.
5

Ovaj materijal je namenjen za učenje i pripremu, ne za predaju.
Slični dokumenti