Pregled metoda za utvrđivanje broja faktora i komponenti (u EFA i PCA)
203
Siniša Subotić
1
NVO „Persona”,
Banja Luka;
CEON, Beograd
1
Adresa autora:
UDC 159.9.072.5
Originalni naučni rad
PREGLED METODA ZA UTVRĐÐIVANJE BROJA
FAKTORA I KOMPONENTI
(U EFA I PCA)
Premda veoma popularna, faktorska analiza (i analiza glavnih
komponenti) (pre)c�esto je pogrešno korišten statistic�ki postupak. Jedan
od tipic�nih izvora grešaka tic�e se donošenja odluke o broju dimenzija
koje treba zadržati. Iako su postupci za odred¯enje ovog broja znac�ajno
uznapredovali, vec´ina autora i dalje se pridržava zastarjelih i nepreciznih
metoda, što kompromituje validnost istraživanja i usporava nauc�ni razvoj.
Ciljevi ovog rada su da na uzorku domac´ih c�lanaka utvrdi zastupljenost
pojedinih metoda za utvrd¯ivanje broja dimenzija i da prezentuje pregled
tih metoda i ilustruje njihovu (ne)preciznost, uz prijedlog adekvatnijih
postupaka. Nalazi evaluacije, sprovedene na domac´im c�lancima
(dostupnim na internetu) i objavljenim od 1995. do polovine 2012.
godine, u kojima su korištene faktorska ili analiza glavnih komponenti
(139 c�lanaka iz 25 c�asopisa), sugerišu da veliki procenat (29.50%)
autora uopšte ne specifikuje metod za odred¯enje broja dimenzija i da
vec´ina za ovo koristi demonstrabilno neprecizne postupke, poput Kaiser-
Guttmanovog k.k. > 1, Cattellovog
scree
testa ili njihove kombinacije, pri
c�emu je najrobusniji postojec´i postupak, paralelna analiza, samostalno ili
u kombinaciji sa drugim postupcima, korištena u svega 5.03% sluc�ajeva.
Slijedec´i ove nalaze i oslanjajuc´i se na rezultate k.k. > 1postojec´ih
sistematic�nih simulacionih studija, dat je opsežan pregled paralelne
analize, k.k. > 1 pravila,
scree
test, MAP i Hull postupaka i prikazano
je nekoliko primjera koji na „minimalno tehnic�ki nac�in” demonstriraju
neefikasnost najpopularnijih postupaka i ukazuju na robusnije alternative.
Na kraju, date su i preporuke za primjenu i kombinovanje postupaka za
odred¯enje broja faktora i komponenti, sa akcentom na paralelnu analizu
Likertovih ajtema.
Klju~ne rije~i:
paralelna analiza, Kaiser-Guttmanovo pravilo,
scree
test, MAP, Hull
Primljeno: 10. 01. 2013.
Primljena korekcija:
30. 08. 2013.
Prihvac´eno za štampu:
02. 09. 2013.
PRIMENJENA PSIHOLOGIJA, 2013, Vol.
6(3), STR. 203-229
primenjena psihologija 2013/3
Siniša Subotic´
204
Eksplorativna faktorska analiza (
Exploratory Factor Analysis
– EFA), zajedno
sa svojom „mlađom sestrom” − analizom glavnih komponenti (
Principal Component
Analysis
– PCA),
2
široko je primjenjivano oruđe u velikom broju naučnih disciplina
(Brown, 2006; Reyment & Jöreskog, 1996), naročito u društvenim naukama
(Costello & Osborne, 2005), uzimajući često centralnu ulogu u inicijalnim fazama
konstrukt validacije (Brown, 2006; Steger, 2006). Uprkos popularnosti, EFA se
veoma često pogrešno koristi (Costello & Osborne, 2005; Fabrigar et al., 1999;
Norris & Lecavalier, 2010). Za ovo postoji više potencijalnih razloga, od kojih
se naročito izdvajaju tri (Fabrigar et al., 1999): 1) istraživači su nedovoljno i
pogrešno informisani o upotrebi faktorske analize, za šta djelimična odgovornost
leži i u kompleksnosti dostupne literature; 2) istraživači se rukovode tradicijom,
trudeći se da analize sprovedu na načine koji su ranije upotrebljavani (zbog
želje za direktnom komparabilnošću sa prethodnim nalazima, zbog izbjegavanja
„poteškoće sa recenzentima”, zbog vjerovanja da procedura mora da je ispravna
kada je toliko drugih ljudi koristi itd.); 3) popularni statistički programi imaju
relativno loše implementacije EFA.
EFA/PCA podrazumijeva veći broj koraka (Comrey, 1978, Costello & Osborne,
2005; Fabrigar et al., 1999; Gorsuch, 1983; Lee & Ashton, 2007; Preacher &
MacCallum, 2003; Tabachnick & Fidell, 2007; Velicer & Fava, 1998) i konsekventnih
odluka od kojih zavisi adekvatnost analize. Jedna od najvažnijih, a istovremeno
i najneispravnije sprovođenih, jeste odluka o određenju broja dimenzija koje
treba zadržati u analizi (Comrey, 1978; Fabrigar et al., 1999; Fava & Velicer,
1992; Lorenzo-Seva, Timmerman, & Kiers, 2011; O’Connor, 2000; Timmerman
& Lorenzo-Seva, 2011; Zwick & Velicer, 1986). Greške u ovom pogledu mogu
se manifestovati kao
podfaktorisanje
(zadržavanje manjeg broja dimenzija od
stvarnog) i
prefaktorisanje
3
(zadržavanje većeg broja dimenzija od stvarnog).
Podfaktorisanje se uglavnom smatra ozbiljnijim propustom od prefaktorisanja
(Fava & Velicer, 1992), pošto je gubitak informacija nakon podfaktorisanja
hipotetski veći od greške koja se dodaje prefaktorisanjem. Podfaktorisanje takođe
dovodi do javljanja artificijelno kompleksnih (i često neinterpretabilnih) dimenzija
(Comrey, 1978), nastalih „prisilnom” agregacijom više dimenzija u jednu.
Svrha ovog rada je dvojaka. Prvo, utvrdiću koji postupci za određenje
broja dimenzija su najfrekventniji u „domaćim” člancima. Drugo, pored opisa i
objašnjenja najpoznatijih postupaka, formiraću i prikazati više primjera, koji,
u skladu sa modernim saznanjima i preporukama iz literature, ali bez previše
tehničkih detalja, ilustruju (ne)preciznost najpopularnijih kriterijuma i ukazuju
na optimalne alternative i načine njihove implementacije.
2
EFA i PCA imaju sličnosti i razlike koje nisu u fokusu ovog rada i zahtijevaju zasebna razmatranja
(pogledati npr.: Fabrigar, Wegener, MacCallum, & Strahan, 1999; Gorsuch, 1990; Snook & Gorsuch, 1989;
Velicer & Jackson, 1990a, 1990b), te usprkos popularnoj upotrebi, termini
faktor
i
komponenta
nisu
sinonimi, iako postoje mnoge sličnosti u postupcima za određenje njihovog broja. U nastavku teksta,
termin
dimenzija
upotrebljavaću kao zajedničku oznaku i za
faktor
i za
komponentu
.
3
U širem smislu, prefaktorisanje i podfaktorisanje odnose se i na faktore i na komponente.

primenjena psihologija 2013/3
Siniša Subotic´
206
(tj. polazne) korelacione matrice (što je u skladu sa PCA paradigmom), iako bi, u
slučaju procjene broja faktora, prikladnije bilo koristiti vrijednosti iz redukovane
korelacione matrice (dobijene nakon faktorizacije) (Fabrigar et al., 1999; Lorenzo-
Seva et al., 2011).
MAP
MAP
(
Minimum Average Partial test
:
Velicer, 1976)
je
metod zasnovan na
matrici parcijalnih korelacija. Procedura podrazumijeva računanje prosječnog
kvadrata parcijalnih korelacija reziduala (preostale, neobjašnjene varijanse)
nakon ekstrakcije i parcijalizacije (tj. statističke kontrole doprinosa) određenog
broja komponenti. Broj komponenti je optimalan kada je sva nerezidualna
varijansa obuhvaćena ekstrahovanim komponentama, tj. kada je dostignut
minimalni prosječni kvadrat parcijalne korelacije reziduala
.
Simulacija Zwicka i Velicera (Zwick & Velicer, 1986) ukazuje da je MAP bolji
od
scree
testa u određenju broja komponenti (67.5% nasuprot 41.7% u uslovima
nižih, tj. 97.1% nasuprot 71.2% u uslovima viših saturacija), te da globalno daje
procjene od ± 1 u intervalu od 78% (za niže saturacije) do 100% uspješnosti (za više
saturacije). Kada griješi, MAP u oko 90% grešaka podcjenjuje broj dimenzija, što je
više izraženo u uslovima nižih saturacija i manjeg broja varijabli po komponenti.
Premda je formiran za potrebe utvrđivanja broja komponenti u PCA, logika
MAP postupka uslovno je komplementarna i logici EFA. Kao takav, MAP postupak
je uspješan u detekciji faktora u određenim okolnostima – i do 100% u slučajevima
kada je broj varijabli po faktoru visok, a uzorci veći, iako je ukupna uspješnost oko
51% (Lorenzo-Seva et. al., 2011).
Paralelna analiza
PA (Horn, 1965) je postupak koji počiva na pretpostavci da treba zadržati
samo one dimenzije čiji su k.k. veći od k.k. koje je moguće dobiti na osnovu slučaj
-
nih podataka sa analognim karakteristikama (npr. isti broj varijabli i slučajeva).
PA, dakle, uzima u obzir varijabilitet koji je rezultat specifičnosti uzorkovanja i
može se posmatrati kao modifikacija, odnosno popravka K1 pravila, pošto pru
-
ža egzaktnu polaznu osnovu za eliminaciju dimenzija čija varijansa nije veća od
one koja bi se očekivala kod nasumičnih podataka (kod kojih nikakve „stvarne”
dimenzije ne postoje). Sprovođenje PA podrazumijeva nekoliko koraka. Prvo se,
na osnovu korelacione matrice stvarnih podataka, izračunaju njihovi k.k. Nakon
toga, simulira se
K
paralelnih setova slučajnih podataka i izračunaju se njihovi k.k.
Na kraju, k.k. stvarnih podataka porede se sa korespodentnim k.k. tih slučajnih
podataka (tj. prvi stvarni sa prvim slučajnim, drugi stvarni sa drugim slučajnim
itd.). Zadržava se onoliki broj dimenzija koliko ima k.k. stvarnih podataka koji su
veći od svojih slučajnih parnjaka
.
S obzirom na to da PA, u praksi, podrazumijeva generisanje više paralelnih
slučajnih setova (
K >
1), k.k. slučajnih podataka mogu se dobiti kao proste ari
-
primenjena psihologija, str. 203-229
PREGLED METODA ZA UTVRÐIVANJE BROJA FAKTORA I KOMPONENTI (U EFA I PCA)
207
tmetičke sredine korespodentnih k.k. sa
K
slučajnih setova i ovo je poznato kao
kriterijum aritmetičke sredine
(
AS
). Međutim, kako je utvrđeno da kriterijum
AS
ima izvjesnu tendenciju ka precjenjivanju broja dimenzija, više autora (vidjeti npr.
Buja & Eyuboglu, 1992; Glorfeld, 1995) predložilo je alternativne, konzervativnije
kriterijume, koji podrazumijevaju poređenje k.k. stvarnih podataka sa vrijedno
-
stima slučajnih podataka sa različitih percentila – najšire prihvaćen u praksi je
kri-
terijum 95. percentila
(tj. 95% kvantila) (Buja & Eyuboglu, 1992; Glorfeld, 1995).
Opšta praksa obično podrazumijeva simultano razmatranje i
AS
i 95. percentila
(ili rjeđe nekog drugog, npr. 90. ili 99. percentila).
Što se broja preporučenih paralelnih setova (
K
) tiče, on varira od „nominal
-
nih”
K =
1 (Horn, 1965), preko npr. bar
K =
50 (Hayton, Allen, & Scarpello, 2004;
Zwick & Velicer, 1986), pa sve do
K ≥
1000 (Buja & Eyuboglu, 1992; O’Connor,
2000; Steger, 2006; Tran & Formann, 2009). Čini se da su preporuke o nižim vri
-
jednostima
K
u prošlosti uglavnom bile rezultat teškoće izvođenja kalkulacija, što
danas, u svjetlu rapidnog razvoja kompjuterske tehnologije i automatizacije ra
-
čunanja, više nije relevantan problem. Ipak, iako ne postoji eksplicitan empirijski
koncenzus o optimalnoj veličini
K
, tentativno sugerišem da je 500–1000 paralel
-
nih setova vjerovatno dovoljno za većinu praktičnih potreba.
Generisanje slučajnih paralelnih setova podrazumijevano se vrši imajući nji
-
hovu normalnu raspodjelu u vidu. Hipotetički gledano, ovo može biti problem
u slučaju kada distribucija stvarnih podataka značajnije odstupa od normalne.
Jedan od načina da se ovaj problem riješi jeste generisanje paralelnih setova na
osnovu permutacija stvarnih podataka (npr. Buja & Eyuboglu, 1992), što osigura
-
va da paralelni setovi zadrže iste distribucije kao i stvarni podaci (što predstavlja
svojevrsnu neparametrijsku verziju PA). Međutim, postoje indicije da
je
PA, zasno
-
vana na normalno distribuiranim slučajnim varijablama, relativno robusna na od
-
stupanja od normalnosti stvarnih varijabli (Buja & Eyuboglu, 1992; Dinno, 2009;
Hayton, 2009; Timmerman & Lorenzo-Seva, 2011), tako da permutacije najčešće
nisu neophodne, osim možda u situacijama naglašenije zakrivljenosti, ali ovo pi
-
tanje još nije do kraja razriješeno. Timmerman i Lorenzo-Seva (Timmerman & Lo
-
renzo-Seva, 2011) npr. pokazuju da u slučaju ordinalnih (npr. Likert) varijabli ne
postoje velike razlike u solucijama koje podrazumijevaju normalno distribuirane
paralelne setove i permutiranje stvarnih podataka.
Paralelna analiza zasnovana je na komponentnom modelu i premda se u prak
-
si često koristi i za određenje broja faktora (Lorenzo-Seva et al., 2011; Timmer
-
man & Lorenzo-Seva, 2011), takva praksa nije nužno optimalna u konceptualnom
smislu. Najpoznatiji pokušaj modifikacije PA u skladu sa EFA logikom izvršio je
O’Connor (2000), zasnivajući je na metodu faktorizacije glavnih osa (PAF). Kasnije
je utvrđeno da ovakva operacionalizacija pati od osjetne tendencije ka prefaktori
-
sanju (Steger, 2006; Timmerman & Lorenzo-Seva, 2011) i da je zapravo PCA imple
-
mentacija optimalnija za određenje broja dimenzija i u PCA i u EFA (Timmerman
& Lorenzo-Seva, 2011). Najnoviji pokušaj modifikacije PA u skladu sa faktorskim
modelom preduzimaju Timmerman i Lorenzo-Seva (Timmerman & Lorenzo-Seva,
2011), zasnivajući je na faktorskoj analizi minimalnog ranga tj. MRFA (
Minimum

primenjena psihologija, str. 203-229
PREGLED METODA ZA UTVRÐIVANJE BROJA FAKTORA I KOMPONENTI (U EFA I PCA)
209
rijablama i da se ovo može kvantifikovati preko različitih numeričkih pokazate
-
lja – indikatora slaganja, odnosno fita. Iako su ovi indikatori češće upotrebljavani
u okviru konfirmativne faktorske analize i strukturalnog modelovanja (Brown,
2006; Hooper, Coughlan, & Mullen, 2008; Hu & Bentler, 1998), moguća je i njihova
primjena za potrebe procjene adekvatnosti eksplorativnog faktorskog rješenja.
Simulacije sugerišu da su performanse nekih popularnih indikatora poput hi-kva
-
drata (specifično: Bartlettov hi-kvadrat test) (Zwick & Velicer, 1986) ili informaci
-
onih kriterijuma (AIC i BIC) (Lorenzo-Seva et al., 2011) uglavnom loše.
Utvrđujući okolnosti pod kojima indikatori RMSEA (korijen prosječne kvadri
-
rane greške aproksimacije), SRMR (standardizovani korijen prosječnih kvadrata
reziduala) i CFI (komparativni indeks fita) daju najoptimalnije procjene broja
faktora i pridodajući im novi indeks fita – indeks objašnjene zajedničke varijanse
(
Common part accounted for
– CAF), Lorenzo-Seva i saradnici (Lorenzo-Seva et al.,
2011) implementiraju novi algoritam za određenje broja faktora – Hull metod.
Specijalno kreiran za utvrđivanje broja faktora, Hull pokušava da identifikuje mo
-
del sa optimalnim balansom između fita i broja parametara. Kao gornju granicu
broja faktora, Hull uzima rezultate PA +1, dok je minimalni broj dimenzija koje
identifikuje uvijek 1 (čak i kada je stvarni broj 0). Performanse SRMR indeksa bile
su najlošije i on je izostavljen iz algoritma, te su zadržani samo CFI, CAF i RMSEA
(a prva dva indeksa pokazala su najbolje performanse).
Hull metod naročito je precizan u situacijama u kojima je broj varijabli po
faktoru visok (i performanse mu se popravljaju sa porastom veličine uzorka), a
u cjelini je pokazao uspješnost detekcije broja faktora između 85% i 94% (Lo
-
renzo-Seva et al., 2011), nadmašivši tako performanse Hornove (Horn, 1965) PA
(direktne komparacije sa PA–MRFA za sada nisu učinjene). Hull je, uz funkciju koja
automatski predlaže optimalan indeks fita u zavisnosti od parametara analize,
uključen u najnovije verzije programa FACTOR (Lorenzo-Seva & Ferrando, 2006).
Metod
Prikupljanje podataka za evaluaciju članaka
U cilju utvrđivanja popularnosti postupaka za određenje broja dimenzija u
EFA i PCA, izvršio sam preglednu analizu „domaćih” naučnih članaka, dostupnih
na portalu SCIndeksa (http://scindeks.ceon.rs/; videti Šipka, 2005), uz dodatak
članaka iz časopisa
Primenjena psihologija
(http://primenjena.psihologija.edu.
rs/). Članke sa SCIndeks baze odabrao sam na osnovu pretrage riječi faktorska
analiza/
factor analysis
i analiza glavnih komponenti/
principal component analysis
,
dok sam članke iz
Primenjene psihologije
, zbog izostanka automatske pretrage,
selektovao ručno. U analizu su ušli radovi iz svih naučnih disciplina, dostupni
u punom tekstu, u kojima je korištena EFA/PCA, a nakon eliminacije članaka u
kojima se autori samo pozivaju na nalaze eksternalnih EFA/PCA ili u kojima je
PCA korištena samo u cilju svođenja skorova na tzv. prvu glavnu komponentu.
Ovaj materijal je namenjen za učenje i pripremu, ne za predaju.
Slični dokumenti