203

Siniša Subotić

1

 

NVO „Persona”, 

Banja Luka; 

CEON, Beograd

1  

Adresa autora: 

[email protected]

UDC  159.9.072.5 

Originalni naučni rad

PREGLED METODA ZA UTVRĐÐIVANJE BROJA 
FAKTORA I KOMPONENTI  
(U EFA I PCA)

Premda veoma popularna, faktorska analiza (i analiza glavnih 
komponenti) (pre)c�esto je pogrešno korišten statistic�ki postupak. Jedan 
od tipic�nih izvora grešaka tic�e se donošenja odluke o broju dimenzija 
koje treba zadržati. Iako su postupci za odred¯enje ovog broja znac�ajno 
uznapredovali, vec´ina autora i dalje se pridržava zastarjelih i nepreciznih 
metoda, što kompromituje validnost istraživanja i usporava nauc�ni razvoj. 
Ciljevi ovog rada su da na uzorku domac´ih c�lanaka utvrdi zastupljenost 
pojedinih metoda za utvrd¯ivanje broja dimenzija i da prezentuje pregled 
tih  metoda  i  ilustruje  njihovu  (ne)preciznost,  uz  prijedlog  adekvatnijih 
postupaka.  Nalazi  evaluacije,  sprovedene  na  domac´im  c�lancima 
(dostupnim  na  internetu)  i  objavljenim  od  1995.  do  polovine  2012. 
godine, u kojima su korištene faktorska ili analiza glavnih komponenti 
(139  c�lanaka  iz  25  c�asopisa),  sugerišu  da  veliki  procenat  (29.50%) 
autora uopšte ne specifikuje metod za odred¯enje broja dimenzija i da 
vec´ina za ovo koristi demonstrabilno neprecizne postupke, poput Kaiser-
Guttmanovog k.k. > 1, Cattellovog 

scree

 testa ili njihove kombinacije, pri 

c�emu je najrobusniji postojec´i postupak, paralelna analiza, samostalno ili 
u kombinaciji sa drugim postupcima, korištena u svega 5.03% sluc�ajeva. 
Slijedec´i  ove  nalaze  i  oslanjajuc´i  se  na  rezultate  k.k.  >  1postojec´ih 
sistematic�nih  simulacionih  studija,  dat  je  opsežan  pregled  paralelne 
analize, k.k. > 1 pravila, 

scree

 test, MAP i Hull postupaka i prikazano 

je  nekoliko  primjera  koji  na  „minimalno  tehnic�ki  nac�in”  demonstriraju 
neefikasnost najpopularnijih postupaka i ukazuju na robusnije alternative. 
Na kraju, date su i preporuke za primjenu i kombinovanje postupaka za 
odred¯enje broja faktora i komponenti, sa akcentom na paralelnu analizu 
Likertovih ajtema.

Klju~ne rije~i:

 paralelna analiza, Kaiser-Guttmanovo pravilo, 

scree

 

test, MAP, Hull

Primljeno: 10. 01. 2013.
Primljena korekcija:  
30. 08. 2013.
Prihvac´eno za štampu:  
02. 09. 2013.

PRIMENJENA PSIHOLOGIJA, 2013, Vol. 

6(3), STR. 203-229

primenjena psihologija 2013/3

Siniša Subotic´

204

Eksplorativna faktorska analiza (

Exploratory Factor Analysis

 – EFA), zajedno 

sa svojom „mlađom sestrom” − analizom glavnih komponenti (

Principal Component 

Analysis 

– PCA),

2

 široko je primjenjivano oruđe u velikom broju naučnih disciplina 

(Brown,  2006;  Reyment  &  Jöreskog,  1996),  naročito  u  društvenim  naukama 

(Costello & Osborne, 2005), uzimajući često centralnu ulogu u inicijalnim fazama 

konstrukt  validacije  (Brown,  2006;  Steger,  2006).  Uprkos  popularnosti,  EFA  se 

veoma često pogrešno koristi (Costello & Osborne, 2005; Fabrigar et al., 1999; 

Norris  &  Lecavalier,  2010).  Za  ovo  postoji  više  potencijalnih  razloga,  od  kojih 

se  naročito  izdvajaju  tri  (Fabrigar  et  al.,  1999):  1)  istraživači  su  nedovoljno  i 

pogrešno informisani o upotrebi faktorske analize, za šta djelimična odgovornost 

leži i u kompleksnosti dostupne literature; 2) istraživači se rukovode tradicijom, 

trudeći  se  da  analize  sprovedu  na  načine  koji  su  ranije  upotrebljavani  (zbog 

želje za direktnom komparabilnošću sa prethodnim nalazima, zbog izbjegavanja 

„poteškoće sa recenzentima”, zbog vjerovanja da procedura mora da je ispravna 

kada  je toliko drugih ljudi koristi itd.); 3) popularni statistički programi imaju 

relativno loše implementacije EFA.

EFA/PCA podrazumijeva veći broj koraka (Comrey, 1978, Costello & Osborne, 

2005;  Fabrigar  et  al.,  1999;  Gorsuch,  1983;  Lee  &  Ashton,  2007;  Preacher  & 

MacCallum, 2003; Tabachnick & Fidell, 2007; Velicer & Fava, 1998) i konsekventnih 

odluka od kojih zavisi adekvatnost analize. Jedna od najvažnijih, a istovremeno 

i  najneispravnije  sprovođenih,  jeste  odluka  o  određenju  broja  dimenzija  koje 

treba  zadržati  u  analizi  (Comrey,  1978;  Fabrigar  et  al.,  1999;  Fava  &  Velicer, 

1992;  Lorenzo-Seva,  Timmerman,  &  Kiers,  2011;  O’Connor,  2000;  Timmerman 

&  Lorenzo-Seva,  2011;  Zwick  &  Velicer,  1986).  Greške  u  ovom  pogledu  mogu 

se  manifestovati  kao 

podfaktorisanje

  (zadržavanje  manjeg  broja  dimenzija  od 

stvarnog)  i 

prefaktorisanje

3

  (zadržavanje  većeg  broja  dimenzija  od  stvarnog). 

Podfaktorisanje  se  uglavnom  smatra  ozbiljnijim  propustom  od  prefaktorisanja 

(Fava  &  Velicer,  1992),  pošto  je  gubitak  informacija  nakon  podfaktorisanja 

hipotetski veći od greške koja se dodaje prefaktorisanjem. Podfaktorisanje takođe 

dovodi do javljanja artificijelno kompleksnih (i često neinterpretabilnih) dimenzija 

(Comrey, 1978), nastalih „prisilnom” agregacijom više dimenzija u jednu.

Svrha  ovog  rada  je  dvojaka.  Prvo,  utvrdiću  koji  postupci  za  određenje 

broja  dimenzija  su  najfrekventniji  u  „domaćim”  člancima.  Drugo,  pored  opisa  i 

objašnjenja  najpoznatijih  postupaka,  formiraću  i  prikazati  više  primjera,  koji, 

u  skladu  sa  modernim  saznanjima  i  preporukama  iz  literature,  ali  bez  previše 

tehničkih detalja, ilustruju (ne)preciznost najpopularnijih kriterijuma i ukazuju 

na optimalne alternative i načine njihove implementacije.

2  

EFA  i  PCA  imaju  sličnosti  i  razlike  koje  nisu  u  fokusu  ovog  rada  i  zahtijevaju  zasebna  razmatranja 

(pogledati npr.: Fabrigar, Wegener, MacCallum, & Strahan, 1999; Gorsuch, 1990; Snook & Gorsuch, 1989; 

Velicer  &  Jackson,  1990a,  1990b),  te  usprkos  popularnoj  upotrebi,  termini 

faktor

 i 

komponenta

  nisu 

sinonimi,  iako  postoje  mnoge  sličnosti  u  postupcima  za  određenje  njihovog  broja.  U  nastavku  teksta, 

termin 

dimenzija

 upotrebljavaću kao zajedničku oznaku i za 

faktor

 i za 

komponentu

.

3  

U širem smislu, prefaktorisanje i podfaktorisanje odnose se i na faktore i na komponente.

background image

primenjena psihologija 2013/3

Siniša Subotic´

206

(tj. polazne) korelacione matrice (što je u skladu sa PCA paradigmom), iako bi, u 

slučaju procjene broja faktora, prikladnije bilo koristiti vrijednosti iz redukovane 

korelacione matrice (dobijene nakon faktorizacije) (Fabrigar et al., 1999; Lorenzo-

Seva et al., 2011).

MAP

MAP

 

(

Minimum Average Partial test

:

 

Velicer,  1976)

 

je

 

metod  zasnovan  na 

matrici  parcijalnih  korelacija.  Procedura  podrazumijeva  računanje  prosječnog 

kvadrata  parcijalnih  korelacija  reziduala  (preostale,  neobjašnjene  varijanse) 

nakon ekstrakcije i parcijalizacije (tj. statističke kontrole doprinosa) određenog 

broja  komponenti.  Broj  komponenti  je  optimalan  kada  je  sva  nerezidualna 

varijansa  obuhvaćena  ekstrahovanim  komponentama,  tj.  kada  je  dostignut 

minimalni prosječni kvadrat parcijalne korelacije reziduala

.

Simulacija Zwicka i Velicera (Zwick & Velicer, 1986) ukazuje da je MAP bolji 

od 

scree

 testa u određenju broja komponenti (67.5% nasuprot 41.7% u uslovima 

nižih, tj. 97.1% nasuprot 71.2% u uslovima viših saturacija), te da globalno daje 

procjene od ± 1 u intervalu od 78% (za niže saturacije) do 100% uspješnosti (za više 

saturacije). Kada griješi, MAP u oko 90% grešaka podcjenjuje broj dimenzija, što je 

više izraženo u uslovima nižih saturacija i manjeg broja varijabli po komponenti.

Premda je formiran za potrebe utvrđivanja broja komponenti u PCA, logika 

MAP postupka uslovno je komplementarna i logici EFA. Kao takav, MAP postupak 

je uspješan u detekciji faktora u određenim okolnostima – i do 100% u slučajevima 

kada je broj varijabli po faktoru visok, a uzorci veći, iako je ukupna uspješnost oko 

51% (Lorenzo-Seva et. al., 2011).

Paralelna analiza

PA (Horn, 1965) je postupak koji počiva na pretpostavci da treba zadržati 

samo one dimenzije čiji su k.k. veći od k.k. koje je moguće dobiti na osnovu slučaj

-

nih podataka sa analognim karakteristikama (npr. isti broj varijabli i slučajeva). 

PA, dakle, uzima u obzir varijabilitet koji je rezultat specifičnosti uzorkovanja i 

može se posmatrati kao modifikacija, odnosno popravka K1 pravila, pošto pru

-

ža egzaktnu polaznu osnovu za eliminaciju dimenzija čija varijansa nije veća od 

one koja bi se očekivala kod nasumičnih podataka (kod kojih nikakve „stvarne” 

dimenzije ne postoje). Sprovođenje PA podrazumijeva nekoliko koraka. Prvo se, 

na osnovu korelacione matrice stvarnih podataka, izračunaju njihovi k.k. Nakon 

toga, simulira se 

K

 paralelnih setova slučajnih podataka i izračunaju se njihovi k.k. 

Na kraju, k.k. stvarnih podataka porede se sa korespodentnim k.k. tih slučajnih 

podataka (tj. prvi stvarni sa prvim slučajnim, drugi stvarni sa drugim slučajnim 

itd.). Zadržava se onoliki broj dimenzija koliko ima k.k. stvarnih podataka koji su 

veći od svojih slučajnih parnjaka

.

S obzirom na to da PA, u praksi, podrazumijeva generisanje više paralelnih 

slučajnih setova (

K > 

1), k.k. slučajnih podataka mogu se dobiti kao proste ari

-

primenjena psihologija, str. 203-229

PREGLED METODA ZA UTVRÐIVANJE BROJA FAKTORA I KOMPONENTI (U EFA I PCA)

207

tmetičke sredine korespodentnih k.k. sa 

K

 slučajnih setova i ovo je poznato kao 

kriterijum aritmetičke sredine

 (

AS

). Međutim, kako je utvrđeno da kriterijum 

AS

 

ima izvjesnu tendenciju ka precjenjivanju broja dimenzija, više autora (vidjeti npr. 

Buja & Eyuboglu, 1992; Glorfeld, 1995) predložilo je alternativne, konzervativnije 

kriterijume, koji podrazumijevaju poređenje k.k. stvarnih podataka sa vrijedno

-

stima slučajnih podataka sa različitih percentila – najšire prihvaćen u praksi je 

kri-

terijum 95. percentila

 (tj. 95% kvantila) (Buja & Eyuboglu, 1992; Glorfeld, 1995). 

Opšta praksa obično podrazumijeva simultano razmatranje i 

AS

 i 95. percentila 

(ili rjeđe nekog drugog, npr. 90. ili 99. percentila).

Što se broja preporučenih paralelnih setova (

K

) tiče, on varira od „nominal

-

nih” 

K = 

1 (Horn, 1965), preko npr. bar 

K = 

50 (Hayton, Allen, & Scarpello, 2004; 

Zwick & Velicer, 1986), pa sve do 

K ≥ 

1000 (Buja & Eyuboglu, 1992; O’Connor, 

2000; Steger, 2006; Tran & Formann, 2009). Čini se da su preporuke o nižim vri

-

jednostima 

K

 u prošlosti uglavnom bile rezultat teškoće izvođenja kalkulacija, što 

danas, u svjetlu rapidnog razvoja kompjuterske tehnologije i automatizacije ra

-

čunanja, više nije relevantan problem. Ipak, iako ne postoji eksplicitan empirijski 

koncenzus o optimalnoj veličini 

K

, tentativno sugerišem da je 500–1000 paralel

-

nih setova vjerovatno dovoljno za većinu praktičnih potreba.

Generisanje slučajnih paralelnih setova podrazumijevano se vrši imajući nji

-

hovu  normalnu  raspodjelu  u  vidu.  Hipotetički  gledano,  ovo  može  biti  problem 

u  slučaju  kada  distribucija  stvarnih  podataka  značajnije  odstupa  od  normalne. 

Jedan od načina da se ovaj problem riješi jeste generisanje paralelnih setova na 

osnovu permutacija stvarnih podataka (npr. Buja & Eyuboglu, 1992), što osigura

-

va da paralelni setovi zadrže iste distribucije kao i stvarni podaci (što predstavlja 

svojevrsnu neparametrijsku verziju PA). Međutim, postoje indicije da

 

je

 

PA, zasno

-

vana na normalno distribuiranim slučajnim varijablama, relativno robusna na od

-

stupanja od normalnosti stvarnih varijabli (Buja & Eyuboglu, 1992; Dinno, 2009; 

Hayton, 2009; Timmerman & Lorenzo-Seva, 2011), tako da permutacije najčešće 

nisu neophodne, osim možda u situacijama naglašenije zakrivljenosti, ali ovo pi

-

tanje još nije do kraja razriješeno. Timmerman i Lorenzo-Seva (Timmerman & Lo

-

renzo-Seva, 2011) npr. pokazuju da u slučaju ordinalnih (npr. Likert) varijabli ne 

postoje velike razlike u solucijama koje podrazumijevaju normalno distribuirane 

paralelne setove i permutiranje stvarnih podataka.

Paralelna analiza zasnovana je na komponentnom modelu i premda se u prak

-

si često koristi i za određenje broja faktora (Lorenzo-Seva et al., 2011; Timmer

-

man & Lorenzo-Seva, 2011), takva praksa nije nužno optimalna u konceptualnom 

smislu. Najpoznatiji pokušaj modifikacije PA u skladu sa EFA logikom izvršio je 

O’Connor (2000), zasnivajući je na metodu faktorizacije glavnih osa (PAF). Kasnije 

je utvrđeno da ovakva operacionalizacija pati od osjetne tendencije ka prefaktori

-

sanju (Steger, 2006; Timmerman & Lorenzo-Seva, 2011) i da je zapravo PCA imple

-

mentacija optimalnija za određenje broja dimenzija i u PCA i u EFA (Timmerman 

& Lorenzo-Seva, 2011). Najnoviji pokušaj modifikacije PA u skladu sa faktorskim 

modelom preduzimaju Timmerman i Lorenzo-Seva (Timmerman & Lorenzo-Seva, 

2011), zasnivajući je na faktorskoj analizi minimalnog ranga tj. MRFA (

Minimum 

background image

primenjena psihologija, str. 203-229

PREGLED METODA ZA UTVRÐIVANJE BROJA FAKTORA I KOMPONENTI (U EFA I PCA)

209

rijablama i da se ovo može kvantifikovati preko različitih numeričkih pokazate

-

lja – indikatora slaganja, odnosno fita. Iako su ovi indikatori češće upotrebljavani 

u  okviru  konfirmativne  faktorske  analize  i  strukturalnog  modelovanja  (Brown, 

2006; Hooper, Coughlan, & Mullen, 2008; Hu & Bentler, 1998), moguća je i njihova 

primjena  za  potrebe  procjene  adekvatnosti  eksplorativnog  faktorskog  rješenja. 

Simulacije sugerišu da su performanse nekih popularnih indikatora poput hi-kva

-

drata (specifično: Bartlettov hi-kvadrat test) (Zwick & Velicer, 1986) ili informaci

-

onih kriterijuma (AIC i BIC) (Lorenzo-Seva et al., 2011) uglavnom loše.

Utvrđujući okolnosti pod kojima indikatori RMSEA (korijen prosječne kvadri

-

rane greške aproksimacije), SRMR (standardizovani korijen prosječnih kvadrata 

reziduala)  i  CFI  (komparativni  indeks  fita)  daju  najoptimalnije  procjene  broja 

faktora i pridodajući im novi indeks fita – indeks objašnjene zajedničke varijanse 

(

Common part accounted for

 – CAF), Lorenzo-Seva i saradnici (Lorenzo-Seva et al., 

2011) implementiraju novi algoritam za određenje broja faktora – Hull metod. 

Specijalno kreiran za utvrđivanje broja faktora, Hull pokušava da identifikuje mo

-

del sa optimalnim balansom između fita i broja parametara. Kao gornju granicu 

broja faktora, Hull uzima rezultate PA +1, dok je minimalni broj dimenzija koje 

identifikuje uvijek 1 (čak i kada je stvarni broj 0). Performanse SRMR indeksa bile 

su najlošije i on je izostavljen iz algoritma, te su zadržani samo CFI, CAF i RMSEA 

(a prva dva indeksa pokazala su najbolje performanse). 

Hull metod naročito je precizan u situacijama u kojima je broj varijabli po 

faktoru visok (i performanse mu se popravljaju sa porastom veličine uzorka), a 

u cjelini je pokazao uspješnost detekcije broja faktora između 85% i 94% (Lo

-

renzo-Seva et al., 2011), nadmašivši tako performanse Hornove (Horn, 1965) PA 

(direktne komparacije sa PA–MRFA za sada nisu učinjene). Hull je, uz funkciju koja 

automatski  predlaže  optimalan  indeks  fita  u  zavisnosti  od  parametara  analize, 

uključen u najnovije verzije programa FACTOR (Lorenzo-Seva & Ferrando, 2006).

Metod

Prikupljanje podataka za evaluaciju članaka

U cilju utvrđivanja popularnosti postupaka za određenje broja dimenzija u 

EFA i PCA, izvršio sam preglednu analizu „domaćih” naučnih članaka, dostupnih 

na portalu SCIndeksa (http://scindeks.ceon.rs/; videti Šipka, 2005), uz dodatak 

članaka  iz  časopisa 

Primenjena psihologija 

(http://primenjena.psihologija.edu.

rs/). Članke sa SCIndeks baze odabrao sam na osnovu pretrage riječi faktorska 

analiza/

factor analysis

 i analiza glavnih komponenti/

principal component analysis

dok sam članke iz 

Primenjene psihologije

, zbog izostanka automatske pretrage, 

selektovao  ručno.  U  analizu  su  ušli  radovi  iz  svih  naučnih  disciplina,  dostupni 

u punom tekstu, u kojima je korištena EFA/PCA, a nakon eliminacije članaka u 

kojima se autori samo pozivaju na nalaze eksternalnih EFA/PCA ili u kojima je 

PCA korištena samo u cilju svođenja skorova na tzv. prvu glavnu komponentu.

Želiš da pročitaš svih 27 strana?

Prijavi se i preuzmi ceo dokument.

Ovaj materijal je namenjen za učenje i pripremu, ne za predaju.

Slični dokumenti