Statistika – Korelacija
1
1. UVOD
Korelacija
(lat.
con
= sa,
relatio
= odnos) predstavlja suodnos ili međusobnu
povezanost između različitih pojava predstavljenih vrijednostima dviju varijabli. Pri tome
povezanost znači da je vrijednost jedne varijable moguće sa određenom vjerovatnošću
predvidjeti na osnovu saznanja o vrijednosti druge varijable. Klasični primjeri povezanosti su
npr. saznanje o uticaju količine padavina na urod žitarica, o povezanosti slane hrane i visokog
krvnog pritiska i sl. Promjena vrijednosti jedne varijable utiče na promjenu vrijednosti druge
varijable. Varijabla koja svojom vrijednošću utiče na drugu varijablu naziva se
neozavisna
varijabla
. Varijabla na koju se utiče naziva se
zavisna varijabla
. Npr. unošenje više soli u
organizam
utiče
na porast krvnog pritiska, dok porast krvnog pritiska
ne utiče
na povećanje
unošenja soli u organizam. U ovom primjeru unošenje soli u organizam je nezavisna varijabla,
a povećanje krvnog pritiska je zavisna varijabla. Mogući su slučajevi da dvije varijable
istovremeno utiču jedna na drugu, pa su u tom slučaju obe varijable istovremeno su i zavisne i
nezavisne.
Skup statističkih metoda kojima se proučavaju uzajamne veze statističkih obilježja i pojava
(smjer, jačina, oblik) naziva se teorijom korelacije, a osnovni pokazatelji korelacionih veza su
jednačina regresije i koeficijent korelacije.
2. Odnos između varijabli
Međusoban odnos između dvije varijable, grafički možemo prikazati pomoću
dvodimenzionalnog grafikona tzv. scatter dijagram (dijagrama rasipanja). Vrijednosti jedne
varijable prikazane su na x osi, a druge na y osi dijagrama. Tačke presjeka kreću se oko
određenog pravca koji se naziva linija regresije. Što su tačke bliže pravcu, korelacija je veća.
Što su tačke raspršenije korelacija je manja. U praksi je vizualno vrlo teško, osim u
slučaju savršene korelacije odrediti stepen povezanosti između varijabli. Zavisno o
međusobnom odnosu dviju varijabli među kojima postoji korelacija, ona može biti linearna ili
nelinearna. Kod
linearne korelacije
, tačke su grupirane oko pravca. Kod
nelinearne
korelacije
, tačke su grupisane oko neke druge krivulje.
Dvije varijable koje posmatramo sa ciljem utvrđivanja njihove korelacijske povezanosti mogu
biti u 4 različita odnosa:
1. kada mala vrijednost jedne varijable odgovara maloj vrijednosti druge varijable, kao i
kada velika vrijednost jedne varijable odgovara velikoj vrijednosti druge varijable, radi
se o
pozitivnoj
korelaciji.
2. kada mala vrijednost jedne varijable odgovara velikoj vrijednosti druge varijable i
obrnuto, radi se o
negativnoj
korelaciji.
3. kada vrijednost jedne varijable u nekim intervalima odgovara maloj vrijednosti druge
varijable, a u drugim intervalima velikoj vrijednosti, radi se o
nemonotonoj
korelaciji.
Ako se korelacija više nego jednom mijenja od pozitivne prema negativnoj, takva
korelacija naziva se
ciklička
korelacija.
4. kada se na osnovu vrijednosti jedne varijable ne može zaključiti ništa o vrijednosti
druge varijable, tada korelacija ne postoji. Tačke u takvom grafitu su raspršene.
2
3. Koeficijent koleracije
Koeficijent korelacije izražava mjeru povezanosti između dvije varijable u jedinicama
nezavisnim i jedinicama mjere u kojima su iskazane vrijednosti varijabli. Postoji više
koeficijenata korelacije koji se koriste u različitim slučajevima. U praksi se prilikom rada s
linearnim modelima najčešće koristi Pearsonov koeficijent korelacije (produkt moment
koeficijent korelacije). Prilikom rada s modelima koji nisu linearni najčešće se koristi
Spearmanov koeficijent korelacije (produkt rang koeficijent korelacije).
3.1. Pearsonov koeficijent korelacije
Pearsonov koeficijent korelacije koristi se u slučajevima kada između varijabli
posmatranog modela postoji linearna povezanost i neprekidna normalna distribucija.
Vrijednost Pearsonovog koeficijenta korelacije kreće se od +1 (savršena pozitivna korelacija)
do –1 (savršena negativna korelacija). Predznak koeficijenta nas upućuje na smjer korelacije –
da li je pozitivna ili negativna, ali nas ne upućuje na snagu korelacije. Pearsonov koeficijent
korelacije bazira se na poređenju stvarnog uticaja posmatranih varijabli jedne na drugu u
odnosu na maksimalni mogući uticaj dviju varijabli. Označava se malim latiničkim slovom
r
.
Za izračun koeficijenta korelacije potrebna su tri različite sume kvadrata
(SS)
: suma kvadrata
varijable
X
, suma kvadrata varijable
Y
i suma proizvoda varijabli
X
i
Y
.
Suma kvadrata varijable
X
jednaka je sumi kvadrata odstupanja vrijednosti varijable
X
od
njezine prosječne vrijednosti:
Prosečna vrijednost varijable
X
jednaka je:
Suma kvadrata varijable
Y
jednaka je sumi kvadrata odstupanja vrijednosti varijable
Y
od njene
prosječne vrijednosti:
Prosječna vrijednost varijable
Y
jednaka je:

Ovaj materijal je namenjen za učenje i pripremu, ne za predaju.
Slični dokumenti