Analiza podataka, mere disperzije
INTERNACIONALI UNIVERZITET
U NOVOM PAZARU
FAKULTET ZA INFORMATIKU I INFORMACIONE TEHNOLOGIJE
SEMINARSKI RAD
Predmet: Statističke metode
Tema: Analiza podataka, mere disperzije
Mentor:
Student:
prof. dr.Velimir Sotirović
Tatjana Dimitrijević
br.ind 2296 / 06
Pančevo, Decembar 2008. god.
1
1. KRATAK ISTORIJAT STATISTIČKE ANALIZE
Počeci statističke
analize datiraju nekoliko vekova pre naše ere. Prva poznata
prebrojavanja sprovedena su u Kini oko 4 000 godina pre nove ere i u Egiptu oko 3 000
godina pre nove ere, dok su prvi organizovani popisi vršeni u starom veku u Rimskoj
republici. U srednjem veku vršeni su uglavnom popisi zemljišta i stoke i u nekim
evropskim zemljama registri rođenih, umrlih i venčanih lica.
Prvi sistematski organizovani popisi
stanovništva vršeni su krajem XVIII veka u gradovima
Gotfrida Ačenvala (Gottfried Achenval), profesora univerziteta u Getingenu, Nemačka.
Počeci
statistike kao naučne discipline
skoro istovremeno datiraju od XVII veka u
Nemačkoj i Engleskoj. Početkom XIX veka dolazi do naglog razvoja statističkih teorija,
najviše zahvaljujući razvoju teorije verovatnoće i složenijih matematičkih analiza.
Vrtoglavi razvoj sistema elektronskih računara u drugj polovini XX veka, inicirao je
ogroman skok u aspektu primene statističkih metoda u gotovo svim analizama bilo kojih
masovnih pojava.
U današnje vreme statistika predstavlja simbiozu sledećih komponenti:
•
Deskriptivna satistika
koja se bavi prikupljanjem, obradom i prezentiranjem već
postojećih podataka,
•
Statistčka analiza
koja predstavlja skup statističkih metoda pomoću kojih se vrši
kvantivna analiza međusobnih odnosa između pojava koje imaju masovni karakter
i pomoću kojih se donose određeni zaključci i definišu zakonitosti ponašanja na
osnovu posmatranih pojava,
•
Statistička teorija
koja pronalaza nove statističke metode i usavršava već
postojeće.
1.1.
Predmet statističkog istraživanja
Statistika istažuje pojave koje su po svojoj prirodi varijabilne, koje imaju masovni
karakter i čije ponačanje u masi, na našem noviou intelektualng razvoja, nije unapred
određeno egzaktnim uzročno posledičnim zakonitostima. Posmatranjem i analiziranjem
pojava na velikom broju tih slučajeva, statistika donosi određene zaključke o masovnom
po našanju tih pojava.
1.2.
Statistički skup (populacija osnovni skup)
Skup svih elemenata na kojima se dređena pojava statistički posmatra zove se
statistički skup
(
populacija, osnovni skup
). Pojedinačni elementi iz kojih se statistički skup
sastoji zovi se
elementi statističkog skupa
(
statističke jedinice)
.
Definisajne statističkog skupa u svakom slučaju zavisi od prirodne pojave koja se želi
statistički analizirati, od cilja istaživanja i do raspoloživih mogućnosti posmatranja, ali se
uvek mora voditi računa o tome da statistički skup bude
relativno homogen
, odnosno da
elementi statističkog skupa imaju bar jednu zajedničku osobinu. Što elemnti statističkog
2

koje su toliko velike ili toliko male da imaju iskrivljujući efekat na vrednost sredine, uzorak
se može predstaviti tačnije korišćenjem
medijane
– vrednosti koja sve vrednosti uzorka
deli na dve jednake polovine.
Količine najčešće korišćene za merenje rasipanja (disperzije)
vrednosti oko njihove
sredine su
varijansa
σ
2
i njen kvadratni koren,
standardna devijacija
σ. Varijansa se
izračunava određivanjem sredine, njenim oduzimanjem od svake vrednosti u uzorku (što
daje odstupanje-devijaciju uzoraka), a potom nalaženjem proseka kvadrata ovih
odstupanja.
Sredina i standardna devijacija
uzorka koriste se kao procene odgovarajućih
karakteristika celokupne grupe iz koje je uzorak izvučen. One, uopšte, ne omogućuju
potpuno opisivanje distribucije (F
x
) vrednosti unutar svakog od uzoraka ili njihovih
grupacija, ali, različite distribucije mogu da imaju istu sredinu i standardnu devijaciju.
One, pružaju celoviti opis
normalne distribucije
(rasporeda), u kojoj su pozitivne i
negativne devijacije (odstupanja) od sredine jednake, a male devijacije su znatno manje
zajedničke nego velike devijacije. Za normalno raspoređeni skup vrednosti, grafikon koji
prikazuje zavisnost učestalosti (frekvencija) odstupanja od njihovih veličina (magnitudes)
jeste zvonasta kriva. Oko 68% vrednosti razlikovaće se od sredine rasporeda, manje od
jedne standardne devijacije, a skoro 100% će se razlikovati manje od tri standardne
devijacije.
•
Inferentna statistika
: Inferentna ili prosuđivačka statistika bavi se stvaranjem
sudova na osnovu uzoraka o populacijama iz kojih su uzorci izvučeni. Drugim
rečima, ako nađemo razliku između dva uzorka, želeli bismo da znamo, da li je to
“stvarna” razlika (tj. da li je ona prisutna u populaciji) ili je samo slučajna razlika
(tj. može da bude rezultat greške slučajnog uzorkovanja). Testovi statističke
značajnosti upravo to nastoje da saznaju. Svaki zaključak dobijen na osnovu
podataka uzorka, i prosuđivanjem pripisan populaciji iz koje je uzorak izvučen,
mora biti izražen terminom verovatnoće. Verovatnoća je jezik i sredstvo merenja
nesigurnosti u našim statističkim izračunavanjima.
Inferentna statistika može se koristiti
za objašnjavanje neke pojave ili za proveru
validnosti
(verodostojnosti) tvrdnje
. U slučajevima takvog korišćenja inferentne statistike,
ona se naziva Eksplorativna analiza podataka ili Konfirmativna analiza podataka .
Metodi statističke analize
se mogu podeliti na statčke i dinamičke.
•
Metodi statičke statističke analize
analiziraju promene obeležja unutar
osnovnog skupa (populacije) u okviru jednog trenutka ( ili intervala vremena),
•
Metodi dinamičke statističke analize
analiziraju vremensku zavisnost
obeležja.
Statističko prosuđivanje
: Statističko prosuđivaje (inferencija) se odnosi na
uopštavanje (proširivanje) našeg znanja, dobijenog iz slučajnog uzorka izvučenog iz
celokupne populacije, na celokupnu populaciju. U matematici se taj saznajni postupak
naziva
induktivno rezonovanje
, to jest,
znanje o celini izvedeno iz posebnosti
.
Njegova glavna primena je u testovima hipoteza o određenoj populaciji. Statističko
prosuđivanje usmerava izbor primerenih statističkih modela. Modeli i podaci
međusobno utiču u statističkom radu. Prosuđivanje na osnovu podataka može se
shvatiti kao proces izbora osmišljenog modela, uključujući stav u jeziku verovatnoće o
tome koliko analitičar može da bude pouzdan u pogledu izbora.
4
Statistika se ne bavi prevashodno prosecima, kako joj se to pogrešno pripisuje, nego
mnogo više odstupanjima od proseka (ili od neke druge zajedničke karakteristike),
nastojeći da otkrije opšte karakteristike varijabiliteta posmatranog skupa.
2. ANALIZA PODATAKA
Da bi se izvršila analiza statistickog skupa ili nekog obeležja izračunavaju se nove
veličine, pokazatelji odredenih osobina. Pokazatelji (parametri) koji se najcešce koriste su:
Slika 1.
Pregled najcešće korišćenih parametara statističkog skupa
3. MERE VARIJACIJE (MERE DISPERZIJE)
Mere varijacije su pokazatelji relativnih i apsolutnih odstupanja vrednosti obeležja od
aritmetičke sredine.
Mere varijacije
ili mere disperzije pokazuju kakvo je
variranje podataka u seriji
. Mogu
postojati statističke serije sa istom srednjom vrednošću, a različitim variranjem podataka
oko te srednje vrednosti. Na slici 1 su prikazane dve krive sa istom sredinom i različitim
variranjem podataka oko te sredine. Podaci prikazani krivom B više variarju oko svoje
srednje vrednosti.
Mera varijacije je važna karakteristika jer omogućuje da se relativizira mera centralne
tendencije. Za podatke sa većim varijabilitetm sredina je manje reprezentativan
pokazatelj nego za podatke sa manjim varijabilitetom. Zbog toga se pored
srednje
vrednosti
uvek izračunava i
neka mera varijacije
.
U zavisnosti od načina izračunavanja mere varijacije se dele na apsolutne i relativne.
5

•
srednje apsolutno odstupanje ΑD,
•
interkvartilna varijacija I
Q
,
Relativne mere varijacije:
•
koeficijent varijacije C
V
ili V
u
•
normalizovano (standardizovano) odstupanje z.
4. Apsolutne mere varijacije
4.1.
Interval varijacije
Interval varijacije
predstavlja razliku između najveće i najmanje vrednosti obeležja.
Formule za interval varijacije:
Za negrupisane podatke ili neintervalnu seriju:
I
=
x
max
−
x
min
Kod intervalne serije:
I
=
a
k
−
a
0
gde je:
x
max
– najveća vrednost obeležja,
x
min
– najmanja vrednost obeležja,
a
k
– gornja granica poslednjeg intervala,
a
0
– donja granica prvog intervala.
Primer:
U toku jedne sedmice izmerene su dnevne prosečne temperature u Celzijusovim
stepenima. Koliki je raspon dnevnih temperatura u toku te nedelje?
Nedelja
18,3 °C
Ponedeljak
19,8 °C
Utorak
17,6 °C
Sreda
17,9 °C
Cetvrtak
15,6 °C
Petak
18,1 °C
Subota
15,1 °C
7
Ovaj materijal je namenjen za učenje i pripremu, ne za predaju.
Slični dokumenti