Univerzitet u Beogradu

DATA MINIG

Uvod--------------------------------------------------------------------------------------------------------------3
Pojam, poreklo i primena-------------------------------------------------------------------------------------3
Ciklus Data Mining-a-----------------------------------------------------------------------------------------4
Metode Data Mining-a----------------------------------------------------------------------------------------5

Klasifikacija-----------------------------------------------------------------------------------------------------------5

Stablo odlučivanja--------------------------------------------------------------------------------------------------------------6
Karakteristike drva odlučivanja-----------------------------------------------------------------------------------------------6
Klasifikator zasnovan na pravilima-------------------------------------------------------------------------------------------7
Karakteristike klasifikatora zasnovanih na pravilima----------------------------------------------------------------------7
Klasifikatori zasnovani na instancama---------------------------------------------------------------------------------------8
Karakteristike klasifikatora zasnovanim na instancama-------------------------------------------------------------------8
Bajesov klasifikator-------------------------------------------------------------------------------------------------------------9

Neuronske mreze-----------------------------------------------------------------------------------------------------9

Regresija--------------------------------------------------------------------------------------------------------------10

Pravila pridruživanja----------------------------------------------------------------------------------------------11

Klaster analiza------------------------------------------------------------------------------------------------------12

Zaključak-------------------------------------------------------------------------------------------------------15

Literatura-------------------------------------------------------------------------------------------------------16

background image

Veštačka   inteligencija   -   predstavlja   mešavinu   konvencionalne   nauke,   fiziologije   i 
psihologije, sve u cilju da se napravi mašina koja bi se, po ljudskim merilima, mogla 
smatrati "inteligentnom". Baze podataka – predstavlja kolekciju podataka organizovanih 
za brzo pretraživanje i pristup, koja zajedno sa sistemom za administraciju, organizovanje 
i memorisanje tih podataka, čini sistem baze podataka. Iz ugla korisnika, podaci su na 
neki način logički način povezani. 

Prepoznavnaje oblika (paterni)

Primeri primene:

Identifikovati   sve   uslove   koje   je   potrebno   staviti   u   ugovor   da   bi   se   izbegli   rizični   krediti 
(klasifikacija)
Pronaći studente sa sličnim ocenama (klasterovanje)
Odrediti broj studenata koji će se prijaviti na ispite u narednom ispitnom roku (predviđanje)
Odrediti   sve   izlete   koje   treba   ponuditi   turistima   koji   izaberu   određenu   destinaciju   (pravilo 
pridruživanja)

Ciklus Data Mining-a

Istraživanje   počinje   od   podataka   u   nekom   baznom   obliku.   Nakon   toga   sledi  

preprocesiranje 

podataka

 

koje za cilj ima da te grube podatke pretvori u nešto što je istražive prirode i da izvuče 

iz njih onaj skup podataka koji može biti relevantan za ciljano istraživanje. Tek onda se prelazi na 
Data Minig

Ova etapa je veoma raznolika. Naime, postoje razni algoritmi koji se mogu primeniti 

nad podacima, i koji daju nekakve rezultate. Izbor algoritma uglavnom zavisi od prirode podataka 
nad kojima se primenjuje, ali i naravno od tipa rezultata koji bi on trebao da izbaci- npr. Da li se 
želi neko predviđanje ili izvlačenje nekih pravilnosti tj. principa itd. Konačno, kada izaberemo 
algoritam i dobijemo neke razumne rezultate, onda sledi etapa: 

postprocesiranje

.  Iako je dobar 

deo posla završen i ova etapa ima svoju težinu. Osnovni zadatak je da se prouči tj. shvate dobijeni 
rezultati,   ili   njihova   validnost.   Dakle,   potrebno   je   stvoriti   nekakvu   vizualizaciju   dobijenih 
rezultata, odnosa ili relacija koje su dobijene itd.

Preprocesiranje podataka kao što je rečeno, služi da bi se podaci transformisali u nešto što više 
odgovara potrebama istraživanja.

Konkretno, možemo navesti sledeće celine u preprocesiranju:

Agregacija više atributa u jedan

Izbor uzorka

Smanjenje dimenzionalnosti tj smanjivanje broja atributa na kojima se vrši analiza

Izbor relevantnih atributa za analizu

Transformacija postojećih atributa pomoću određenih funkcija

Formiranje novih atributa

Diskretizacija i binarizacija. Diskretizacija znači transformisanje kontinualnog atributa u 
diskretni, dok binarizacija označava svođenje nebinarnog atributa na binarni atribut

Preprocesiranje podataka je možda najmukotrpniji deo Data Mininga, a nakon toga dolazi na red 
na nešto malo kreativnije, opipljivjie, nešto što će dati rezultate, a to su algoritmi i metode samog 
istraživanja. 

Metode Data Mining-a

Analitičke tehnike koje se koriste u Data Miningu , u velikom broju slučajeva su odavno poznate 
matematičke tehnike i algoritmi koje su korišćene godinama pre toga. Iako je DM mlada 
tehnologija, dosta se koriste ranija saznanja. Tehnike koje se najčešće primenjuju uglavnom su 
izvedene iz tri glavne oblasti: statistike, mašinskog učenja i baza podataka.

Klasifikacija

Prvi alat koji koristi data mining je zadatak klasifikacije

Ulazni podatak u klasifikaciju je skup 

instanci, tzv. 

trening skup

.  Svaka instanca je oblika (X,Y) gde je X skup vrednosti atributa, a Y 

specijalni atribut koji sadrži informaciju o klasi te instance. X je skup vrednosti atributa, a atributi 
mogu biti kontinualni ili diskretni, ali atribut klasa

,

 čiju vrednosti sadrži Y, mora biti diskretni 

atribut. 
Zadatak je naći klasifikcioni model, funkciju koja preslikava svaki skup vrednosti X u jednu od 
predefinisanih oznaka klasa Y. Kada se taj model nađe, onda se sa njim postiže cilj, a to je:  
slogovima koji nisu poznati od ranije, što preciznije pridružiti jednu od klasa.
Da bi bili sigurni u tačnost našeg modela, koriste se test podaci. Naime, obično se ulazni podaci 
podele u dva dela: podatke nad kojim se kreira model –  trening skup, i podatke za testiranje, 
koriste se za proveru kvaliteta napravljenog modela – test skup

.

Postoje razne tehnike koje se bave problemom klasifikacije. Svaka od tih tehnika upošljava neki 
svoj  samoučeći   algoritam  koji   pronalazi   model   koji   najbolje   shvata   vezu   između   vrednosti 
atributa i klase objekata. Model koji dobro klasifikuje trening podatke

,

 ali se i dobro ponaša nad 

test skupom je model kakav tražimo, a tehničko pitanje koje proizilazi je: kako da znamo da se 
model   dobro   ponaša   nad   nekim   skupom   podataka

Evaluacija   modela   se   jednostavno   može 

Želiš da pročitaš svih 16 strana?

Prijavi se i preuzmi ceo dokument.

Ovaj materijal je namenjen za učenje i pripremu, ne za predaju.

Slični dokumenti