Data mining
Univerzitet u Beogradu
DATA MINIG
Uvod--------------------------------------------------------------------------------------------------------------3
Pojam, poreklo i primena-------------------------------------------------------------------------------------3
Ciklus Data Mining-a-----------------------------------------------------------------------------------------4
Metode Data Mining-a----------------------------------------------------------------------------------------5

Veštačka inteligencija - predstavlja mešavinu konvencionalne nauke, fiziologije i
psihologije, sve u cilju da se napravi mašina koja bi se, po ljudskim merilima, mogla
smatrati "inteligentnom". Baze podataka – predstavlja kolekciju podataka organizovanih
za brzo pretraživanje i pristup, koja zajedno sa sistemom za administraciju, organizovanje
i memorisanje tih podataka, čini sistem baze podataka. Iz ugla korisnika, podaci su na
neki način logički način povezani.
Prepoznavnaje oblika (paterni)
Primeri primene:
Identifikovati sve uslove koje je potrebno staviti u ugovor da bi se izbegli rizični krediti
(klasifikacija)
Pronaći studente sa sličnim ocenama (klasterovanje)
Odrediti broj studenata koji će se prijaviti na ispite u narednom ispitnom roku (predviđanje)
Odrediti sve izlete koje treba ponuditi turistima koji izaberu određenu destinaciju (pravilo
pridruživanja)
Ciklus Data Mining-a
Istraživanje počinje od podataka u nekom baznom obliku. Nakon toga sledi
podataka
koje za cilj ima da te grube podatke pretvori u nešto što je istražive prirode i da izvuče
iz njih onaj skup podataka koji može biti relevantan za ciljano istraživanje. Tek onda se prelazi na
Data Minig
.
Ova etapa je veoma raznolika. Naime, postoje razni algoritmi koji se mogu primeniti
nad podacima, i koji daju nekakve rezultate. Izbor algoritma uglavnom zavisi od prirode podataka
nad kojima se primenjuje, ali i naravno od tipa rezultata koji bi on trebao da izbaci- npr. Da li se
želi neko predviđanje ili izvlačenje nekih pravilnosti tj. principa itd. Konačno, kada izaberemo
algoritam i dobijemo neke razumne rezultate, onda sledi etapa:
postprocesiranje
. Iako je dobar
deo posla završen i ova etapa ima svoju težinu. Osnovni zadatak je da se prouči tj. shvate dobijeni
rezultati, ili njihova validnost. Dakle, potrebno je stvoriti nekakvu vizualizaciju dobijenih
rezultata, odnosa ili relacija koje su dobijene itd.
Preprocesiranje podataka kao što je rečeno, služi da bi se podaci transformisali u nešto što više
odgovara potrebama istraživanja.
Konkretno, možemo navesti sledeće celine u preprocesiranju:
Agregacija više atributa u jedan
Izbor uzorka
Smanjenje dimenzionalnosti tj smanjivanje broja atributa na kojima se vrši analiza
Izbor relevantnih atributa za analizu
Transformacija postojećih atributa pomoću određenih funkcija
Formiranje novih atributa
Diskretizacija i binarizacija. Diskretizacija znači transformisanje kontinualnog atributa u
diskretni, dok binarizacija označava svođenje nebinarnog atributa na binarni atribut
Preprocesiranje podataka je možda najmukotrpniji deo Data Mininga, a nakon toga dolazi na red
na nešto malo kreativnije, opipljivjie, nešto što će dati rezultate, a to su algoritmi i metode samog
istraživanja.
Metode Data Mining-a
Analitičke tehnike koje se koriste u Data Miningu , u velikom broju slučajeva su odavno poznate
matematičke tehnike i algoritmi koje su korišćene godinama pre toga. Iako je DM mlada
tehnologija, dosta se koriste ranija saznanja. Tehnike koje se najčešće primenjuju uglavnom su
izvedene iz tri glavne oblasti: statistike, mašinskog učenja i baza podataka.
Klasifikacija
Prvi alat koji koristi data mining je zadatak klasifikacije
.
Ulazni podatak u klasifikaciju je skup
instanci, tzv.
trening skup
. Svaka instanca je oblika (X,Y) gde je X skup vrednosti atributa, a Y
specijalni atribut koji sadrži informaciju o klasi te instance. X je skup vrednosti atributa, a atributi
mogu biti kontinualni ili diskretni, ali atribut klasa
,
čiju vrednosti sadrži Y, mora biti diskretni
atribut.
Zadatak je naći klasifikcioni model, funkciju koja preslikava svaki skup vrednosti X u jednu od
predefinisanih oznaka klasa Y. Kada se taj model nađe, onda se sa njim postiže cilj, a to je:
slogovima koji nisu poznati od ranije, što preciznije pridružiti jednu od klasa.
Da bi bili sigurni u tačnost našeg modela, koriste se test podaci. Naime, obično se ulazni podaci
podele u dva dela: podatke nad kojim se kreira model – trening skup, i podatke za testiranje,
koriste se za proveru kvaliteta napravljenog modela – test skup
.
Postoje razne tehnike koje se bave problemom klasifikacije. Svaka od tih tehnika upošljava neki
svoj samoučeći algoritam koji pronalazi model koji najbolje shvata vezu između vrednosti
atributa i klase objekata. Model koji dobro klasifikuje trening podatke
,
ali se i dobro ponaša nad
test skupom je model kakav tražimo, a tehničko pitanje koje proizilazi je: kako da znamo da se
model dobro ponaša nad nekim skupom podataka
.
Evaluacija modela se jednostavno može
Ovaj materijal je namenjen za učenje i pripremu, ne za predaju.
Slični dokumenti