Problemi OZP i CRISP-DM
Data Mining: Definicije i primena
Današnje baze i skladišta podataka se mere veličinama reda terabajta podataka. U toj
masi podataka mogu se kriti informacije od presudnog poslovnog značaja. Postavlja se
pitanje kako do tih informacija doći iz mora podataka koji ih sakrivaju?
Odgovor na to pitanje može dati Data Mining.
Data Mining se može bukvalno prevesti kao rudarenje ili kopanje po podacima i
verovatno i nema boljeg naziva koji opisuje ovaj proces. U primeni Data Mininga
počinjemo od bilo kakvog izvora podataka (biramo mesto za kopanje) i pokušavamo da
pronađemo neke zavisnosti, veze ili pravila koja postoje među podacima. Jednom rečju
pokušavamo iz ogromnog broja nestruktuiranih i razbacanih podataka da dobijemo neko
znanje (grumen zlata) koje će nam koristiti u rešavanju nekog problema ili unapređenju
nekog poslovnog procesa. Naravno u tom procesu, kao ni u rudarenju nije zagarantovan
uspeh u pronalaženju znanja. Do korisnih informacija možemo doći jako brzo, a može se
desiti da posle dugog i napornog kopanja ne pronažemo baš ništa što nama može biti od
koristi. Sa druge strane možemo “slučajno” doći do nekog znanja koje možemo primeniti
pri rešavanju nekih drugih problema.
Postoji jako puno definicija Data Mining – a, to je i logično, jer je Data Mining
jako širok pojam, tako da praktično svaki autor ima svoju definiciju. Navešćemo par
najčešćih:
1.
“ Data Mining je proces otkrivanja značajnih veza, paterna i trendova
kopanjem kroz ogromne kolišine uskladištenih podataka, korišćenjem
tehnologija prepoznavanja paterna, kao i statističkih i matematičkih metoda.
2.
Data Mining je analiza opservacionih skupova podataka , koja služi da bi se
otkrile neočekivane veze i da bi se podaci sumirali na takav način da je
razumljiv i koristan vlasniku podataka.
Zadaci (Problemi) Data Mining – a
Najčešći i najpoznatiji zadaci Data Mining-a su:
Redukcija
Estimacija (Procena)
Predviđanje
Klasifikacija
Klasterovanje
Asocijacija
Redukcija
Redukcija predstavlja smanjivanje ili izostavljanje podataka koji nisu od značaja za
istraživanje u cilju lakšeg uočavanja veza i zavisnosti između atributa ili objekata.
Postoje mnogobrojne metode redukcije podataka. Postoje ručne redukcije i automatske
redukcije (npr. Faktorska analiza).
Redukcija može biti redukcija atributa ili redukcija slučajeva (redova, zapisa). DO treba
da uspostavi kompromis između želje da radi sa upravljivijim podacima i želje da sačuva
tačnost podataka.
Estimacija
Estimacija (Procena, ocena) predstavlja procenu vrednosti određene (egzogene
promenljive) na osnovu postojećih (endogenih) promenljivih koje su zabeležene u
sistemu.
Na slici možemo videti tipičan primer linearne regresije, koja se koristi kao metoda
estimacije u Data Mining-u. Dakle estimacija ili procena daje određeno pravilo ponašanja
koje je izvedeno iz postojećih podataka.

Ovaj materijal je namenjen za učenje i pripremu, ne za predaju.
Slični dokumenti