Odlomak

 

S napretkom informatičkih tehnologija i sve većom dostupnošću tih tehnologija široj populaciji, činjenica je da postoje ogromne količine podataka koje pune računala, mreže i živote. Vladine agencije, znanstvene institucije, i poduzeća su posvetili ogromnu količinu resursa za prikupljanje i pohranjivanje podataka, dok u stvarnosti vrlo mala količina tih podataka će se koristiti jer u mnogim slučajevima, količine su jednostavno prevelike za upravljanje, ili je sama struktura tih podataka prekomplicirana za analiziranje. Glavni je razlog taj što je često izvorni napor za stvaranje skupa podataka usmjeren na pitanja poput učinkovitosti skladištenja, ali to ne uključuje plan kako će se ti podaci koristiti i analizirati.
Potreba za razumijevanjem velikih, složenih, informacijom bogatih podataka je zajednička gotovo svim područjima poslovanja, znanosti i inženjeringa. U poslovnome svijetu podaci o tvrtki i klijentima su prepoznati kao strateška imovina. Sposobnost za izvlačenjem skrivenog korisnog znanja u tim podacima i djelovanjem prema tome znanju je sve važnija u današnjem konkurentnom svijetu. Cijeli proces primjene računalne metodologije, uključujući nove tehnike, za otkrivanje znanja iz podataka se naziva rudarenje po podacima.
Rudarenje po podacima je računalni proces otkrivanja uzoraka u velikim skupovima podataka koji uključuju metode mašinskog učenja, statistike i sistema baza podataka. To je interdisciplinarno područje računalnih nauka. Cjelokupni cilj procesa prikupljanja podataka jest izvući podatke iz skupa podataka i pretvoriti ih u razumljivu strukturu za daljnju upotrebu.
Osim koraka analize, rudarenje po podacima uključuje aspekte upravljanja bazom podataka i podacima, pred-procesiranje podataka, modeli i zaključna razmatranja, metrike zanimljivosti, razmatranje složenosti, vizualizacija, i online ažuriranje.
Najbolji rezultati se postižu balansiranjem znanja stručnjaka u opisivanju problema i ciljeva s mogućnostima pretraživanja kod računala. Dva primarna cilja rudarenja po podacima obično su predviđanje i opis. Predviđanje uključuje upotrebu varijabli i polja u skupu podataka za predviđanje nepoznatih ili budućih vrijednosti drugih varijabla od interesa. Opis se, s druge strane, usredotočuje na utvrđivanje uzoraka koji opisuju podatke koje ljudi mogu interpretirati.

Aktivnosti u rudarenju po podacima je moguće svesti na dvije kategorije:
1. Prediktivno rudarenje – proizvodi model sistema opisanog od strane datog skupa podataka.
2. Deskriptivno rudarenje – proizvodi nove informacije na temelju dostupnog seta podataka.
Ciljevi predviđanja i opisa se postižu korištenjem tehnika za rudarenje po podacima za sljedeće primarne zadatke kod rudarenja:
1. Klasifikacija – Otkrivanje prediktivne funkcije učenja koja klasificira podatke u jednu od nekoliko definiranih klasa.
2. Regresija – Otkrivanje prediktivne funkcije učenja koja mapira podatak na varijablu predviđanja stvarne vrijednosti.
3. Grupiranje (klasteriranje) – Deskriptivni zadatak u kojem se nastoji identificirati konačan skup podataka ili klastera za opisivanje podataka.
4. Sažetak – Dodatni deskriptivni zadatak koji uključuje metoda za pronalaženje kompaktnog opisa za skup podataka.
5. Modeliranje ovisnosti – Pronalaženje lokalnog modela koji opisuje značajne zavisnosti.
6. Detekcija promjena i devijacija – Otkrivanje najznačajnijih promjena u skupu podataka.
Uspjeh rudarenja po podatcima uveliko ovisi o količini energije, znanja i kreativnosti koju rudar uloži. Rudarenje je poput rješavanja slagalice. Pojedini dijelovi nisu složene strukture, ali kao cjelina, oni mogu predstavljati vrlo razrađene i složene sisteme. Stoga, biti analitičar i dizajner u procesu rudarenja zahtijeva, osim temeljitog stručnog znanja, kreativno razmišljanje i mogućnost gledanja problema iz različitih perspektiva.

No votes yet.
Please wait…

Prijavi se

Detalji dokumenta

Više u Informacione tehnologije

Više u Seminarski radovi

Više u Skripte

Komentari