Big Data i semantička analiza: Iskorištavanje vrijednosti nestrukturiranih podataka u poslovanju
SVEUČILIŠTE U SPLITU
EKONOMSKI FAKULTET SPLIT
DIPLOMSKI RAD
Big Data i semantička analiza: Iskorištavanje vrijednosti
nestrukturiranih podataka u poslovanju
MENTOR: STUDENT:
Doc. dr. sc. Maja Ćukušić univ.bacc.oec. Živko Krstić
BROJ INDEKSA:
2120542
Split, Svibanj 2014.
1
Sadržaj

3
Sažetak
U ovom će se radu prezentirati nekoliko pojmova poput Big Data, Semantička analiza,
nestrukturirani podaci te njihova sinergija na projektu koji je nastao u Hrvatskoj (Zagreb).
Osim teorijskog dijela, u radu su prezentirani i konkretni modeli izrađeni u alatu KNIME-e,
koji se pokazao korisnim za potrebe semantičke analize. Kao rezultat ovakvog modela
dobiveni su kvalitetni i vrijedni podaci (pomoću rječnika ili pomoću strojnog učenja ovisno
o svrsi) koji su ekonomski iskoristivi što se i potvrdilo tokom ovog rada. Na temelju ovakvih
podataka poslovna organizacija može ostvariti konkurentsku prednost prepoznavanjem
novih trendova prije svojih konkurenata ili poboljšanjem svog proizvoda ili usluge pomoću
dobivenih informacija.
Ključne riječi
: Big Data, semantička analiza, KNIME, strojno učenje, nestrukturirani podaci
Summary
In this paper concepts such as Big Data, Semantic analysis, unstructured data and their
synergy are presented based on a project that originated from Croatia (Zagreb). In
addition to the theoretical part of this paper concrete models will be presented developed
using the software KNIME-e, which proved to be useful for sentiment analysis. The result
of this model are quality data and valuable data (using a dictionary or using machine
learning depending on purpose) were obatained that are economically exploitable as it
was confirmed during this work. Based on these data business organization can gain a
competitive advantage by identifying new trends before their competitors or improve a
product or a service using the obtained information.
Keywords
: Big Data, sentiment analysis, KNIME, machine learning, unstructured data
4
1.
Uvod
1.1
Problem istraživanja
U ovom radu spomenut će se nekoliko relativno novih pojmova koji su već počeli mijenjati
današnje poslovanje. Radi se o pojmovima Big Data i semantička analiza. U istraživačkom
radu I , koji je autor napisao zajedno s kolegom
1
za potrebe studija na Ekonomskom
fakultetu u Splitu, istražen je potencijal ove teme, a ovim diplomskim radom se proširuju
ova dva pojma te se ukazuje na konkretne primjene u poslovnim organizacijama.
Iako se autori još ne mogu dogovoriti koja je konkretna definicija pojma Big Data, često se
u literaturi spominju tzv. V-ovi u nastojanju da se opiše kompleksnost pojma. Većina
autora, kao i oni koji će se citirati u ovom radu koristi 4 V-a : Volume, Variety, Velocity i
Veracity. Big Data rješenja su idealna za analizu ne samo strukturiranih podataka, koje su
poslovne organizacije navikle analizirati, već i nestrukturiranih i polustrukturiranih podataka
koji često dolaze iz različitih izvora. U ovom radu obratit će se posebna pažnja na
nestrukturirane podatke. Konkretno će se spominjati tekstualni podaci s društvenih mreža i
popularnih internet stranica. Smatra se da su veliki podaci idealni kada je potrebno
analizirati sve podatke za koje se smatra da su relevantni za bolje shvaćanje klijenata.
Drugi pojam koji se spominje je semantička analiza. Cilj semantičke analize je shvaćanje
značenja određenog lingvističkog inputa. Dakle, podaci se prikupljaju, tekst se pretvara u
broj te se dobiveni rezultati koriste u daljnjoj poslovnoj analizi, što dovodi do povećanja
vrijednosti postojećih analiza i outputa, jer su nam dosad ovi podaci bili nedostupni
(barem malim i srednjim poslovnim organizacijama). Semantika se bavi analizom značenja
te stoji u središtu lingvističke potrage prema razumijevanju prirode jezika i jezične
sposobnosti.
Sentiment analysis
ili analiza mišljenja je područje znanosti koje analizira
ljudska mišljenja, osjećaje, pohvale, stavove i emocije prema različitim proizvodima,
uslugama, organizacijama, osobama, problemima, događajima i njihovim atributima.
Dakle, u ovom radu će se semantičkom analizom analizirati mišljenja ljudi objavljena na
društvenim mrežama te internetskim stranicama. Oba pojma (Big Data i semantička
1
Hrvoje Gabelica i Živko Krstić (2013) : Primjena Big Data podataka i rudarenja teksta u suvremenom
poslovanju, Hrvatska, Istraživački rad

6
1.3
Istraživačke hipoteze
Važan dio rada posvećen je postavljanju odgovarajućih istraživačkih hipoteza. Kao što
Belak piše
2
, hipoteza (grč. hypothesis, pretpostavka) je prihvaćanje pretpostavke na kojoj
se temelji neki zaključak, koja služi napretku istraživanja i objašnjavanja, a da nije dokazana
iz drugih načela te da nije potvrđena (verificirana) iskustvom. Dakle, cilj je postavljane
hipoteze dokazati, odnosno ne odbaciti.
Dolje navedenim istraživačkim hipotezama trebala bi se, temeljem aplikativnog
istraživanja, potvrditi istinitost. Hipoteze su:
H
o
: Semantička analiza nestrukturiranih podataka poduprta Big Data tehnologijom je
iskoristiva za potrebe poslovnog odlučivanja
H
1
: Semantička analiza nestrukturiranih podataka poduprta Big Data tehnologijom nije
iskoristiva za potrebe poslovnog odlučivanja
Da bi utvrdili da li je semantička analiza nestrukturiranih podataka poduprta Big Data
iskoristiva za potrebe poslovnog odlučivanja potrebno je utvrditi da li model koji se dobije
semantičkom analizom ima dovoljno kvalitetan output, koji se može iskoristiti za potrebe
poslovnog odlučivanja.
Dakle, u ovom radu će se ispitivati i ove podhipoteze:
H
o
: Podaci dobiveni semantičkom analizom nestrukturiranih podataka poduprtom Big
Data tehnologijom su kvalitetni.
H
1
: Podaci dobiveni semantičkom analizom nestrukturiranih podataka poduprtom Big
Data tehnologijom nisu kvalitetni.
Kvaliteta podataka dobivenih semantičkom analizom nestrukturiranih podataka
poduprtom Big Data tehnologijom će se utvrditi :
2
Belak, S. (2005). Uvod u znanosti. Šibenik: Visoka škola za turistiĉki menadţment u Šibeniku
Ovaj materijal je namenjen za učenje i pripremu, ne za predaju.
Slični dokumenti