SVEUČILIŠTE U SPLITU 

EKONOMSKI FAKULTET SPLIT 

 

 

 

 

DIPLOMSKI RAD 

 

Big Data i semantička analiza: Iskorištavanje vrijednosti 

nestrukturiranih podataka u poslovanju

 

 

 

 

 

MENTOR:                                                                                                           STUDENT: 

Doc. dr. sc. Maja Ćukušić                                                            univ.bacc.oec. Živko Krstić 

                                                                                                                  BROJ INDEKSA: 

                                                                                                                           2120542 

Split, Svibanj 2014. 

 

Sadržaj 

Sažetak .......................................................................................................................................................... 3 

Summary ....................................................................................................................................................... 3 

1.  Uvod ...................................................................................................................................................... 4 

1.1  Problem istraživanja .................................................................................................................. 4 

1.2  Predmet istraživanja .................................................................................................................. 5 

1.3  Istraživačke hipoteze ................................................................................................................. 6 

1.4  Ciljevi istraživanja ....................................................................................................................... 8 

1.5 Metode istraživanja ......................................................................................................................... 8 

1.6 Doprinos istraživanja ...................................................................................................................... 9 

1.7 Sadržaj diplomskog rada............................................................................................................ 10 

2. Big Data ................................................................................................................................................. 12 

2.1 Uvod u Big Data ........................................................................................................................... 12 

2.1.1 Volume .................................................................................................................................... 14 

2.1.2 Variety ...................................................................................................................................... 15 

2.1.3 Velocity .................................................................................................................................... 16 

2.1.4 Veracity .................................................................................................................................... 17 

2.1.5 Value ........................................................................................................................................ 18 

2.2 Hadoop okruženje ....................................................................................................................... 19 

2.2.1. HDFS i MapReduce ............................................................................................................. 19 

2.2.2. Ostali projekti u Hadoop okruženju ................................................................................ 22 

2.2.3. PANDORA Big Data arhitektura ....................................................................................... 26 

2.3 Prednosti i nedostaci Big Data tehnologije ........................................................................... 28 

3. Semantička analiza ............................................................................................................................. 31 

3.1 Uvod u semantičku analizu ........................................................................................................ 31 

3.2 Problemi semantičke analize ..................................................................................................... 33 

3.3 Glavne operacije i tehnike semantičke analize ..................................................................... 35 

3.3.1 IO ............................................................................................................................................... 35 

3.3.2  Obogaćivanje........................................................................................................................ 36 

background image

 

Sažetak 

U  ovom  će  se  radu  prezentirati  nekoliko  pojmova  poput  Big  Data,  Semantička  analiza, 

nestrukturirani podaci te njihova sinergija na projektu koji je nastao u Hrvatskoj (Zagreb). 

Osim teorijskog dijela, u radu su prezentirani i konkretni modeli izrađeni u alatu KNIME-e, 

koji  se  pokazao  korisnim  za  potrebe  semantičke  analize.  Kao  rezultat  ovakvog  modela 

dobiveni su kvalitetni i vrijedni podaci (pomoću rječnika ili pomoću strojnog učenja ovisno 

o svrsi) koji su ekonomski iskoristivi što se i potvrdilo tokom ovog rada. Na temelju ovakvih 

podataka  poslovna  organizacija  može  ostvariti  konkurentsku  prednost  prepoznavanjem 

novih trendova prije svojih konkurenata ili poboljšanjem svog proizvoda ili usluge pomoću 

dobivenih informacija.  

Ključne riječi

: Big Data, semantička analiza, KNIME, strojno učenje, nestrukturirani podaci 

Summary 

In  this  paper  concepts  such  as  Big  Data,  Semantic  analysis,  unstructured  data  and  their 

synergy  are  presented  based  on  a  project  that  originated  from  Croatia  (Zagreb).  In 

addition to the theoretical part of this paper concrete models will be presented developed 

using the software KNIME-e, which proved to be useful for sentiment analysis. The result 

of  this  model  are  quality  data  and  valuable  data  (using  a  dictionary  or  using  machine 

learning  depending  on  purpose)  were  obatained  that  are  economically  exploitable  as  it 

was  confirmed  during  this  work.  Based  on  these  data  business  organization  can  gain  a 

competitive  advantage  by  identifying  new  trends  before  their  competitors  or improve  a 

product or a service using the obtained information. 

Keywords

: Big Data, sentiment analysis, KNIME, machine learning, unstructured data 

 

 

1.

 

Uvod 

1.1

 

Problem istraživanja 

U ovom radu spomenut će se nekoliko relativno novih pojmova koji su već počeli mijenjati 

današnje poslovanje. Radi se o pojmovima Big Data i semantička analiza. U istraživačkom 

radu  I  ,  koji  je  autor  napisao  zajedno  s  kolegom

1

  za  potrebe  studija  na  Ekonomskom 

fakultetu u Splitu, istražen je potencijal ove teme, a ovim diplomskim radom se proširuju 

ova dva pojma te se ukazuje na konkretne primjene u poslovnim organizacijama.  

Iako se autori još ne mogu dogovoriti koja je konkretna definicija pojma Big Data, često se 

u  literaturi  spominju  tzv.  V-ovi  u  nastojanju  da  se  opiše  kompleksnost  pojma.  Većina 

autora, kao i oni koji će se citirati u ovom radu koristi 4 V-a : Volume, Variety, Velocity i 

Veracity. Big Data rješenja su idealna za analizu ne samo strukturiranih podataka, koje su 

poslovne organizacije navikle analizirati, već i nestrukturiranih i polustrukturiranih podataka 

koji  često  dolaze  iz    različitih  izvora.  U  ovom  radu  obratit  će  se  posebna  pažnja  na 

nestrukturirane podatke. Konkretno će se spominjati tekstualni podaci s društvenih mreža i 

popularnih  internet  stranica.  Smatra  se  da  su  veliki  podaci  idealni  kada  je  potrebno 

analizirati sve podatke za koje se smatra da su relevantni za bolje shvaćanje klijenata.  

Drugi pojam koji  se spominje je semantička analiza. Cilj semantičke analize je shvaćanje 

značenja određenog lingvističkog inputa. Dakle, podaci se prikupljaju, tekst se pretvara u 

broj te se dobiveni rezultati koriste u daljnjoj poslovnoj analizi, što dovodi do povećanja 

vrijednosti  postojećih  analiza  i  outputa,  jer  su  nam  dosad  ovi  podaci  bili  nedostupni 

(barem malim i srednjim poslovnim organizacijama).  Semantika se bavi analizom značenja 

te  stoji  u  središtu  lingvističke  potrage  prema  razumijevanju  prirode  jezika  i  jezične 

sposobnosti.   

Sentiment  analysis

  ili  analiza  mišljenja  je  područje  znanosti  koje  analizira 

ljudska  mišljenja,  osjećaje,  pohvale,  stavove  i  emocije  prema  različitim  proizvodima, 

uslugama,  organizacijama,  osobama,  problemima,  događajima  i  njihovim  atributima. 

Dakle, u ovom radu će  se semantičkom  analizom analizirati mišljenja ljudi objavljena  na 

društvenim  mrežama  te  internetskim  stranicama.  Oba  pojma  (Big  Data  i  semantička 

                                                           

1

 Hrvoje Gabelica i Živko Krstić (2013) : Primjena Big Data podataka i rudarenja teksta u suvremenom 

poslovanju, Hrvatska, Istraživački rad 

background image

 

1.3

 

Istraživačke hipoteze 

Važan  dio  rada  posvećen  je  postavljanju  odgovarajućih  istraživačkih  hipoteza.  Kao  što 

Belak piše

2

, hipoteza (grč. hypothesis, pretpostavka) je prihvaćanje pretpostavke na kojoj 

se temelji neki zaključak, koja služi napretku istraživanja i objašnjavanja, a da nije dokazana 

iz  drugih  načela  te  da  nije  potvrđena  (verificirana)  iskustvom.  Dakle,  cilj  je  postavljane 

hipoteze dokazati, odnosno ne odbaciti. 

Dolje  navedenim  istraživačkim  hipotezama  trebala  bi  se,  temeljem  aplikativnog 

istraživanja, potvrditi istinitost. Hipoteze su: 

H

o

:  Semantička  analiza  nestrukturiranih  podataka  poduprta  Big  Data  tehnologijom  je 

iskoristiva za potrebe poslovnog odlučivanja 

H

1

:  Semantička  analiza  nestrukturiranih  podataka  poduprta  Big  Data  tehnologijom  nije 

iskoristiva za potrebe poslovnog odlučivanja 

Da  bi  utvrdili  da  li  je  semantička  analiza  nestrukturiranih  podataka  poduprta  Big  Data 

iskoristiva za potrebe poslovnog odlučivanja potrebno je utvrditi da li model koji se dobije 

semantičkom analizom ima dovoljno kvalitetan output, koji se može iskoristiti za potrebe 

poslovnog odlučivanja.  

Dakle, u ovom radu će se ispitivati i ove podhipoteze: 

H

o

:  Podaci  dobiveni  semantičkom  analizom  nestrukturiranih  podataka  poduprtom  Big 

Data tehnologijom su kvalitetni. 

H

1

:  Podaci  dobiveni  semantičkom  analizom  nestrukturiranih  podataka  poduprtom  Big 

Data tehnologijom nisu kvalitetni. 

Kvaliteta  podataka  dobivenih  semantičkom  analizom  nestrukturiranih  podataka 

poduprtom Big Data tehnologijom će se utvrditi :  

                                                           

2

 Belak, S. (2005). Uvod u znanosti. Šibenik: Visoka škola za turistiĉki menadţment u Šibeniku  

 

Želiš da pročitaš svih 84 strana?

Prijavi se i preuzmi ceo dokument.

Ovaj materijal je namenjen za učenje i pripremu, ne za predaju.

Slični dokumenti