SEMINARSKI  RAD

Tema: HADOOP VIRTUALNA MAŠINA U MULTIMEDIJALNIM 

KOMUNIKACIJAMA

Predmet: MULTIMEDIJA

Mentor:                                                               Student:

Prof.dr Borivoje Milošević                       Jovan Milić И-22/2019

Beograd, jun 2023

2

SADRŽAJ:

1. UVOD......................................................................................................................3
2. HADOOP.................................................................................................................4

2.1.

Osnovne informacije o Hadoopu........................................................................4

2.2.

Distribucije Hadoopa..........................................................................................5

2.3.

Hadoop didtribuirani sistem datoteka.................................................................6

2.4.

MapReduce........................................................................................................10

3. Hadoop ekosistem....................................................................................................12
4. Obrada nestruktuiranih podataka.............................................................................15
5. ZAKLJUČAK..........................................................................................................17
6. LITERATURA.........................................................................................................18

background image

4

2. HADOOP

Jedna od tehnologija koja je gotovo sigurno postala standard i koja se najčešće vezuje za Big Data 
jeste Hadoop. Ukratko rečeno, Hadoop je open-source framework Apache fondacije. Služi za 
skladištenje i procesiranje velikih količina podataka. Hadoop je nastao još 2005. godine, baziran na 
radovima koda koji je objavio Google.

Napisan je u programskom jeziku Java, ali Hadoop programeri ne moraju nužno da budu Java 
orijentisani, već mogu koristiti gotovo bilo koji programski jezik. Dizajniran je tako da radi na 
commodity hardveru, odnosno na jeftinim hardverskim resursima.

Kada je reč o Hadoopu, a i kasnije zbog upoređivanja sa Sparkom, bitno je shvatiti da se on sastoji 
iz četiri dela.

Hadoop Common – niz biblioteka i konfiguracionih fajlova koji su potrebni za rad samog 
Hadoopa.

HDFS je Hadoop distribuirani fajl sistem, koji je zadužen za skladištenje podataka u 
klasteru.Podaci se čuvaju u formi blokova i kopirani su u tri kopije kroz klaster, tako da ako 
dođe do otkaza neke mašine, postoji kopija na još dve.

MapReduce   –   od   druge   generacije   Hadoopa   postao   je   samo   model   za   procesiranje 
podataka.

YARN   –   može   se   reći   Hadoop   operativni   sistem,   zadužen   je   za   raspodelu   resursa   i 
upravljanje   poslovima,   što   je   do   druge   generacije   Hadoop-a   bilo   u   sastavnom   delu 
MapReduce programiranja.

Osim ove četiri komponente Hadoop se oslanja na svoj ekosistem, odnosno na specijalizovane 
alate za prikupljanje podataka (Flume, Kafka, Sqoop), procesiranje podataka (Pig, Hive, Storm…), 
upravljanje (Ambari, Falcon…).

Sve navedeno je skup koji čini jednu Big Data aplikaciju, koja u zavisnosti od slučaja do slučaja 
koristi neke od ovih alata. Ono što sam iz iskustva naučio jeste da jednu kvalitetnu Big Data 
aplikaciju nikako ne čini jedna tehnologija, i da je najbolje iskoristiti maksimum svake.

2.1.  Osnovne informacije o Hadoopu

Apache Hadoop je softverski okvir otvorenog koda namenjen za distribuiranu skladište i  obradu 
velikih podataka.

Razvoj Hadoopa započeo je Doug Cutting u sklopu Apache Nutch projekta, na kojem je radio od 
2003.   godine.   Objava   Googlovih   publikacija   ”The   Google   File   System”   (2004.   godine)   i 
”MapReduce: Simplified Data Processing on Large Clusters” (2006. godine), uticala je na razvoj 
Nutch distribuiranog fajla sa podacima otvorenog koda te implementaciju MapReduce modela 
unutar Nutcha. Godine 2006. iz Nutcha se izdvaja Hadoop kao samostalni projekt te započinje 
intenzivniji   razvoj.   Već   dve   godine   kasnije,   Yahoo   je   objavio   da   svoj   indeks   pretraživanja 

5

generisanja pomoću Hadoopovog klastera koji se sastoji od 10000 jezgri. Iste godine, Hadoop 
pobeđuje na takmičenju u sortiranju terabajta podataka, uz vreme od 209 sekundi, na klasteru od 
910 čvorova.

Hadoop  se  udomaćio  u  brojnim  kompanijama,  koje  ga  koriste  u  edukacijske  i  produkcijske 
svrhe. Neke od njih su Facebook, LinkedIn, Amazon, Ebay, Spotify.

 Detaljnija  lista  s  navedenom  veličinom klastera i namenom dostupna je na web stranicama :

https://wiki.apache.org/hadoop/PoweredBy.

Doug Cutting dodelio je ime Hadoopu prema istoimenoj plišanoj igrački svoga sina.

 Žuti slon Hadoop ujedno je postao maskota projekta. Reč Hadoop nema skriveno značenje,

lako se pamti i izgovara, a taj princip korišten je u dodeljivanju imena ostalim većim kom- 
ponentama u Hadoop ekosistemu (Pig, Spark, Oozie, ZooKeeper, ...). Manje komponente imaju 
sugestivne nazive (namenode, datanode).

Oko osnovnog softvera, Hadoopa, razvili su se srodni kompatibilni projekti koji za- jedno cˇine 
Hadoopov ekosistem.

2.2. Distribucije Hadoopa

Hadoop se moŽe besplatno preuzeti sa Apacheovih web stranica http://hadoop.apache.org/, gde se 
nalaze i upustva za instalaciju na Linux i Windows operacijskim sistemima.

Hadoop je moguće instalirati na tri načina:

Local (Standalone) Mode: Instalacija Hadoopa na jednom računaru.  Klaster se sastoji od samo 
jednog čvora. Korisno za učenje i otkrivanje grešaka u kodu.

Pseudo-Distributed   Mode:   Simulacija   Hadoopovog   klastera   od   nekoliko   čvorova   na   jednom 
računaru Takođe je korisno za učenje.

Fully-Distributed Mode:   Hadoopov klaster se sastoji od većeg broja čvorova.   Ovaj način je 
prikladan za produkcijsku upotrebu.

Postoje brojne distribucije Hadoopa. Neke od njih su:

Cloudera’s Distribution including Apache Hadoop (CDH)

Hortonworks Data Platform (HDP)

Amazon Web Services: Amazon Elastic MapReduce (Amazon EMR)

MapR

IBM BigInsights

Microsoft Azure HDInsight: Hadoop in the Azure cloud

Želiš da pročitaš svih 18 strana?

Prijavi se i preuzmi ceo dokument.

Ovaj materijal je namenjen za učenje i pripremu, ne za predaju.

Slični dokumenti