Hadoop virtuelna mašina u multimedijalnim komunikacijama
SEMINARSKI RAD
Tema: HADOOP VIRTUALNA MAŠINA U MULTIMEDIJALNIM
KOMUNIKACIJAMA
Predmet: MULTIMEDIJA
Mentor: Student:
Prof.dr Borivoje Milošević Jovan Milić И-22/2019
Beograd, jun 2023
2
SADRŽAJ:
1. UVOD......................................................................................................................3
2. HADOOP.................................................................................................................4
2.1.
Osnovne informacije o Hadoopu........................................................................4
2.2.
Distribucije Hadoopa..........................................................................................5
2.3.
Hadoop didtribuirani sistem datoteka.................................................................6
2.4.
MapReduce........................................................................................................10
3. Hadoop ekosistem....................................................................................................12
4. Obrada nestruktuiranih podataka.............................................................................15
5. ZAKLJUČAK..........................................................................................................17
6. LITERATURA.........................................................................................................18

4
2. HADOOP
Jedna od tehnologija koja je gotovo sigurno postala standard i koja se najčešće vezuje za Big Data
jeste Hadoop. Ukratko rečeno, Hadoop je open-source framework Apache fondacije. Služi za
skladištenje i procesiranje velikih količina podataka. Hadoop je nastao još 2005. godine, baziran na
radovima koda koji je objavio Google.
Napisan je u programskom jeziku Java, ali Hadoop programeri ne moraju nužno da budu Java
orijentisani, već mogu koristiti gotovo bilo koji programski jezik. Dizajniran je tako da radi na
commodity hardveru, odnosno na jeftinim hardverskim resursima.
Kada je reč o Hadoopu, a i kasnije zbog upoređivanja sa Sparkom, bitno je shvatiti da se on sastoji
iz četiri dela.
•
Hadoop Common – niz biblioteka i konfiguracionih fajlova koji su potrebni za rad samog
Hadoopa.
•
HDFS je Hadoop distribuirani fajl sistem, koji je zadužen za skladištenje podataka u
klasteru.Podaci se čuvaju u formi blokova i kopirani su u tri kopije kroz klaster, tako da ako
dođe do otkaza neke mašine, postoji kopija na još dve.
•
MapReduce – od druge generacije Hadoopa postao je samo model za procesiranje
podataka.
•
YARN – može se reći Hadoop operativni sistem, zadužen je za raspodelu resursa i
upravljanje poslovima, što je do druge generacije Hadoop-a bilo u sastavnom delu
MapReduce programiranja.
Osim ove četiri komponente Hadoop se oslanja na svoj ekosistem, odnosno na specijalizovane
alate za prikupljanje podataka (Flume, Kafka, Sqoop), procesiranje podataka (Pig, Hive, Storm…),
upravljanje (Ambari, Falcon…).
Sve navedeno je skup koji čini jednu Big Data aplikaciju, koja u zavisnosti od slučaja do slučaja
koristi neke od ovih alata. Ono što sam iz iskustva naučio jeste da jednu kvalitetnu Big Data
aplikaciju nikako ne čini jedna tehnologija, i da je najbolje iskoristiti maksimum svake.
2.1. Osnovne informacije o Hadoopu
Apache Hadoop je softverski okvir otvorenog koda namenjen za distribuiranu skladište i obradu
velikih podataka.
Razvoj Hadoopa započeo je Doug Cutting u sklopu Apache Nutch projekta, na kojem je radio od
2003. godine. Objava Googlovih publikacija ”The Google File System” (2004. godine) i
”MapReduce: Simplified Data Processing on Large Clusters” (2006. godine), uticala je na razvoj
Nutch distribuiranog fajla sa podacima otvorenog koda te implementaciju MapReduce modela
unutar Nutcha. Godine 2006. iz Nutcha se izdvaja Hadoop kao samostalni projekt te započinje
intenzivniji razvoj. Već dve godine kasnije, Yahoo je objavio da svoj indeks pretraživanja
5
generisanja pomoću Hadoopovog klastera koji se sastoji od 10000 jezgri. Iste godine, Hadoop
pobeđuje na takmičenju u sortiranju terabajta podataka, uz vreme od 209 sekundi, na klasteru od
910 čvorova.
Hadoop se udomaćio u brojnim kompanijama, koje ga koriste u edukacijske i produkcijske
svrhe. Neke od njih su Facebook, LinkedIn, Amazon, Ebay, Spotify.
Detaljnija lista s navedenom veličinom klastera i namenom dostupna je na web stranicama :
https://wiki.apache.org/hadoop/PoweredBy.
Doug Cutting dodelio je ime Hadoopu prema istoimenoj plišanoj igrački svoga sina.
Žuti slon Hadoop ujedno je postao maskota projekta. Reč Hadoop nema skriveno značenje,
lako se pamti i izgovara, a taj princip korišten je u dodeljivanju imena ostalim većim kom-
ponentama u Hadoop ekosistemu (Pig, Spark, Oozie, ZooKeeper, ...). Manje komponente imaju
sugestivne nazive (namenode, datanode).
Oko osnovnog softvera, Hadoopa, razvili su se srodni kompatibilni projekti koji za- jedno cˇine
Hadoopov ekosistem.
2.2. Distribucije Hadoopa
Hadoop se moŽe besplatno preuzeti sa Apacheovih web stranica http://hadoop.apache.org/, gde se
nalaze i upustva za instalaciju na Linux i Windows operacijskim sistemima.
Hadoop je moguće instalirati na tri načina:
Local (Standalone) Mode: Instalacija Hadoopa na jednom računaru. Klaster se sastoji od samo
jednog čvora. Korisno za učenje i otkrivanje grešaka u kodu.
Pseudo-Distributed Mode: Simulacija Hadoopovog klastera od nekoliko čvorova na jednom
računaru Takođe je korisno za učenje.
Fully-Distributed Mode: Hadoopov klaster se sastoji od većeg broja čvorova. Ovaj način je
prikladan za produkcijsku upotrebu.
Postoje brojne distribucije Hadoopa. Neke od njih su:
•
Cloudera’s Distribution including Apache Hadoop (CDH)
•
Hortonworks Data Platform (HDP)
•
Amazon Web Services: Amazon Elastic MapReduce (Amazon EMR)
•
MapR
•
IBM BigInsights
•
Microsoft Azure HDInsight: Hadoop in the Azure cloud
Ovaj materijal je namenjen za učenje i pripremu, ne za predaju.
Slični dokumenti