Big Data U AWS okruzenju
ВИСОКА ШКОЛА ЕЛЕКТРОТЕХНИКЕ И РАЧУНАРСТВА СТРУКОВНИХ СТУДИЈА
Тема : Big data у AWS окружењу
Алекса Павловић РИН-12/19
Милан Куч РИН-37/19
Београд, јун 2020.
Садржај
3.2 Apache Spark.......................................................................................................................................3
3.3 Језера података (Data Lake)...............................................................................................................4
3.4 NoSQL базе података..........................................................................................................................4
3.5 Базе података у меморији.................................................................................................................4

Big Data
у
AWS
,
окружењу
,
Алекса Павловић Милан Куч
1
1.
Увод
,,Big Data”
је појам који означава велике и комплексне сетове података, код којих
традиционалне апликације за обраду података нису применљиве. Те скупове података
карактеришу разноврсност формата, велике брзине обраде и приступа, и велики обим
информација. Изазови укључују пројектовање и реализацију инфраструктуре и сервиса за
складиштење великих количина података, њихову претрагу, анализу, дељење и
визуелизацију.
Термин ,,big data” се често односи на употребу предикативне аналитике
или других напредних метода за издвајање вредности из података, а не само на одређену
величину скупа података.
Најчешће су коришћени термин у информационим технологијама широм света.
Доста великих компанија улаже у “Big data” где треба још пар јако битних ствари
реализовати у наредним годинама. Глобална експлозија података је веома подстакнута
технологијама укључујући дигитални видео запис, као и музику, паметне телефоне и сам
Интернет. Ови подаци имају своје порекло од различитих извора, укључујући Web
претраге, сензоре, комерцијалне трансакције, интеракције са друштвеним медијима и
мрежама, аудио и видео стримовање, као и GPS сигнале мобилних телефона и друго.
Често, ,,Big Data” карактеришу три V:
1. екстремни обим (Volume) података
2. широк спектар (Variety) типова података
3. брзина (Velocity) којом се подаци морају обрадити и анализирати
Слика 1. Очекивања Big data у 2020
Big Data
у
AWS
,
окружењу
,
Алекса Павловић Милан Куч
2
2.
BigData и аналитика
Оно што представља стварну вредност свих Биг Дата које организације прикупљају
је аналитика примењена на податке. Без аналитике, то би била само гомила података са
врло ограниченом пословном употребом.
Аналитика може да се односи на основне апликације пословне интелигенције или
напредније, предиктивне аналитике попут оних које користе научне организације. Међу
најнапреднијим типовима аналитике података је рударење података (енгл. data mining),
где Data
аналитичари процењују велике скупове података како би идентификовали
односе, обрасце и трендове.
Аналитика података може укључивати истраживачку анализу података (да идентификује
обрасце и односе у подацима) и потврђују анализу података (која примењује статистичке
технике како би се утврдило да ли је претпоставка о одређеном скупу података тачна).
Друга разлика
је квантитативна анализа података (или анализа нумеричких
података који имају квантификоване променљиве које се могу статистички упоредити) за
разлику од квалитативне анализе података (која се фокусира на ненумеричке податке као
што су видео, слике и текст).
Слика 2. BigData Аналитика

Big Data
у
AWS
,
окружењу
,
Алекса Павловић Милан Куч
4
3.3 Језера података (Data Lake)
Језера података су складишта која чувају изузетно велике количине сирових
података у изворном формату док подаци не буду потребни код пословних корисника.
Помоћ у подстицању раста језера података представљају иницијативе дигиталне
трансформације и раст IoT-а. Језера података су дизајнирана да корисницима олакшају
приступ великим количинама података када се појави потреба.
3.4 NoSQL базе података
Конвенционалне SQL базе података су дизајниране за поуздане трансакције и ad
hok упите, али имају ограничења као што су rigidna shema која их чини мање погодним за
неке врсте апликација. NoSQL базе података решавају та ограничења тако што чувају
податке и управљају њима на начин који омогућава велику брзину рада и велику
флексибилност. Многе су развијене у компанијама које су тражиле боље начине за
чување садржаја или обраду података за велике web странице. За разлику од SQL база
података, многе NoSQL базе података могу да се скалирају хоризонтално преко стотина
или хиљада сервера.
3.5 Базе података у меморији
База података у меморији (IMDB - in-memory data base) је систем за управљање
базама података који се за складиштење података првенствено ослања на главну
меморију, а не на диск. Базе података у меморији су брже од база података
оптимизованих за дискове, што је важно за анализе Big Data и стварање складишта
података (енгл. warehouse) и центара података (енгл. data mart).
Ovaj materijal je namenjen za učenje i pripremu, ne za predaju.
Slični dokumenti