SISTEM ZA OBUHVAT I OBRADU PODATAKA IZ HETEROGENIH IZVORA PODATAKA I NJIHOVO SKLADIŠTENJE U JEZERU PODATAKA
Apstrakt
U ovom radu predstavljen je sistem za obuhvat i obradu podataka iz heterogenih izvora. Projektovanje pomenutog sistema motivisala je potreba za velikim skupom podataka u cilju treniranja modela mašinskog učenja čiji je kvalitet direktno proporcinalan raznolikosti i količini dostupnih podataka. Sistem omogućava proširivost i skalabilnost komponenti za obuhvat i obradu kako bi zadovoljio zahtev rada sa velikim skupom podataka različite strukture. Svi obuhvaćeni podaci se trajno pohranjuju u jezero podataka u neizmenjenom obliku. Procesi obrade podataka transformišu obuhvaćene podatake u skladu sa potrebama klijenta. Implementirani sistem je dokaz koncepta za obuhvat, trajnu pohranu i obradu velikog skupa podataka sa ciljem pripreme podataka za treniranje modela mašinskog učenja.
Reference
[2] https://kafka.apache.org/documentation/ (pristupljeno u avgustu 2020.)
[3] https://spark.apache.org/ (pristupljeno u julu 2020.)
[4] Tom White, Hadoop: The Definitive Guide, Fourth Edition, O'Reilly Media, Inc., 2009
[5] Kristina Chodorow, Michael Dirolf, MongoDB: The Definitive Guide, O'Reilly Media, Inc., 2015
[6] https://spark.apache.org/docs/latest/ml-guide.html (pristupljeno u avgustu 2020.)
[7] https://en.wikipedia.org/wiki/Natural_language_processing#Common_NLP_Tasks (pristupljeno u septembru 2020.)