Fakultet tehničkih nauka

Predmet: Napredne tehnike adaptivnih i samoobučavajućih algoritama (22.EAI027)

Osnovne informacije:
 
Kategorija Naučno-stručni
Uža naučna oblast Automatika i upravljanje sistemima
ESPB 6

Osposobljavanje studenata za teorijsko razumevanje i praktično rešavanje problema inteligentnog odlučivanja, te algoritamsku implementaciju prilagodljivih i samoobučavajućih sistema za automatsko odlučivanje i podršku odlučivanju sa posebnim naglaskom na sisteme koji se zasnivaju na učenju sa podsticajem (Reinforcement Learning). Osposobljavanje studenata za praćenje savremene literature iz ove oblasti, te dalji, samostalan stručni i naučno-istraživački rad.

Studenti su stekli znanja iz oblasti adaptivnih i samoobučavajućih sistema i algoritama, posebno algoritama učenja sa podsticajem i dubokog učenja sa podsticajem (Deep Reinforcement Learning). Studenti su naučili da odaberu oodgovarajući algoritam, da izaberu odgovarajuće vrednosti parametara, te da implementiraju odgovarajuće rešenje u programskom jeziku Python, uz oslonac na biblioteku PyTorch.

1) Upoznavanje sa problemima automatskog odlučivanja i osnovnim strukturama sistema za automatsko odlučivanje i podršku u odlučivanju. 2) Problemi učenja sa podsticajem (Reinforcement Learning): ilustracija primera, oblasti i mogućnosti primene. Način nakoji se učenje sa podsticajem odnosi prema drugim tehnikama mašinskog učenja (nadgledanom i nenadgledanom učenju) 3) Konačni procesi odlučivanja: deterministički i stohastički (Markovljevi) procesi odlučivanja. 4) Osnovni metodi egzaktnog rešavanja konačnih problema odlučivanja: Belmanova jednačina i osnovni principi dinamičkog programiranja. Širi značaj i primena metoda dinamičkog programiranja. 5) Veza sa problemima optimalnog upravljanja. Osnovni pojmovi o beskonačnim i vremenski kontinualnim problemima odlučivanja i upravljanja. 6) Ograničenja egzaktnih metoda i potreba za uvođenjem aproksimativnih tehnika. Uvod u heurističke metode. Monte-Karlo metode rešavanja problema učenja sa podsticajem. Studije slučaja. 7) Osnovni principi identifikacije parametara (vremenski diskretnih) dinamičkih sistema. 8) Osnovni principi konstrukcije rekurzivnih estimatora stanja, parametara i poremećaja (odnosno nepoznatih ulaza). Rekurzivni estimatori. Kalmanovi filtri. 9) Učenje na osnovu razlika u vremenu (Temporal Difference Learning) 10) Primena metoda dubokog učenja u problemima učenja sa podsticajem (Deep Reinforcement Learning). Duboko Q-učenje. Metode kritike (actor critic methods). 11) Studije slučaja

Oblici održavanja nastave su predavanja, računarske vežbe i konsultacije. Tokom računarskih vežbi, studenti će - kroz praktične primere - utvrditi gradivo izloženo tokom predavanja. Ova znanja će se dalje produbiti kroz domaće zadatke, koje će studenti izrađivati samostalno ili u grupama. Na kraju, svaki student će biti obavezan da položi individualan predmetni projekat.

Autori Naziv Godina Izdavač Jezik
R. S. Sutton, A. G. Barto Reinforcement Learning – An Introduction 2017 MIT Press Engleski
A. Zai, B. Brown Deep Reinforcement Learning in Action 2020 Manning, Shelter Island Engleski
Milan R. Rapaić, Zoran D. Jeličić Projektovanje linearnih regultora i estimator u prostoru stanja 2014 FTN Izdavaštvo, Novi Sad Srpski jezik
Predmetna aktivnost Predispitna Obavezna Broj poena
Predmetna aktivnost
Predmetni projekat
Predispitna
Da
Obavezna
Da
Broj poena
30.00
Predmetna aktivnost
Domaći zadatak
Predispitna
Da
Obavezna
Da
Broj poena
5.00
Predmetna aktivnost
Domaći zadatak
Predispitna
Da
Obavezna
Da
Broj poena
5.00
Predmetna aktivnost
Završni ispit - I deo
Predispitna
Ne
Obavezna
Da
Broj poena
30.00
Predmetna aktivnost
Domaći zadatak
Predispitna
Da
Obavezna
Da
Broj poena
5.00
Predmetna aktivnost
Završni ispit - II deo
Predispitna
Ne
Obavezna
Da
Broj poena
20.00
Predmetna aktivnost
Domaći zadatak
Predispitna
Da
Obavezna
Da
Broj poena
5.00
Predavanja
Predavanja
Predavanja
Računarske vežbe
Računarske vežbe