Faculty of Technical Sciences

Subject: (22.EAI027)

General information:
 
Category Scientific-professional
Scientific or art field Automatic Control and System Engineering
ECTS 6

Osposobljavanje studenata za teorijsko razumevanje i praktično rešavanje problema inteligentnog odlučivanja, te algoritamsku implementaciju prilagodljivih i samoobučavajućih sistema za automatsko odlučivanje i podršku odlučivanju sa posebnim naglaskom na sisteme koji se zasnivaju na učenju sa podsticajem (Reinforcement Learning). Osposobljavanje studenata za praćenje savremene literature iz ove oblasti, te dalji, samostalan stručni i naučno-istraživački rad.

Studenti su stekli znanja iz oblasti adaptivnih i samoobučavajućih sistema i algoritama, posebno algoritama učenja sa podsticajem i dubokog učenja sa podsticajem (Deep Reinforcement Learning). Studenti su naučili da odaberu oodgovarajući algoritam, da izaberu odgovarajuće vrednosti parametara, te da implementiraju odgovarajuće rešenje u programskom jeziku Python, uz oslonac na biblioteku PyTorch.

1) Upoznavanje sa problemima automatskog odlučivanja i osnovnim strukturama sistema za automatsko odlučivanje i podršku u odlučivanju. 2) Problemi učenja sa podsticajem (Reinforcement Learning): ilustracija primera, oblasti i mogućnosti primene. Način nakoji se učenje sa podsticajem odnosi prema drugim tehnikama mašinskog učenja (nadgledanom i nenadgledanom učenju) 3) Konačni procesi odlučivanja: deterministički i stohastički (Markovljevi) procesi odlučivanja. 4) Osnovni metodi egzaktnog rešavanja konačnih problema odlučivanja: Belmanova jednačina i osnovni principi dinamičkog programiranja. Širi značaj i primena metoda dinamičkog programiranja. 5) Veza sa problemima optimalnog upravljanja. Osnovni pojmovi o beskonačnim i vremenski kontinualnim problemima odlučivanja i upravljanja. 6) Ograničenja egzaktnih metoda i potreba za uvođenjem aproksimativnih tehnika. Uvod u heurističke metode. Monte-Karlo metode rešavanja problema učenja sa podsticajem. Studije slučaja. 7) Osnovni principi identifikacije parametara (vremenski diskretnih) dinamičkih sistema. 8) Osnovni principi konstrukcije rekurzivnih estimatora stanja, parametara i poremećaja (odnosno nepoznatih ulaza). Rekurzivni estimatori. Kalmanovi filtri. 9) Učenje na osnovu razlika u vremenu (Temporal Difference Learning) 10) Primena metoda dubokog učenja u problemima učenja sa podsticajem (Deep Reinforcement Learning). Duboko Q-učenje. Metode kritike (actor critic methods). 11) Studije slučaja

Oblici održavanja nastave su predavanja, računarske vežbe i konsultacije. Tokom računarskih vežbi, studenti će - kroz praktične primere - utvrditi gradivo izloženo tokom predavanja. Ova znanja će se dalje produbiti kroz domaće zadatke, koje će studenti izrađivati samostalno ili u grupama. Na kraju, svaki student će biti obavezan da položi individualan predmetni projekat.

Authors Title Year Publisher Language
A. Zai, B. Brown Deep Reinforcement Learning in Action 2020 Manning, Shelter Island English
R. S. Sutton, A. G. Barto Reinforcement Learning – An Introduction 2017 MIT Press English
Course activity Pre-examination Obligations Number of points
Homework Yes Yes 5.00
Final exam - part one No Yes 30.00
Final exam - part two No Yes 20.00
Homework Yes Yes 5.00
Homework Yes Yes 5.00
Homework Yes Yes 5.00
Project Yes Yes 30.00
API Image

Prof. Rapaić Milan

Full Professor

Lectures
API Image

Prof. Jeličić Zoran

Full Professor

Lectures
API Image

Assoc. Prof. Radović Mirna

Associate Professor

Lectures

Assistant - Master Popović Anđela

Teaching Associate

Computational classes

Faculty of Technical Sciences

© 2024. Faculty of Technical Sciences.

Contact:

Address: Trg Dositeja Obradovića 6, 21102 Novi Sad

Phone:  (+381) 21 450 810
(+381) 21 6350 413

Fax : (+381) 21 458 133
Emejl: ftndean@uns.ac.rs

© 2024. Faculty of Technical Sciences.