Faculty of Technical Sciences

Subject: (22.EAI026)

General information:
 
Category Professional-applicative
Scientific or art field Electronics
ECTS 6

Cilj predmeta je da studente upozna sa osnovama primene, kao i projektovanja i implementacije sistema za učenje putem nagrađivanja (Reinforcement Learning). Ovi sistemi predstavljaju moćnu paradigmu autonomnih sistema koji samostalno uče kako da donose dobre odluke u različitim zadacima, uključujući robotiku, igranje igara, modelovanje potrošača, zdravstvenu zaštitu, marketing. Studenti će se upoznati sa osnovnim konceptima oblasti učenja kroz nagrađivanje, naučiti da koriste već postojeća softverska rešenja i biblioteke za treniranje sistema, ali i osmisle i dizajniraju sopstveno “okruženje” sa sopstvenim sistemom nagrađivanja i algoritmom treniranja putem nagrađivanja. Takođe, studenti će biti upoznati sa korišćenjem dubokog učenja sa nagrađivanjem (Deep Reinforcement Learning), obećavajućeg, novog, pristupa koji kombinuje tehnike dubokog učenja (Deep Learning) sa konceptom učenja kroz nagrađivanje.

Nakon završetka ovog kursa studenti će biti sposobni da: - Definišu osnovne karakteristike učenja kroz nagrađivanje, koje ga razlikuju od ostalih koncepata u oblasti veštačke inteligencije i mašinskog učenja bez interakcije - Za datu aplikaciju prepoznaju da li se ona može formulisati kao problem koji se rešava uz učenje sa nagrađivanjem, definišu problem formalno, u terminima prostora stanja, prostora akcija, dinamike i modela nagrađivanja i odaberu najprikladniji algoritam za rešavanje. - Implementiraju i testiraju tipične algoritme za rad sa sistemima za učenje sa nagrađivanjem koristeći već dostupna softverska “okruženja” - Projektuju sopstveno “okruženje” koje će biti korišćeno kao platforma za implementaciju i testiranje - Koriste standardne softverske alate za dizajniranje i treniranje dubokih mreža za učenje sa nagrađivanjem - Implementiraju u hardveru duboke mreže za učenje sa nagrađivanjem i integrišu svoj dizajn sa datim ulazno/izlaznim periferijama

Teorijska nastava - Uvod, upoznavanje sa fundamentalnim konceptima teorije učenja sa nagrađivanjem: linearna algebra, teorija verovatnoće, konačni Markovljevi procesi sa odlučivanjem (eng. Finite Markov Decision Processes – MDP) - Tabelarno planiranje Markovljevog procesa sa odlučivanjem: agent-okruženje interfejs, cilj i nagrada, vrednosna funkcija (eng. Value Function), Q funkcija (eng. Q function), polisa, optimalna polisa, optimalna vrednosna funkcija, optimalna Q funkcija - Rešavanje optimalne polise korišćenjem dinamičkog programiranja: evaluacija polise (eng. Policy evaluation), poboljšanje polise (eng. Policy improvement), iteracija polise (eng. Policy iteration), iteracija vrednosti (eng. Value iteration) - Monte-Karlo metode za estimiranje vrednosnih funkcija i pronalaženje optimalnih polisa, Monte-Karlo predikcija, Monte-Karlo estimacija vrednosti stanje-akcija parova, Monte-Karlo aprokcimacija optimalne polise - Aproksimativne metode za velike prostore stanja: aproksimacija funkcije polise, aprokcimacija funkcije kontrole (Q funkcije), metod gradijenta polise (eng. Policy gradient method), duboke Q mreže (DQN) - Hardverska implementacija mreža za duboko učenje sa nagrađivanjem - Primene sistema za učenje sa nagrađivanjem: veze ovih sistema sa psihologijom i neurologijom, primena u igrama (primeri igara, izazovi), pregled primene u robotici Praktična nastava - Uvod u rad sa programskim jezikom Python, instalacija Python virtualnog okruženja kao i svih potrebnih paketa, instalacija Gym OpenAI biblioteke. Implementacija jednostavnog modela za učenje sa nagrađivanjem korišćenjem tabelarnog planiranja Markovljevog procesa sa odlučivanjem - Implementacija modela sistema za učenje sa nagrađivanjem, korišćenjem postojećeg Python Gym OpenAI okruženja (stanja, akcije, tranzicije, nagrade): mountain car, pendulum, car racing, ATARI games - Dizajn i implementacija sistema za učenje sa nagrađivanjem baziranog na prilagođenom, sopstvenom Python Gym okruženju - Korišćenje Python-a i Google Tensorflow-a kao standardnih softverskih alata za implementaciju kompleksnog sistema za učenje sa nagrađivanjem baziranog na dubokoj Q mreži (DQN) - Hardverska implementacija DQN-a, integracija sistema sa senzorom (npr. kamera), hardverskim akceleratorom DQN-a i izlaznom periferijom (npr. motor)

Predavanja se izvode uz PowerPoint prezentacije. Praćena su računarskim i laboratorijskim vežbama u Laboratoriji za diskretne sisteme i algoritme na FTN. Kompanije koje se bave primenama sistema za učenje sa nagrađivanjem, ili su zainteresovane za istraživanja u toj oblasti, primaće studente na praksu i omogućiće izradu samostalnih studentskih projekata. Predispitne obaveze činiće uspešno završen i odbranjen samostalni studentski projekat, kao i poeni osvojeni na zadacima i ocenjivani na laboratorijskim vežbama. Uslov za izlazak na ispitje 25 od 50 bodova. Kroz kolokvijum na polovini semestra i u prvom ispitnom roku nakon završetka slušanja predmeta može se položiti prvi i drugi deo teorijskog ispita. Teorijski deo ispita moći će se, takođe, polagati u redovnim ispitnim rokovima.

Authors Title Year Publisher Language
R. S. Sutton, A. G. Barto Reinforcement learning: An Introduction, 2nd Ed. 2018 MIT Press English
Course activity Pre-examination Obligations Number of points
Coloquium exam No No 25.00
Written part of the exam - tasks and theory No Yes 50.00
Presentation Yes Yes 5.00
Coloquium exam No No 25.00
Laboratory exercise defence Yes Yes 15.00
Project Yes Yes 30.00
API Image

Assoc. Prof. Teodorović Predrag

Associate Professor

Lectures
API Image

Assoc. Prof. Dautović Staniša

Associate Professor

Lectures

Prof. Struharik Rastislav

Full Professor

Lectures

Assistant - Master Radovanović Boris

Assistant - Master

Computational classes

Assistant - Master Janković Jana

Assistant - Master

Computational classes

Assistant - Master Pilipović Nebojša

Assistant - Master

Computational classes

Faculty of Technical Sciences

© 2024. Faculty of Technical Sciences.

Contact:

Address: Trg Dositeja Obradovića 6, 21102 Novi Sad

Phone:  (+381) 21 450 810
(+381) 21 6350 413

Fax : (+381) 21 458 133
Emejl: ftndean@uns.ac.rs

© 2024. Faculty of Technical Sciences.