Univerzitet u Novom Sadu

Predmet: Razvoj hardvera za sisteme dubokog učenja sa nagrađivanjem (22.EAI026)

Osnovne informacije:
 
Kategorija Stručno-aplikativni
Uža naučna oblast Elektronika
ESPB 6

Cilj predmeta je da studente upozna sa osnovama primene, kao i projektovanja i implementacije sistema za učenje putem nagrađivanja (Reinforcement Learning). Ovi sistemi predstavljaju moćnu paradigmu autonomnih sistema koji samostalno uče kako da donose dobre odluke u različitim zadacima, uključujući robotiku, igranje igara, modelovanje potrošača, zdravstvenu zaštitu, marketing. Studenti će se upoznati sa osnovnim konceptima oblasti učenja kroz nagrađivanje, naučiti da koriste već postojeća softverska rešenja i biblioteke za treniranje sistema, ali i osmisle i dizajniraju sopstveno “okruženje” sa sopstvenim sistemom nagrađivanja i algoritmom treniranja putem nagrađivanja. Takođe, studenti će biti upoznati sa korišćenjem dubokog učenja sa nagrađivanjem (Deep Reinforcement Learning), obećavajućeg, novog, pristupa koji kombinuje tehnike dubokog učenja (Deep Learning) sa konceptom učenja kroz nagrađivanje.

Nakon završetka ovog kursa studenti će biti sposobni da: - Definišu osnovne karakteristike učenja kroz nagrađivanje, koje ga razlikuju od ostalih koncepata u oblasti veštačke inteligencije i mašinskog učenja bez interakcije - Za datu aplikaciju prepoznaju da li se ona može formulisati kao problem koji se rešava uz učenje sa nagrađivanjem, definišu problem formalno, u terminima prostora stanja, prostora akcija, dinamike i modela nagrađivanja i odaberu najprikladniji algoritam za rešavanje. - Implementiraju i testiraju tipične algoritme za rad sa sistemima za učenje sa nagrađivanjem koristeći već dostupna softverska “okruženja” - Projektuju sopstveno “okruženje” koje će biti korišćeno kao platforma za implementaciju i testiranje - Koriste standardne softverske alate za dizajniranje i treniranje dubokih mreža za učenje sa nagrađivanjem - Implementiraju u hardveru duboke mreže za učenje sa nagrađivanjem i integrišu svoj dizajn sa datim ulazno/izlaznim periferijama

Teorijska nastava - Uvod, upoznavanje sa fundamentalnim konceptima teorije učenja sa nagrađivanjem: linearna algebra, teorija verovatnoće, konačni Markovljevi procesi sa odlučivanjem (eng. Finite Markov Decision Processes – MDP) - Tabelarno planiranje Markovljevog procesa sa odlučivanjem: agent-okruženje interfejs, cilj i nagrada, vrednosna funkcija (eng. Value Function), Q funkcija (eng. Q function), polisa, optimalna polisa, optimalna vrednosna funkcija, optimalna Q funkcija - Rešavanje optimalne polise korišćenjem dinamičkog programiranja: evaluacija polise (eng. Policy evaluation), poboljšanje polise (eng. Policy improvement), iteracija polise (eng. Policy iteration), iteracija vrednosti (eng. Value iteration) - Monte-Karlo metode za estimiranje vrednosnih funkcija i pronalaženje optimalnih polisa, Monte-Karlo predikcija, Monte-Karlo estimacija vrednosti stanje-akcija parova, Monte-Karlo aprokcimacija optimalne polise - Aproksimativne metode za velike prostore stanja: aproksimacija funkcije polise, aprokcimacija funkcije kontrole (Q funkcije), metod gradijenta polise (eng. Policy gradient method), duboke Q mreže (DQN) - Hardverska implementacija mreža za duboko učenje sa nagrađivanjem - Primene sistema za učenje sa nagrađivanjem: veze ovih sistema sa psihologijom i neurologijom, primena u igrama (primeri igara, izazovi), pregled primene u robotici Praktična nastava - Uvod u rad sa programskim jezikom Python, instalacija Python virtualnog okruženja kao i svih potrebnih paketa, instalacija Gym OpenAI biblioteke. Implementacija jednostavnog modela za učenje sa nagrađivanjem korišćenjem tabelarnog planiranja Markovljevog procesa sa odlučivanjem - Implementacija modela sistema za učenje sa nagrađivanjem, korišćenjem postojećeg Python Gym OpenAI okruženja (stanja, akcije, tranzicije, nagrade): mountain car, pendulum, car racing, ATARI games - Dizajn i implementacija sistema za učenje sa nagrađivanjem baziranog na prilagođenom, sopstvenom Python Gym okruženju - Korišćenje Python-a i Google Tensorflow-a kao standardnih softverskih alata za implementaciju kompleksnog sistema za učenje sa nagrađivanjem baziranog na dubokoj Q mreži (DQN) - Hardverska implementacija DQN-a, integracija sistema sa senzorom (npr. kamera), hardverskim akceleratorom DQN-a i izlaznom periferijom (npr. motor)

Predavanja se izvode uz PowerPoint prezentacije. Praćena su računarskim i laboratorijskim vežbama u Laboratoriji za diskretne sisteme i algoritme na FTN. Kompanije koje se bave primenama sistema za učenje sa nagrađivanjem, ili su zainteresovane za istraživanja u toj oblasti, primaće studente na praksu i omogućiće izradu samostalnih studentskih projekata. Predispitne obaveze činiće uspešno završen i odbranjen samostalni studentski projekat, kao i poeni osvojeni na zadacima i ocenjivani na laboratorijskim vežbama. Uslov za izlazak na ispitje 25 od 50 bodova. Kroz kolokvijum na polovini semestra i u prvom ispitnom roku nakon završetka slušanja predmeta može se položiti prvi i drugi deo teorijskog ispita. Teorijski deo ispita moći će se, takođe, polagati u redovnim ispitnim rokovima.

Autori Naziv Godina Izdavač Jezik
R. S. Sutton, A. G. Barto Reinforcement learning: An Introduction, 2nd Ed. 2018 MIT Press Engleski
Predmetna aktivnost Predispitna Obavezna Broj poena
Predmetna aktivnost
Predmetni projekat
Predispitna
Da
Obavezna
Da
Broj poena
30.00
Predmetna aktivnost
Kolokvijum
Predispitna
Ne
Obavezna
Ne
Broj poena
25.00
Predmetna aktivnost
Odbranjene laboratorijske vežbe
Predispitna
Da
Obavezna
Da
Broj poena
15.00
Predmetna aktivnost
Pismeni deo ispita - kombinovani zadaci i teorija
Predispitna
Ne
Obavezna
Da
Broj poena
50.00
Predmetna aktivnost
Prezentacija
Predispitna
Da
Obavezna
Da
Broj poena
5.00
Predmetna aktivnost
Kolokvijum
Predispitna
Ne
Obavezna
Ne
Broj poena
25.00
Predavanja
Predavanja
Predavanja
Računarske vežbe
Računarske vežbe
Računarske vežbe