×
Универзитет у Новом Саду

Предмет: Напредне технике адаптивних и самообучавајућих алгоритама (22.EAI027)

Основне информације:
 
Категорија Научно-стручни
Ужа научна област Аутоматика и управљање системима
ЕСПБ 6

Оспособљавање студената за теоријско разумевање и практично решавање проблема интелигентног одлучивања, те алгоритамску имплементацију прилагодљивих и самообучавајућих система за аутоматско одлучивање и подршку одлучивању са посебним нагласком на системе који се заснивају на учењу са подстицајем (Reinforcement Learning). Оспособљавање студената за праћење савремене литературе из ове области, те даљи, самосталан стручни и научно-истраживачки рад.

Студенти су стекли знања из области адаптивних и самообучавајућих система и алгоритама, посебно алгоритама учења са подстицајем и дубоког учења са подстицајем (Deep Reinforcement Learning). Студенти су научили да одаберу оодговарајући алгоритам, да изаберу одговарајуће вредности параметара, те да имплементирају одговарајуће решење у програмском језику Python, уз ослонац на библиотеку PyTorch.

1) Упознавање са проблемима аутоматског одлучивања и основним структурама система за аутоматско одлучивање и подршку у одлучивању. 2) Проблеми учења са подстицајем (Reinforcement Learning): илустрација примера, области и могућности примене. Начин накоји се учење са подстицајем односи према другим техникама машинског учења (надгледаном и ненадгледаном учењу) 3) Коначни процеси одлучивања: детерминистички и стохастички (Марковљеви) процеси одлучивања. 4) Основни методи егзактног решавања коначних проблема одлучивања: Белманова једначина и основни принципи динамичког програмирања. Шири значај и примена метода динамичког програмирања. 5) Веза са проблемима оптималног управљања. Основни појмови о бесконачним и временски континуалним проблемима одлучивања и управљања. 6) Ограничења егзактних метода и потреба за увођењем апроксимативних техника. Увод у хеуристичке методе. Монте-Карло методе решавања проблема учења са подстицајем. Студије случаја. 7) Основни принципи идентификације параметара (временски дискретних) динамичких система. 8) Основни принципи конструкције рекурзивних естиматора стања, параметара и поремећаја (односно непознатих улаза). Рекурзивни естиматори. Калманови филтри. 9) Учење на основу разлика у времену (Temporal Difference Learning) 10) Примена метода дубоког учења у проблемима учења са подстицајем (Deep Reinforcement Learning). Дубоко Q-учење. Методе критике (actor critic methods). 11) Студије случаја

Облици одржавања наставе су предавања, рачунарске вежбе и консултације. Током рачунарских вежби, студенти ће - кроз практичне примере - утврдити градиво изложено током предавања. Ова знања ће се даље продубити кроз домаће задатке, које ће студенти израђивати самостално или у групама. На крају, сваки студент ће бити обавезан да положи индивидуалан предметни пројекат.

Аутори Назив Година Издавач Језик
Милан Р. Рапаић, Зоран Д. Јеличић Пројектовање линеарних регултора и естиматор у простору стања 2014 ФТН Издаваштво, Нови Сад Српски језик
R. S. Sutton, A. G. Barto Reinforcement Learning – An Introduction 2017 MIT Press Енглески
A. Zai, B. Brown Deep Reinforcement Learning in Action 2020 Manning, Shelter Island Енглески
Предметна активност Предиспитна Обавезна Број поена
Предметна активност
Завршни испит - II део
Предиспитна
Не
Обавезна
Да
Број поена
20.00
Предметна активност
Домаћи задатак
Предиспитна
Да
Обавезна
Да
Број поена
5.00
Предметна активност
Домаћи задатак
Предиспитна
Да
Обавезна
Да
Број поена
5.00
Предметна активност
Предметни пројекат
Предиспитна
Да
Обавезна
Да
Број поена
30.00
Предметна активност
Домаћи задатак
Предиспитна
Да
Обавезна
Да
Број поена
5.00
Предметна активност
Домаћи задатак
Предиспитна
Да
Обавезна
Да
Број поена
5.00
Предметна активност
Завршни испит - I део
Предиспитна
Не
Обавезна
Да
Број поена
30.00
API Image

проф. др Милан Рапаић

Редовни професор

Предавања

API Image

проф. др Зоран Јеличић

Редовни професор

Предавања

Предавања

API Image

проф. др Милан Рапаић

Редовни професор

Рачунарске вежбе

Рачунарске вежбе