Мултимодална перцепција човека и машине | Факултет Техничких Наука

Предмет: Мултимодална перцепција човека и машине (22.EAI042)

Степен и врста студија	Назив
Мастер академске студије	Вештачка интелигенција и машинско учење (Година: 1, Семестар: Летњи)

Основне информације:

Категорија	Теоријско-методолошки
Ужа научна област	Телекомуникације и обрада сигнала
ЕСПБ	6

Полазећи од стечених знања о људској перцепцији звука и слике, предмет обрађује алгоритме за мултимодалну перцепцију од стране машина: робота, аутономних возила, уређаја у паметној кући, итд. Предмет пореди начин одређивања карактеристика звука и локације његовог извора од стране човека и микрофонских низова, и укратко представља ултразвучне технологије и њихову примену у ехолокацији. Предмет излаже принципе визуелне перцепције који дефинишу како машина учи да реализује постављене задатке компјутерског вида. Предмет разматра шта и како машине могу разликовати у аудио и видео сигналима, и шта се све у говору и слици може препознавати аутоматски. Предмет даје увод у аудио-визуелну анализу сцене и алгоритме машинског учења за мултимодалну фузију (рана, касна и хибридна фузија). Предмет даје основе обраде и фузије мултисензорских података на нивоу обележја, током екстракције информација и на нивоу крајњих резултата одлучивања, као и увод у federated learning.

Након овог предмета студенти ће јасно разумети карактеристике аудио и видео сигнала и њихове перцепције чулом слуха и вида. Студенти ће идентификовати разлике у перцепцији ниских и високих фреквенција, у понашању звука у затвореном и отвореном простору, као и у случају када се извор и/или пријемник звука крећу. Разумеће алгоритме за рад микрофонских низова, истраживати могућности комбиноване анализе аудио и видео сигнала у анализи сцене, као и одређивања аудио-визуелних обележја. Примениће основне принципе рада federated learning алгоритама за анализу недељених података. За разне примене, студенти ће умети да изаберу одговарајуће изворе информација, изврше селекцију и естимацију релевантних обележја, организују (не)надгледано машинско учење и дубоко учење.

Теоријска настава 1. Визуелизација настајања и простирања звучних таласа: фреквенција, таласна дужина и брзина звука. Рефлексија и апсорпција, дифузија, закретање и преламање звука, стојећи таласи, Доплеров ефекат. Ултразвук, ехолокација, сонар. Директни и реверберантни звук, апсорпција и време реверберације. 2. Импулсни одзив и преносна карактеристика аудио система. Фуријеова анализа аудио сигнала. Субјективни осећај јачине звука, висине тона и боје звука. 3. Психофизиолошки аспекти перцепције звука. Бинаурална локализација, преносна карактеристика до чула слуха и импулсни одзив главе. Стерео презентација, surround и 3D звук. Ефекат маскирања и коктел-парти ефекат. 4. Микрофонски низови: Класично оптимално филтрирање: Винеров, Фростов и Калманов филтар. Конвенционалне технике просторног филтрирања, (beamforming) помоћу микрофонских низова: приступ "закасни и сабери", дизајн непроменљивог снопа, филтар са максималним односном сигнал шум. Адаптивне технике просторног филтрирања помоћу микрофонских низова: Винеров просторни филтар MVDR, LCMF. 5. Перцепција видео сигнала. Визуелна перцепција код човека и животиња (нижи нивои обраде и виши когнитивни процеси). Циљеви компјутерског вида. Представа слике, целовитост перцепције – гешталт закони груписања и Хелмхолцов принцип. Пропагација светлости, типови сочива, извори осветљења, угао посматрања и перспектива. Активни (Lidar, RGBD) и пасивни сензори слике. Методе за снимање на бази реконструкције. 6. Перцепција 3D простора, бинокуларни вид и процена дубине. Улога ивица и текстура. Проблем визуелне претраге и описа садржаја. Предњи план и позадина. Механизам привлачења пажње (енгл. saliency detection) и његова улога у процесу подучавања система компјутерске визије. Субјективне и објективне мере квалитета. Монокуларни вид и технике машинског учења за његово побољшање и адаптацију. 7. Аудио-визуелна анализа сцене. Фузија мултисензорских информација и њихово заједничко моделовање. Касна фузија, рана фузија и хибридна фузија. Примене: локализација звучног извора у видеу и heat мапе, аудио-визуелно препознавање акција у видеу, класификација аудио-визуелних сцена. Увод у federated learning са применом код недељених мултимодалних података (у власништву различитих ентитета). Практична настава Предмет је претежно теоријског карактера, а вежбе су усмерене на практичну примену обимних база аудио-видео снимака методама вештачке интелигенције. Такође ће дати увид и основне смернице у вези са самим креирањем аудио-визуелних база (нпр. путем Андроид апликације, планирање поставке опреме за аквизицију података/сигнала, примере и значај стагед рецордингс) и различитих корака њихове припреме за даљу обраду, укључујући аудио-визуелну анотацију и одговарајуће актуелне софтверске пакете (нпр. ELAN), креирање онтологија за класификацију на основу анализе догађаја, и сл.

Предавања се изводе уз PowerPoint презентације с бројним аудио и видео прилозима и анимацијама. Праћена су вежбама у Лабораторији за акустику и говорне технологије и Лабораторији за обраду сигнала и машинско учење у НТП на ФТН. Предиспитне обавезе су семинарски рад и пројекат у сарадњи са привредом – услов за излазак на испит је 25 од 50 бодова. Семинарски радови се раде самостално, а најбољи из појединих тема се презентују и доносе додатне бодове. Пројекти се дефинишу у сарадњи са партнерима из привреде. Кроз колоквијум на половини семестра може се положити први део испита. Самостални део рада студента подржан је преко web портала Катедре за телекомуникације и обраду сигнала – www.telekom.ftn.uns.ac.rs.

Аутори	Назив	Година	Издавач	Језик
Michael Ying Yang, Bodo Rosenhahn, Vittorio Murino	Multimodal Scene Understanding	2019	Academic Press	Енглески
M. Nematollahi, S. Shahbazi, N. Nabian	Computer vision and audition in urban analysis using the remorph framework	2019	Springer	Енглески
David Marr	Vision - A computational investigation into the human representation and processing of visual information	2010	MIT Press	Енглески
Драган Дринчић, Петар Правица, Драган Новаковић	Основи акустике	2018	ВШЕРСС, Београд	Српски језик
A. Desolneux, L. Moisan, J.-M. Morel	From gestalt theory to image analysis - A probabilistic approach	2008	Springer	Енглески
Jacob Benesty, Israel Cohen, Jingdong Chen	Fundamentals of Signal Enhancement and Array Signal Processing	2018	John Wiley & Sons, Singapore	Енглески

Предметна активност	Предиспитна	Обавезна	Број поена
Предметна активност Завршни испит - I део	Предиспитна Не	Обавезна Да	Број поена 20.00
Предметна активност Семинарски рад	Предиспитна Да	Обавезна Да	Број поена 20.00
Предметна активност Предметни пројекат	Предиспитна Да	Обавезна Да	Број поена 30.00
Предметна активност Завршни испит - II део	Предиспитна Не	Обавезна Да	Број поена 30.00