Fakultet tehničkih nauka

Predmet: Multimodalna percepcija čoveka i mašine (22.EAI042)

Osnovne informacije:
 
Kategorija Teorijsko-metodološki
Uža naučna oblast Telekomunikacije i obrada signala
ESPB 6

Polazeći od stečenih znanja o ljudskoj percepciji zvuka i slike, predmet obrađuje algoritme za multimodalnu percepciju od strane mašina: robota, autonomnih vozila, uređaja u pametnoj kući, itd. Predmet poredi način određivanja karakteristika zvuka i lokacije njegovog izvora od strane čoveka i mikrofonskih nizova, i ukratko predstavlja ultrazvučne tehnologije i njihovu primenu u eholokaciji. Predmet izlaže principe vizuelne percepcije koji definišu kako mašina uči da realizuje postavljene zadatke kompjuterskog vida. Predmet razmatra šta i kako mašine mogu razlikovati u audio i video signalima, i šta se sve u govoru i slici može prepoznavati automatski. Predmet daje uvod u audio-vizuelnu analizu scene i algoritme mašinskog učenja za multimodalnu fuziju (rana, kasna i hibridna fuzija). Predmet daje osnove obrade i fuzije multisenzorskih podataka na nivou obeležja, tokom ekstrakcije informacija i na nivou krajnjih rezultata odlučivanja, kao i uvod u federated learning.

Nakon ovog predmeta studenti će jasno razumeti karakteristike audio i video signala i njihove percepcije čulom sluha i vida. Studenti će identifikovati razlike u percepciji niskih i visokih frekvencija, u ponašanju zvuka u zatvorenom i otvorenom prostoru, kao i u slučaju kada se izvor i/ili prijemnik zvuka kreću. Razumeće algoritme za rad mikrofonskih nizova, istraživati mogućnosti kombinovane analize audio i video signala u analizi scene, kao i određivanja audio-vizuelnih obeležja. Primeniće osnovne principe rada federated learning algoritama za analizu nedeljenih podataka. Za razne primene, studenti će umeti da izaberu odgovarajuće izvore informacija, izvrše selekciju i estimaciju relevantnih obeležja, organizuju (ne)nadgledano mašinsko učenje i duboko učenje.

Teorijska nastava 1. Vizuelizacija nastajanja i prostiranja zvučnih talasa: frekvencija, talasna dužina i brzina zvuka. Refleksija i apsorpcija, difuzija, zakretanje i prelamanje zvuka, stojeći talasi, Doplerov efekat. Ultrazvuk, eholokacija, sonar. Direktni i reverberantni zvuk, apsorpcija i vreme reverberacije. 2. Impulsni odziv i prenosna karakteristika audio sistema. Furijeova analiza audio signala. Subjektivni osećaj jačine zvuka, visine tona i boje zvuka. 3. Psihofiziološki aspekti percepcije zvuka. Binauralna lokalizacija, prenosna karakteristika do čula sluha i impulsni odziv glave. Stereo prezentacija, surround i 3D zvuk. Efekat maskiranja i koktel-parti efekat. 4. Mikrofonski nizovi: Klasično optimalno filtriranje: Vinerov, Frostov i Kalmanov filtar. Konvencionalne tehnike prostornog filtriranja, (beamforming) pomoću mikrofonskih nizova: pristup "zakasni i saberi", dizajn nepromenljivog snopa, filtar sa maksimalnim odnosnom signal šum. Adaptivne tehnike prostornog filtriranja pomoću mikrofonskih nizova: Vinerov prostorni filtar MVDR, LCMF. 5. Percepcija video signala. Vizuelna percepcija kod čoveka i životinja (niži nivoi obrade i viši kognitivni procesi). Ciljevi kompjuterskog vida. Predstava slike, celovitost percepcije – geštalt zakoni grupisanja i Helmholcov princip. Propagacija svetlosti, tipovi sočiva, izvori osvetljenja, ugao posmatranja i perspektiva. Aktivni (Lidar, RGBD) i pasivni senzori slike. Metode za snimanje na bazi rekonstrukcije. 6. Percepcija 3D prostora, binokularni vid i procena dubine. Uloga ivica i tekstura. Problem vizuelne pretrage i opisa sadržaja. Prednji plan i pozadina. Mehanizam privlačenja pažnje (engl. saliency detection) i njegova uloga u procesu podučavanja sistema kompjuterske vizije. Subjektivne i objektivne mere kvaliteta. Monokularni vid i tehnike mašinskog učenja za njegovo poboljšanje i adaptaciju. 7. Audio-vizuelna analiza scene. Fuzija multisenzorskih informacija i njihovo zajedničko modelovanje. Kasna fuzija, rana fuzija i hibridna fuzija. Primene: lokalizacija zvučnog izvora u videu i heat mape, audio-vizuelno prepoznavanje akcija u videu, klasifikacija audio-vizuelnih scena. Uvod u federated learning sa primenom kod nedeljenih multimodalnih podataka (u vlasništvu različitih entiteta). Praktična nastava Predmet je pretežno teorijskog karaktera, a vežbe su usmerene na praktičnu primenu obimnih baza audio-video snimaka metodama veštačke inteligencije. Takođe će dati uvid i osnovne smernice u vezi sa samim kreiranjem audio-vizuelnih baza (npr. putem Android aplikacije, planiranje postavke opreme za akviziciju podataka/signala, primere i značaj staged recordings) i različitih koraka njihove pripreme za dalju obradu, uključujući audio-vizuelnu anotaciju i odgovarajuće aktuelne softverske pakete (npr. ELAN), kreiranje ontologija za klasifikaciju na osnovu analize događaja, i sl.

Predavanja se izvode uz PowerPoint prezentacije s brojnim audio i video prilozima i animacijama. Praćena su vežbama u Laboratoriji za akustiku i govorne tehnologije i Laboratoriji za obradu signala i mašinsko učenje u NTP na FTN. Predispitne obaveze su seminarski rad i projekat u saradnji sa privredom – uslov za izlazak na ispit je 25 od 50 bodova. Seminarski radovi se rade samostalno, a najbolji iz pojedinih tema se prezentuju i donose dodatne bodove. Projekti se definišu u saradnji sa partnerima iz privrede. Kroz kolokvijum na polovini semestra može se položiti prvi deo ispita. Samostalni deo rada studenta podržan je preko web portala Katedre za telekomunikacije i obradu signala – www.telekom.ftn.uns.ac.rs.

Autori Naziv Godina Izdavač Jezik
Драган Дринчић, Петар Правица, Драган Новаковић Основи акустике 2018 ВШЕРСС, Београд Srpski jezik
M. Nematollahi, S. Shahbazi, N. Nabian Computer vision and audition in urban analysis using the remorph framework 2019 Springer Engleski
David Marr Vision - A computational investigation into the human representation and processing of visual information 2010 MIT Press Engleski
Jacob Benesty, Israel Cohen, Jingdong Chen Fundamentals of Signal Enhancement and Array Signal Processing 2018 John Wiley & Sons, Singapore Engleski
Michael Ying Yang, Bodo Rosenhahn, Vittorio Murino Multimodal Scene Understanding 2019 Academic Press Engleski
A. Desolneux, L. Moisan, J.-M. Morel From gestalt theory to image analysis - A probabilistic approach 2008 Springer Engleski
Predmetna aktivnost Predispitna Obavezna Broj poena
Predmetna aktivnost
Seminarski rad
Predispitna
Da
Obavezna
Da
Broj poena
20.00
Predmetna aktivnost
Predmetni projekat
Predispitna
Da
Obavezna
Da
Broj poena
30.00
Predmetna aktivnost
Završni ispit - II deo
Predispitna
Ne
Obavezna
Da
Broj poena
30.00
Predmetna aktivnost
Završni ispit - I deo
Predispitna
Ne
Obavezna
Da
Broj poena
20.00
API Image

prof. dr Delić Vlado

Redovni profesor

Predavanja
Predavanja
Predavanja
Računarske vežbe
Računarske vežbe
Računarske vežbe