Faculty of Technical Sciences

Subject: (22.EAI042)

General information:
 
Category Theoretical-methodological
Scientific or art field Telecommunications and Signal Processing
ECTS 6

Polazeći od stečenih znanja o ljudskoj percepciji zvuka i slike, predmet obrađuje algoritme za multimodalnu percepciju od strane mašina: robota, autonomnih vozila, uređaja u pametnoj kući, itd. Predmet poredi način određivanja karakteristika zvuka i lokacije njegovog izvora od strane čoveka i mikrofonskih nizova, i ukratko predstavlja ultrazvučne tehnologije i njihovu primenu u eholokaciji. Predmet izlaže principe vizuelne percepcije koji definišu kako mašina uči da realizuje postavljene zadatke kompjuterskog vida. Predmet razmatra šta i kako mašine mogu razlikovati u audio i video signalima, i šta se sve u govoru i slici može prepoznavati automatski. Predmet daje uvod u audio-vizuelnu analizu scene i algoritme mašinskog učenja za multimodalnu fuziju (rana, kasna i hibridna fuzija). Predmet daje osnove obrade i fuzije multisenzorskih podataka na nivou obeležja, tokom ekstrakcije informacija i na nivou krajnjih rezultata odlučivanja, kao i uvod u federated learning.

Nakon ovog predmeta studenti će jasno razumeti karakteristike audio i video signala i njihove percepcije čulom sluha i vida. Studenti će identifikovati razlike u percepciji niskih i visokih frekvencija, u ponašanju zvuka u zatvorenom i otvorenom prostoru, kao i u slučaju kada se izvor i/ili prijemnik zvuka kreću. Razumeće algoritme za rad mikrofonskih nizova, istraživati mogućnosti kombinovane analize audio i video signala u analizi scene, kao i određivanja audio-vizuelnih obeležja. Primeniće osnovne principe rada federated learning algoritama za analizu nedeljenih podataka. Za razne primene, studenti će umeti da izaberu odgovarajuće izvore informacija, izvrše selekciju i estimaciju relevantnih obeležja, organizuju (ne)nadgledano mašinsko učenje i duboko učenje.

Teorijska nastava 1. Vizuelizacija nastajanja i prostiranja zvučnih talasa: frekvencija, talasna dužina i brzina zvuka. Refleksija i apsorpcija, difuzija, zakretanje i prelamanje zvuka, stojeći talasi, Doplerov efekat. Ultrazvuk, eholokacija, sonar. Direktni i reverberantni zvuk, apsorpcija i vreme reverberacije. 2. Impulsni odziv i prenosna karakteristika audio sistema. Furijeova analiza audio signala. Subjektivni osećaj jačine zvuka, visine tona i boje zvuka. 3. Psihofiziološki aspekti percepcije zvuka. Binauralna lokalizacija, prenosna karakteristika do čula sluha i impulsni odziv glave. Stereo prezentacija, surround i 3D zvuk. Efekat maskiranja i koktel-parti efekat. 4. Mikrofonski nizovi: Klasično optimalno filtriranje: Vinerov, Frostov i Kalmanov filtar. Konvencionalne tehnike prostornog filtriranja, (beamforming) pomoću mikrofonskih nizova: pristup "zakasni i saberi", dizajn nepromenljivog snopa, filtar sa maksimalnim odnosnom signal šum. Adaptivne tehnike prostornog filtriranja pomoću mikrofonskih nizova: Vinerov prostorni filtar MVDR, LCMF. 5. Percepcija video signala. Vizuelna percepcija kod čoveka i životinja (niži nivoi obrade i viši kognitivni procesi). Ciljevi kompjuterskog vida. Predstava slike, celovitost percepcije – geštalt zakoni grupisanja i Helmholcov princip. Propagacija svetlosti, tipovi sočiva, izvori osvetljenja, ugao posmatranja i perspektiva. Aktivni (Lidar, RGBD) i pasivni senzori slike. Metode za snimanje na bazi rekonstrukcije. 6. Percepcija 3D prostora, binokularni vid i procena dubine. Uloga ivica i tekstura. Problem vizuelne pretrage i opisa sadržaja. Prednji plan i pozadina. Mehanizam privlačenja pažnje (engl. saliency detection) i njegova uloga u procesu podučavanja sistema kompjuterske vizije. Subjektivne i objektivne mere kvaliteta. Monokularni vid i tehnike mašinskog učenja za njegovo poboljšanje i adaptaciju. 7. Audio-vizuelna analiza scene. Fuzija multisenzorskih informacija i njihovo zajedničko modelovanje. Kasna fuzija, rana fuzija i hibridna fuzija. Primene: lokalizacija zvučnog izvora u videu i heat mape, audio-vizuelno prepoznavanje akcija u videu, klasifikacija audio-vizuelnih scena. Uvod u federated learning sa primenom kod nedeljenih multimodalnih podataka (u vlasništvu različitih entiteta). Praktična nastava Predmet je pretežno teorijskog karaktera, a vežbe su usmerene na praktičnu primenu obimnih baza audio-video snimaka metodama veštačke inteligencije. Takođe će dati uvid i osnovne smernice u vezi sa samim kreiranjem audio-vizuelnih baza (npr. putem Android aplikacije, planiranje postavke opreme za akviziciju podataka/signala, primere i značaj staged recordings) i različitih koraka njihove pripreme za dalju obradu, uključujući audio-vizuelnu anotaciju i odgovarajuće aktuelne softverske pakete (npr. ELAN), kreiranje ontologija za klasifikaciju na osnovu analize događaja, i sl.

Predavanja se izvode uz PowerPoint prezentacije s brojnim audio i video prilozima i animacijama. Praćena su vežbama u Laboratoriji za akustiku i govorne tehnologije i Laboratoriji za obradu signala i mašinsko učenje u NTP na FTN. Predispitne obaveze su seminarski rad i projekat u saradnji sa privredom – uslov za izlazak na ispit je 25 od 50 bodova. Seminarski radovi se rade samostalno, a najbolji iz pojedinih tema se prezentuju i donose dodatne bodove. Projekti se definišu u saradnji sa partnerima iz privrede. Kroz kolokvijum na polovini semestra može se položiti prvi deo ispita. Samostalni deo rada studenta podržan je preko web portala Katedre za telekomunikacije i obradu signala – www.telekom.ftn.uns.ac.rs.

Authors Title Year Publisher Language
A. Desolneux, L. Moisan, J.-M. Morel From gestalt theory to image analysis - A probabilistic approach 2008 Springer English
David Marr Vision - A computational investigation into the human representation and processing of visual information 2010 MIT Press English
M. Nematollahi, S. Shahbazi, N. Nabian Computer vision and audition in urban analysis using the remorph framework 2019 Springer English
Jacob Benesty, Israel Cohen, Jingdong Chen Fundamentals of Signal Enhancement and Array Signal Processing 2018 John Wiley & Sons, Singapore English
Michael Ying Yang, Bodo Rosenhahn, Vittorio Murino Multimodal Scene Understanding 2019 Academic Press English
Course activity Pre-examination Obligations Number of points
Term paper Yes Yes 20.00
Final exam - part one No Yes 20.00
Final exam - part two No Yes 30.00
Project Yes Yes 30.00
API Image

Prof. Delić Vlado

Full Professor

Lectures
API Image

Assoc. Prof. Brkljač Branko

Associate Professor

Lectures

Assoc. Prof. Bajović Dragana

Associate Professor

Lectures
API Image

Asst. Prof. Suzić Siniša

Assistant Professor

Computational classes
API Image

Asistent sa doktoratom dr Simić Nikola

Assistant with PhD

Computational classes

Assistant - Master Šobot Srđan

Assistant - Master

Computational classes

Faculty of Technical Sciences

© 2024. Faculty of Technical Sciences.

Contact:

Address: Trg Dositeja Obradovića 6, 21102 Novi Sad

Phone:  (+381) 21 450 810
(+381) 21 6350 413

Fax : (+381) 21 458 133
Emejl: ftndean@uns.ac.rs

© 2024. Faculty of Technical Sciences.