Fakultet tehničkih nauka

Predmet: Govorna komunikacija čovek-mašina (17.DE512)

Matične organizacione jedinice predmeta: Departman za energetiku, elektroniku i telekomunikacije
Osnovne informacije:
 
Kategorija Naučno-stručni
Uža naučna oblast Telekomunikacije i obrada signala
ESPB 10

Cilj je proširivanje i produbljivanje multidisciplinarnih znanja doktoranada na kojima se bazira govorna komunikacija čoveka i mašine. Upoznavanje sa karakteristikama jezika i govornog signala je osnovni preduslov za razumevanje algoritama mašinskog učenja i razvoj adekvatnih jezičkih i akustičkih modela. Ovladati primenom softverskih alata za obradu audio (govornih) signala. Razumeti algoritme koji se koriste u obradi govornog signala, a posebno adaptivne algoritme i tehnike dubokog učenja za automatsko prepoznavanje i sintezu govora na osnovu zadatog teksta. Proširiti znanja na identifikaciju i verifikaciju govornika i prepoznavanje emocija u njegovom glasu. Takođe upoznati studente sa osnovama obrade prirodnog jezika, automatskim upravljanjem dijalogom i dijaloškim sistemima.

Doktorandi na ovom predmetu teorijski upoznaju algoritme mašinskog učenja koji se koriste pri automatskom prepoznavanju govora (ASR), identifikaciji i verifikaciji govornika, kao i pri sintezi govora na osnovu teksta (TTS). Praktično savladaju većinu softverskih alata i tehnika za obradu govornih signala. Na taj način stiču sva potrebna predznanja neophodna za razumevanje algoritama za ASR i TTS. Stečena znanja su potrebna za snimanje i obradu baza govornih signala i rad na razvoju multimodalnih sistema u kojima se primenjuju ASR i TTS. Upoznaju osnovne elemente obrade prirodnog jezika i upravljanja dijalogom. Na kraju kursa poznaju mogućnosti automatskog prepoznavanja i sinteze govora, kao i alata za razvoj aplikacija i dijaloških sistema baziranih na ovim novim govornim tehnologijama i spremni su da daju stručne i naučne doprinose u ovoj oblasti.

•Fiziološka akustika i akustičko modelovanje govora. •Psihoakustika i percepcija zvuka. •Artikulatorna i akustička fonetika. •Osnovi teorije formalnih jezika. •Lingvističko modelovanje govora. •Predobrada govornog signala i izdvajanje relevantnih obeležja. •Snimanje i obrada govornih baza za ASR i TTS. •Teorija konačnih automata i statistički modeli, skriveni Markovljevi modeli (HMM). •Viterbijev algoritam, vektorska kvantizacija, klasterovanje, tehnike parsiranja. •Algoritmi na bazi poređenja uzoraka i dinamičko programiranje (DTW). •Statistički pristup na bazi HMM. •Ekspertski sistemi za automatsko prepoznavanje govora. •Duboko učenje i neuronske mreže (DNN) i hibridni sistemi (DNN-HMM). •Algoritmi za identifikaciju i verifikaciju govornika. •Morfološko-sintaksna analiza teksta. •Konkatenativni pristup sintezi govora na osnovu teksta. •Sinteza govora u vremenskom domenu. •Parametarska sinteza govora na bazi HMM ili DNN. •Obrada prirodnog jezika (NLP) i upravljanje dijalogom (DM). •Telefonski i internet govorni portali (CTI, IVR). •Automatizacija pozivnih centara. •Primene u domaćinstvu, industriji, automobilima. •Humane primene govornih tehnologija. •Učenje srpskog kao stranog jezika pomoću govornih mašina. •Korišćenje standardnih softverskih alata za rad sa zvukom (Sound Forge, Praat). •Implementacija algoritama za obradu govornog signala (Matlab, DSP, HTK, Kaldi). •Alati za razvoj aplikacija sa govornim tehnologijama (SAPI, VoiceXML, Merlin, TensorFlow i drugi).

Nastava je kombinacija predavanja i mentorskog rada. Studijski istraživački rad obuhvata aktivno praćenje primarnih naučnih izvora, organizaciju i izvođenje eksperimenata i statističku obradu podataka, numeričke simulacije, kao i eventualno pisanje rada iz uže naučne oblasti kojoj pripada tema doktorske disertacije. Preko web portala Katedre za telekomunikacije i obradu signala doktorandi imaju na raspolaganju PowerPoint prezentacije sa predavanja s brojnim audio i video prilozima i animacijama, kao i određene on-line vežbe namenjene za samostalni rad. Deo kursa podržan je vežbama u Laboratoriji za akustiku i govorne tehnologije na FTN, kao i posetama kompanijama gde se doktorandi detaljnije upoznaju sa govornim tehnologijama. Izrada praktičnog projekta je predispitna obaveza. Na završnom ispitu se vrši provera ukupno stečenih znanja na ovom kursu.

Autori Naziv Godina Izdavač Jezik
L. Rabiner and B-H. Juang Fundamentals of Speech Recognition 1993 Prentice Hall Engleski
B. Gold and N. Morgan Speech and Audio Signal Processing - Processing and Perception of Speech and Music 2000 JW&S Engleski
T. Dutoit An Introduction to Text-to-Speech Synthesis 1997 Kluwer Engleski
Vlado Delić i dr. Audio-izdanje udžbenika i prezentacija u okviru CABUNS-a 2019 Univerzitet u Novom Sadu Srpski jezik
T. Quatieri Discrete-Time Speech Signal Processing - Principles and Practice 2002 Prentice Hall Engleski
Predmetna aktivnost Predispitna Obavezna Broj poena
Predmetna aktivnost
Predmetni projekat
Predispitna
Da
Obavezna
Da
Broj poena
50.00
Predmetna aktivnost
Usmeni deo ispita
Predispitna
Ne
Obavezna
Da
Broj poena
50.00
API Image

prof. dr Delić Vlado

Redovni profesor

Predavanja
Predavanja
Predavanja