Govorna komunikacija čovek-mašina | Fakultet Tehničkih Nauka

Predmet: Govorna komunikacija čovek-mašina (17.DE512)

Matične organizacione jedinice predmeta: Departman za energetiku, elektroniku i telekomunikacije

Stepen i vrsta studija	Naziv
Doktorske studije	Energetika, elektronika i telekomunikacije (Godina: 2, Semestar: Zimski)
Doktorske studije	Biomedicinsko inženjerstvo (Godina: 2, Semestar: Zimski)

Osnovne informacije:

Kategorija	Naučno-stručni
Uža naučna oblast	Telekomunikacije i obrada signala
ESPB	10

Cilj je proširivanje i produbljivanje multidisciplinarnih znanja doktoranada na kojima se bazira govorna komunikacija čoveka i mašine. Upoznavanje sa karakteristikama jezika i govornog signala je osnovni preduslov za razumevanje algoritama mašinskog učenja i razvoj adekvatnih jezičkih i akustičkih modela. Ovladati primenom softverskih alata za obradu audio (govornih) signala. Razumeti algoritme koji se koriste u obradi govornog signala, a posebno adaptivne algoritme i tehnike dubokog učenja za automatsko prepoznavanje i sintezu govora na osnovu zadatog teksta. Proširiti znanja na identifikaciju i verifikaciju govornika i prepoznavanje emocija u njegovom glasu. Takođe upoznati studente sa osnovama obrade prirodnog jezika, automatskim upravljanjem dijalogom i dijaloškim sistemima.

Doktorandi na ovom predmetu teorijski upoznaju algoritme mašinskog učenja koji se koriste pri automatskom prepoznavanju govora (ASR), identifikaciji i verifikaciji govornika, kao i pri sintezi govora na osnovu teksta (TTS). Praktično savladaju većinu softverskih alata i tehnika za obradu govornih signala. Na taj način stiču sva potrebna predznanja neophodna za razumevanje algoritama za ASR i TTS. Stečena znanja su potrebna za snimanje i obradu baza govornih signala i rad na razvoju multimodalnih sistema u kojima se primenjuju ASR i TTS. Upoznaju osnovne elemente obrade prirodnog jezika i upravljanja dijalogom. Na kraju kursa poznaju mogućnosti automatskog prepoznavanja i sinteze govora, kao i alata za razvoj aplikacija i dijaloških sistema baziranih na ovim novim govornim tehnologijama i spremni su da daju stručne i naučne doprinose u ovoj oblasti.

•Fiziološka akustika i akustičko modelovanje govora. •Psihoakustika i percepcija zvuka. •Artikulatorna i akustička fonetika. •Osnovi teorije formalnih jezika. •Lingvističko modelovanje govora. •Predobrada govornog signala i izdvajanje relevantnih obeležja. •Snimanje i obrada govornih baza za ASR i TTS. •Teorija konačnih automata i statistički modeli, skriveni Markovljevi modeli (HMM). •Viterbijev algoritam, vektorska kvantizacija, klasterovanje, tehnike parsiranja. •Algoritmi na bazi poređenja uzoraka i dinamičko programiranje (DTW). •Statistički pristup na bazi HMM. •Ekspertski sistemi za automatsko prepoznavanje govora. •Duboko učenje i neuronske mreže (DNN) i hibridni sistemi (DNN-HMM). •Algoritmi za identifikaciju i verifikaciju govornika. •Morfološko-sintaksna analiza teksta. •Konkatenativni pristup sintezi govora na osnovu teksta. •Sinteza govora u vremenskom domenu. •Parametarska sinteza govora na bazi HMM ili DNN. •Obrada prirodnog jezika (NLP) i upravljanje dijalogom (DM). •Telefonski i internet govorni portali (CTI, IVR). •Automatizacija pozivnih centara. •Primene u domaćinstvu, industriji, automobilima. •Humane primene govornih tehnologija. •Učenje srpskog kao stranog jezika pomoću govornih mašina. •Korišćenje standardnih softverskih alata za rad sa zvukom (Sound Forge, Praat). •Implementacija algoritama za obradu govornog signala (Matlab, DSP, HTK, Kaldi). •Alati za razvoj aplikacija sa govornim tehnologijama (SAPI, VoiceXML, Merlin, TensorFlow i drugi).

Nastava je kombinacija predavanja i mentorskog rada. Studijski istraživački rad obuhvata aktivno praćenje primarnih naučnih izvora, organizaciju i izvođenje eksperimenata i statističku obradu podataka, numeričke simulacije, kao i eventualno pisanje rada iz uže naučne oblasti kojoj pripada tema doktorske disertacije. Preko web portala Katedre za telekomunikacije i obradu signala doktorandi imaju na raspolaganju PowerPoint prezentacije sa predavanja s brojnim audio i video prilozima i animacijama, kao i određene on-line vežbe namenjene za samostalni rad. Deo kursa podržan je vežbama u Laboratoriji za akustiku i govorne tehnologije na FTN, kao i posetama kompanijama gde se doktorandi detaljnije upoznaju sa govornim tehnologijama. Izrada praktičnog projekta je predispitna obaveza. Na završnom ispitu se vrši provera ukupno stečenih znanja na ovom kursu.

Autori	Naziv	Godina	Izdavač	Jezik
L. Rabiner and B-H. Juang	Fundamentals of Speech Recognition	1993	Prentice Hall	Engleski
Vlado Delić i dr.	Audio-izdanje udžbenika i prezentacija u okviru CABUNS-a	2019	Univerzitet u Novom Sadu	Srpski jezik
T. Dutoit	An Introduction to Text-to-Speech Synthesis	1997	Kluwer	Engleski
B. Gold and N. Morgan	Speech and Audio Signal Processing - Processing and Perception of Speech and Music	2000	JW&S	Engleski
T. Quatieri	Discrete-Time Speech Signal Processing - Principles and Practice	2002	Prentice Hall	Engleski

Predmetna aktivnost	Predispitna	Obavezna	Broj poena
Predmetna aktivnost Predmetni projekat	Predispitna Da	Obavezna Da	Broj poena 50.00
Predmetna aktivnost Usmeni deo ispita	Predispitna Ne	Obavezna Da	Broj poena 50.00

prof. dr Vlado Delić

Redovni profesor

Predavanja

ORGANIZACIJA

DOKUMENTA

ZAPOSLENI

KONKURSI

Galerije

AKREDITACIJA 2027

AKREDITACIJA

KONTAKT

AKREDITACIJA

KONTAKT

Studentska služba

Predmet: Govorna komunikacija čovek-mašina (17.DE512)

Studijski programi predmeta:

Kontakt: