Fakultet tehničkih nauka

Predmet: Govorne tehnologije (17.EK550)

Matične organizacione jedinice predmeta: Departman za energetiku, elektroniku i telekomunikacije
Osnovne informacije:
 
Kategorija Naučno-stručni
Uža naučna oblast Telekomunikacije i obrada signala
ESPB 5

Zasnovane na veštačkoj inteligenciji i mašinskom učenju, govorne tehnologije omogućuju razvoj novog interfejsa između čoveka i pametnog okruženja: telefona, računara i uređaja u pametnim kućama itd. Nadovezujući se na znanja stečena na kursevima sa osnovnih akademskih studija, cilj ovog kursa je da proširi multidisciplinarna znanja na kojima se bazira govorna komunikacija čoveka i mašine. U cilju razumevanja algoritama za automatsko prepoznavanje govora, govornika i emocija, kao i sintezu govora na osnovu teksta, potrebno je detaljnije upoznati karakteristike govornog signala i njegove akustičke i lingvističke modele. Cilj je da se pored upoznavanja algoritama, ovlada primenom softverskih alata za obradu govornih signala i praktično upozna sa aplikacijama govornih tehnologija.

Studenti na ovom predmetu upoznaju osnovne algoritme mašinskog učenja koji se koriste pri automatskom prepoznavanju govora (ASR) i pri sintezi govora na osnovu teksta (TTS). Na taj način stiču osnovna predznanja potrebna za rad na razvoju i primeni ASR i TTS. Stiču znanja potrebna za snimanje i obradu baza govornih signala i razumevanje algoritama za automatsko prepoznavanje i sintezu govora, ali i prepoznavanja govornika i emocija, kao i jezičkih modula i dijaloških sistema. Na kraju kursa studenti poznaju mogućnosti govornih tehnologija, kao i alata za razvoj aplikacija baziranih na ovim novim tehnologijama i spremni su da daju stručne doprinose u ovoj oblasti.

•Uvod u ASR i TTS: hronologija razvoja, terminologija, perspektive •Govor: produkcija i percepcija, priroda i karakteristike (t-f prikaz + labeliranje (AlfaNum)) •Govorni signal: analiza i prikaz na računaru (LPC, MFCC, PLP + vizuelizacija (Matlab)) •Obrada prirodnog jezika: modelovanje jezika (n-grami) + HMM (HTK) •Pristupi ASR-u (DTW, HMM, DNN), akustički, leksički i lingvistički modeli •Procedure ASR obuke: GMM, k-means, VQ, Baum-Welch, ML MMI, MWE MPE (HTK) •Algoritmi ASR dekodovanja: Viterbi, Token-passing, N-best (HTK) •Robustne ASR metode: VTN, CMN, potiskivanje šuma •Sinteza govora na osnovu teksta (TTS): jezička obrada teksta, sinteza (konkatenativna, HMM i DNN) •Prepoznavanje govornika (automatsko i forenzičko) •Prepoznavanje emocija u govoru •Modelovanje dijaloga, razumevanje govora (SLU) i dijaloški sistemi

Predavanja se izvode uz PowerPoint prezentacije s brojnim audio i video prilozima i animacijama. Praćena su praktičnim vežbama u Laboratoriji za akustiku i govorne tehnologije i u govornom studiju na FTN. Organizovana je poseta kompanijama u kojima studenti imaju prilike da nauče više o govornim tehnologijama. Predispitne obaveze su seminarski rad i projekat - uslov za izlazak na ispit je 25 do 50 bodova. Seminarski radovi se rade samostalno i mogu da budu osnova za izradu master rada. Samostalni deo rada studenta na projektnom zadatku podržan je preko web portala Katedre za telekomunikacije i obradu signala - www.ktios.ftn.uns.ac.rs.

Autori Naziv Godina Izdavač Jezik
T. Dutoit An Introduction to Text-to-Speech Synthesis 1997 Kluwer Engleski
L. Rabiner and B-H. Juang Fundamentals of Speech Recognition 1993 Prentice Hall Engleski
Vlado Delić, Milan Sečujski, Nikša Jakovljević, Dragiša Mišković Audio-izdanje udžbenika i prezentacija u okviru CABUNS-a 2019 Univerzitet u Novom Sadu Srpski jezik
Predmetna aktivnost Predispitna Obavezna Broj poena
Predmetna aktivnost
Pismeni deo ispita - kombinovani zadaci i teorija
Predispitna
Ne
Obavezna
Da
Broj poena
50.00
Predmetna aktivnost
Predmetni projekat
Predispitna
Da
Obavezna
Da
Broj poena
30.00
Predmetna aktivnost
Seminarski rad
Predispitna
Da
Obavezna
Da
Broj poena
20.00
API Image

prof. dr Delić Vlado

Redovni profesor

Predavanja
Predavanja
Laboratorijske vežbe