Fakultet tehničkih nauka

Predmet: Govorna komunikacija čovek-mašina (17.EAI550)

Matične organizacione jedinice predmeta:
Osnovne informacije:
 
Kategorija Naučno-stručni
Uža naučna oblast Telekomunikacije i obrada signala
Multidisciplinarna Ne
ESPB 6
Cilj:

Zasnovane na veštačkoj inteligenciji i mašinskom učenju, govorne tehnologije omogućuju razvoj novog interfejsa između čoveka i pametnog okruženja: telefona, računara i uređaja u pametnim kućama itd. Nadovezujući se na znanja stečena na kursevima sa osnovnih akademskih studija, cilj ovog kursa je da proširi multidisciplinarna znanja na kojima se bazira govorna komunikacija čoveka i mašine. U cilju razumevanja algoritama za automatsko prepoznavanje govora, govornika i emocija, kao i sintezu govora na osnovu teksta, potrebno je detaljnije upoznati karakteristike govornog signala i njegove akustičke i lingvističke modele. Cilj je da se pored upoznavanja algoritama, ovlada primenom softverskih alata za obradu govornih signala i praktično upozna sa aplikacijama govornih tehnologija.

Ishod:

Nakon ovog kursa studenti su osposobljeni da izaberu, analiziraju i testiraju algoritme mašinskog učenja koji se koriste pri automatskom prepoznavanju govora (ASR) i pri sintezi govora na osnovu teksta (TTS). Na taj način osposobljeni su za rad na razvoju i primeni ASR i TTS. Sa stečenim znanjima mogu da se uključe u projekte za snimanje i obradu baza govornih signala i razvoj algoritama za automatsko prepoznavanje i sintezu govora, ali i prepoznavanja govornika i emocija, kao i jezičkih modula i dijaloških sistema. Na kraju kursa studenti poznaju mogućnosti govornih tehnologija, umeju da kombinuju, procene i koriste alate za razvoj aplikacija baziranih na ovim novim tehnologijama i spremni su da daju stručne doprinose u ovoj oblasti.

Sadržaj:

•Uvod u ASR i TTS: hronologija razvoja, terminologija, perspektive •Govor: produkcija i percepcija, priroda i karakteristike (t-f prikaz + labeliranje (AlfaNum)) •Govorni signal: analiza i prikaz na računaru (LPC, MFCC, PLP + vizuelizacija (Matlab)) •Obrada prirodnog jezika: modelovanje jezika (n-grami) + HMM (HTK) •Pristupi ASR-u (DTW, HMM, DNN), akustički, leksički i lingvistički modeli •Procedure ASR obuke: GMM, k-means, VQ, Baum-Welch, ML MMI, MWE MPE (HTK) •Algoritmi ASR dekodovanja: Viterbi, Token-passing, N-best (HTK) •Robustne ASR metode: VTN, CMN, potiskivanje šuma •Sinteza govora na osnovu teksta (TTS): jezička obrada teksta, sinteza (konkatenativna, HMM i DNN) •Prepoznavanje govornika (automatsko i forenzičko) •Prepoznavanje emocija u govoru •Modelovanje dijaloga, razumevanje govora (SLU) i dijaloški sistemi Praktična nastava: Studeni će na vežbama praktično raditi obradu i analizu govornih signala, izdvajanje obeležja i obuku algoritama mašinskog učenja sa ciljem prepoznavanja govora, ali i pola, starosti i identiteta govornika, kao i sinteze govora na osnovu teksta, te njihove integracije u dijaloške sisteme sa elementima obrade prirodnog jezika. Na vežbama će se uputiti u izradu svojih projekata i semestralnih radova koje će dovršiti individualno ili u manjim grupama, uz mogućnost da teme biraju uz konsultacije i komentorstvo partnera iz privrede

Metodologija izvođenja nastave:

Predavanja se izvode uz PowerPoint prezentacije s brojnim audio i video prilozima i animacijama. Praćena su praktičnim vežbama u Laboratoriji za akustiku i govorne tehnologije. Organizovana je poseta kompanijama u kojima studenti imaju prilike da nauče više o govornim tehnologijama. Predispitne obaveze su seminarski rad i projekat. Seminarski radovi se rade samostalno i mogu da budu osnova za izradu master rada. Samostalni deo rada studenta na projektnom zadatku podržan je preko web portala Katedre za telekomunikacije i obradu signala - www.ktios.ftn.uns.ac.rs.

Literatura:
Autori Naziv Godina Izdavač Jezik
Dong Yu and Li Deng Automatic Speech Recognition – A Deep Learning Approach 2015 Springer-Verlag London Engleski
Paul Taylor Text-to-Speech Synthesis 2009 Cambridge University Press Engleski
Uday Kamath, John Liu, James Whitaker Deep Learning for NLP and Speech Recognition 2019 Springer Engleski
Formiranje ocene:
Predmetna aktivnost Predispitna Obavezna Broj poena
Predmetni projekat Da Da 30.00
Teorijski deo ispita Ne Da 50.00
Seminarski rad Da Da 20.00
Izvođači nastave:
Laboratorijske vežbe
Predavanja
API Image

prof. dr Delić Vlado

Redovni profesor

Predavanja
API Image

Popović Branislav

viši naučni saradnik

Laboratorijske vežbe