Говорна комуникација човек-машина | Факултет Техничких Наука

Предмет: Говорна комуникација човек-машина (17.EAI550)

Степен и врста студија	Назив
Мастер академске студије	Вештачка интелигенција и машинско учење (Година: 2, Семестар: Зимски)

Основне информације:

Категорија	Научно-стручни
Ужа научна област	Телекомуникације и обрада сигнала
ЕСПБ	6

Засноване на вештачкој интелигенцији и машинском учењу, говорне технологије омогућују развој новог интерфејса између човека и паметног окружења: телефона, рачунара и уређаја у паметним кућама итд. Надовезујући се на знања стечена на курсевима са основних академских студија, циљ овог курса је да прошири мултидисциплинарна знања на којима се базира говорна комуникација човека и машине. У циљу разумевања алгоритама за аутоматско препознавање говора, говорника и емоција, као и синтезу говора на основу текста, потребно је детаљније упознати карактеристике говорног сигнала и његове акустичке и лингвистичке моделе. Циљ је да се поред упознавања алгоритама, овлада применом софтверских алата за обраду говорних сигнала и практично упозна са апликацијама говорних технологија.

Након овог курса студенти су оспособљени да изаберу, анализирају и тестирају алгоритме машинског учења који се користе при аутоматском препознавању говора (ASR) и при синтези говора на основу текста (TTS). На тај начин оспособљени су за рад на развоју и примени ASR и TTS. Са стеченим знањима могу да се укључе у пројекте за снимање и обраду база говорних сигнала и развој алгоритама за аутоматско препознавање и синтезу говора, али и препознавања говорника и емоција, као и језичких модула и дијалошких система. На крају курса студенти познају могућности говорних технологија, умеју да комбинују, процене и користе алате за развој апликација базираних на овим новим технологијама и спремни су да дају стручне доприносе у овој области.

•Увод у ASR и TTS: хронологија развоја, терминологија, перспективе •Говор: продукција и перцепција, природа и карактеристике (t-f приказ + лабелирање (AlfaNum)) •Говорни сигнал: анализа и приказ на рачунару (LPC, MFCC, PLP + визуелизација (Matlab)) •Обрада природног језика: моделовање језика (n-grami) + HMM (HTK) •Приступи ASR-у (DTW, HMM, DNN), акустички, лексички и лингвистички модели •Процедуре ASR обуке: GMM, k-means, VQ, Baum-Welch, ML MMI, MWE MPE (HTK) •Алгоритми ASR декодовања: Viterbi, Token-passing, N-best (HTK) •Робустне ASR методе: VTN, CMN, потискивање шума •Синтеза говора на основу текста (TTS): језичка обрада текста, синтеза (конкатенативна, HMM и DNN) •Препознавање говорника (аутоматско и форензичко) •Препознавање емоција у говору •Моделовање дијалога, разумевање говора (SLU) и дијалошки системи Практична настава: Студени ће на вежбама практично радити обраду и анализу говорних сигнала, издвајање обележја и обуку алгоритама машинског учења са циљем препознавања говора, али и пола, старости и идентитета говорника, као и синтезе говора на основу текста, те њихове интеграције у дијалошке системе са елементима обраде природног језика. На вежбама ће се упутити у израду својих пројеката и семестралних радова које ће довршити индивидуално или у мањим групама, уз могућност да теме бирају уз консултације и коменторство партнера из привреде

Предавања се изводе уз PowerPoint презентације с бројним аудио и видео прилозима и анимацијама. Праћена су практичним вежбама у Лабораторији за акустику и говорне технологије. Организована је посета компанијама у којима студенти имају прилике да науче више о говорним технологијама. Предиспитне обавезе су семинарски рад и пројекат. Семинарски радови се раде самостално и могу да буду основа за израду мастер рада. Самостални део рада студента на пројектном задатку подржан је преко web портала Катедре за телекомуникације и обраду сигнала - www.ktios.ftn.uns.ac.rs.

Аутори	Назив	Година	Издавач	Језик
Paul Taylor	Text-to-Speech Synthesis	2009	Cambridge University Press	Енглески
Uday Kamath, John Liu, James Whitaker	Deep Learning for NLP and Speech Recognition	2019	Springer	Енглески
Dong Yu and Li Deng	Automatic Speech Recognition – A Deep Learning Approach	2015	Springer-Verlag London	Енглески

Предметна активност	Предиспитна	Обавезна	Број поена
Предметна активност Семинарски рад	Предиспитна Да	Обавезна Да	Број поена 20.00
Предметна активност Теоријски део испита	Предиспитна Не	Обавезна Да	Број поена 50.00
Предметна активност Предметни пројекат	Предиспитна Да	Обавезна Да	Број поена 30.00

проф. др Владо Делић

Редовни професор

Предавања

Лабораторијске вежбе

ОРГАНИЗАЦИЈА

ДОКУМЕНТА

ЗАПОСЛЕНИ

КОНКУРСИ

Галерије

АКРЕДИТАЦИЈА

КОНТАКТ

АКРЕДИТАЦИЈА

КОНТАКТ

Студентска служба

Предмет: Говорна комуникација човек-машина (17.EAI550)

Студијски програми предмета:

Контакт: