×
Универзитет у Новом Саду

Предмет: Говорна комуникација човек-машина (17.EAI550)

Основне информације:
 
Категорија Научно-стручни
Ужа научна област Телекомуникације и обрада сигнала
ЕСПБ 6

Засноване на вештачкој интелигенцији и машинском учењу, говорне технологије омогућују развој новог интерфејса између човека и паметног окружења: телефона, рачунара и уређаја у паметним кућама итд. Надовезујући се на знања стечена на курсевима са основних академских студија, циљ овог курса је да прошири мултидисциплинарна знања на којима се базира говорна комуникација човека и машине. У циљу разумевања алгоритама за аутоматско препознавање говора, говорника и емоција, као и синтезу говора на основу текста, потребно је детаљније упознати карактеристике говорног сигнала и његове акустичке и лингвистичке моделе. Циљ је да се поред упознавања алгоритама, овлада применом софтверских алата за обраду говорних сигнала и практично упозна са апликацијама говорних технологија.

Након овог курса студенти су оспособљени да изаберу, анализирају и тестирају алгоритме машинског учења који се користе при аутоматском препознавању говора (ASR) и при синтези говора на основу текста (TTS). На тај начин оспособљени су за рад на развоју и примени ASR и TTS. Са стеченим знањима могу да се укључе у пројекте за снимање и обраду база говорних сигнала и развој алгоритама за аутоматско препознавање и синтезу говора, али и препознавања говорника и емоција, као и језичких модула и дијалошких система. На крају курса студенти познају могућности говорних технологија, умеју да комбинују, процене и користе алате за развој апликација базираних на овим новим технологијама и спремни су да дају стручне доприносе у овој области.

•Увод у ASR и TTS: хронологија развоја, терминологија, перспективе •Говор: продукција и перцепција, природа и карактеристике (t-f приказ + лабелирање (AlfaNum)) •Говорни сигнал: анализа и приказ на рачунару (LPC, MFCC, PLP + визуелизација (Matlab)) •Обрада природног језика: моделовање језика (n-grami) + HMM (HTK) •Приступи ASR(DTW, HMM, DNN), акустички, лексички и лингвистички модели •Процедуре ASR обуке: GMM, k-means, VQ, Baum-Welch, ML MMI, MWE MPE (HTK) •Алгоритми ASR декодовања: Viterbi, Token-passing, N-best (HTK) •Робустне ASR методе: VTN, CMN, потискивање шума •Синтеза говора на основу текста (TTS): језичка обрада текста, синтеза (конкатенативна, HMM и DNN) •Препознавање говорника (аутоматско и форензичко) •Препознавање емоција у говору •Моделовање дијалога, разумевање говора (SLU) и дијалошки системи Практична настава: Студени ће на вежбама практично радити обраду и анализу говорних сигнала, издвајање обележја и обуку алгоритама машинског учења са циљем препознавања говора, али и пола, старости и идентитета говорника, као и синтезе говора на основу текста, те њихове интеграције у дијалошке системе са елементима обраде природног језика. На вежбама ће се упутити у израду својих пројеката и семестралних радова које ће довршити индивидуално или у мањим групама, уз могућност да теме бирају уз консултације и коменторство партнера из привреде

Предавања се изводе уз PowerPoint презентације с бројним аудио и видео прилозима и анимацијама. Праћена су практичним вежбама у Лабораторији за акустику и говорне технологије. Организована је посета компанијама у којима студенти имају прилике да науче више о говорним технологијама. Предиспитне обавезе су семинарски рад и пројекат. Семинарски радови се раде самостално и могу да буду основа за израду мастер рада. Самостални део рада студента на пројектном задатку подржан је преко web портала Катедре за телекомуникације и обраду сигнала - www.ktios.ftn.uns.ac.rs.

Аутори Назив Година Издавач Језик
Paul Taylor Text-to-Speech Synthesis 2009 Cambridge University Press Енглески
Uday Kamath, John Liu, James Whitaker Deep Learning for NLP and Speech Recognition 2019 Springer Енглески
Dong Yu and Li Deng Automatic Speech Recognition – A Deep Learning Approach 2015 Springer-Verlag London Енглески
Предметна активност Предиспитна Обавезна Број поена
Предметна активност
Семинарски рад
Предиспитна
Да
Обавезна
Да
Број поена
20.00
Предметна активност
Теоријски део испита
Предиспитна
Не
Обавезна
Да
Број поена
50.00
Предметна активност
Предметни пројекат
Предиспитна
Да
Обавезна
Да
Број поена
30.00
API Image

проф. др Владо Делић

Редовни професор

Предавања

API Image

проф. др Милан Сечујски

Редовни професор

Предавања

Лабораторијске вежбе

Лабораторијске вежбе