×
Универзитет у Новом Саду

Предмет: Говорне технологије (17.EK550)

Матичне организационе јединице предмета: Департман за енергетику, електронику и телекомуникације

Основне информације:
 
Категорија Научно-стручни
Ужа научна област Телекомуникације и обрада сигнала
ЕСПБ 5

Засноване на вештачкој интелигенцији и машинском учењу, говорне технологије омогућују развој новог интерфејса између човека и паметног окружења: телефона, рачунара и уређаја у паметним кућама итд. Надовезујући се на знања стечена на курсевима са основних академских студија, циљ овог курса је да прошири мултидисциплинарна знања на којима се базира говорна комуникација човека и машине. У циљу разумевања алгоритама за аутоматско препознавање говора, говорника и емоција, као и синтезу говора на основу текста, потребно је детаљније упознати карактеристике говорног сигнала и његове акустичке и лингвистичке моделе. Циљ је да се поред упознавања алгоритама, овлада применом софтверских алата за обраду говорних сигнала и практично упозна са апликацијама говорних технологија.

Студенти на овом предмету упознају основне алгоритме машинског учења који се користе при аутоматском препознавању говора (ASR) и при синтези говора на основу текста (TTS). На тај начин стичу основна предзнања потребна за рад на развоју и примени ASR и TTS. Стичу знања потребна за снимање и обраду база говорних сигнала и разумевање алгоритама за аутоматско препознавање и синтезу говора, али и препознавања говорника и емоција, као и језичких модула и дијалошких система. На крају курса студенти познају могућности говорних технологија, као и алата за развој апликација базираних на овим новим технологијама и спремни су да дају стручне доприносе у овој области.

•Увод у ASR и TTS: хронологија развоја, терминологија, перспективе •Говор: продукција и перцепција, природа и карактеристике (t-f приказ + лабелирање (AlfaNum)) •Говорни сигнал: анализа и приказ на рачунару (LPC, MFCC, PLP + визуелизација (Matlab)) •Обрада природног језика: моделовање језика (n-grami) + HMM (HTK) •Приступи ASR(DTW, HMM, DNN), акустички, лексички и лингвистички модели •Процедуре ASR обуке: GMM, k-means, VQ, Baum-Welch, ML MMI, MWE MPE (HTK) •Алгоритми ASR декодовања: Viterbi, Token-passing, N-best (HTK) •Робустне ASR методе: VTN, CMN, потискивање шума •Синтеза говора на основу текста (TTS): језичка обрада текста, синтеза (конкатенативна, HMM и DNN) •Препознавање говорника (аутоматско и форензичко) •Препознавање емоција у говору •Моделовање дијалога, разумевање говора (SLU) и дијалошки системи

Предавања се изводе уз PowerPoint презентације с бројним аудио и видео прилозима и анимацијама. Праћена су практичним вежбама у Лабораторији за акустику и говорне технологије и у говорном студију на ФТН. Организована је посета компанијама у којима студенти имају прилике да науче више о говорним технологијама. Предиспитне обавезе су семинарски рад и пројекат - услов за излазак на испит је 25 до 50 бодова. Семинарски радови се раде самостално и могу да буду основа за израду мастер рада. Самостални део рада студента на пројектном задатку подржан је преко web портала Катедре за телекомуникације и обраду сигнала - www.ktios.ftn.uns.ac.rs.

Аутори Назив Година Издавач Језик
T. Dutoit An Introduction to Text-to-Speech Synthesis 1997 Kluwer Енглески
Владо Делић, Милан Сечујски, Никша Јаковљевић, Драгиша Мишковић Аудио-издање уџбеника и презентација у оквиру ЦАБУНС-а 2019 Универзитет у Новом Саду Српски језик
L. Rabiner and B-H. Juang Fundamentals of Speech Recognition 1993 Prentice Hall Енглески
Предметна активност Предиспитна Обавезна Број поена
Предметна активност
Предметни пројекат
Предиспитна
Да
Обавезна
Да
Број поена
30.00
Предметна активност
Писмени део испита - комбиновани задаци и теорија
Предиспитна
Не
Обавезна
Да
Број поена
50.00
Предметна активност
Семинарски рад
Предиспитна
Да
Обавезна
Да
Број поена
20.00
API Image

проф. др Владо Делић

Редовни професор

Предавања

API Image

проф. др Милан Сечујски

Редовни професор

Предавања

Лабораторијске вежбе