Говорне технологије | Факултет Техничких Наука

Предмет: Говорне технологије (17.EK550)

Матичне организационе јединице предмета: Департман за енергетику, електронику и телекомуникације

Основне информације:

Категорија	Научно-стручни
Ужа научна област	Телекомуникације и обрада сигнала
ЕСПБ	5

Засноване на вештачкој интелигенцији и машинском учењу, говорне технологије омогућују развој новог интерфејса између човека и паметног окружења: телефона, рачунара и уређаја у паметним кућама итд. Надовезујући се на знања стечена на курсевима са основних академских студија, циљ овог курса је да прошири мултидисциплинарна знања на којима се базира говорна комуникација човека и машине. У циљу разумевања алгоритама за аутоматско препознавање говора, говорника и емоција, као и синтезу говора на основу текста, потребно је детаљније упознати карактеристике говорног сигнала и његове акустичке и лингвистичке моделе. Циљ је да се поред упознавања алгоритама, овлада применом софтверских алата за обраду говорних сигнала и практично упозна са апликацијама говорних технологија.

Студенти на овом предмету упознају основне алгоритме машинског учења који се користе при аутоматском препознавању говора (ASR) и при синтези говора на основу текста (TTS). На тај начин стичу основна предзнања потребна за рад на развоју и примени ASR и TTS. Стичу знања потребна за снимање и обраду база говорних сигнала и разумевање алгоритама за аутоматско препознавање и синтезу говора, али и препознавања говорника и емоција, као и језичких модула и дијалошких система. На крају курса студенти познају могућности говорних технологија, као и алата за развој апликација базираних на овим новим технологијама и спремни су да дају стручне доприносе у овој области.

•Увод у ASR и TTS: хронологија развоја, терминологија, перспективе •Говор: продукција и перцепција, природа и карактеристике (t-f приказ + лабелирање (AlfaNum)) •Говорни сигнал: анализа и приказ на рачунару (LPC, MFCC, PLP + визуелизација (Matlab)) •Обрада природног језика: моделовање језика (n-grami) + HMM (HTK) •Приступи ASR-у (DTW, HMM, DNN), акустички, лексички и лингвистички модели •Процедуре ASR обуке: GMM, k-means, VQ, Baum-Welch, ML MMI, MWE MPE (HTK) •Алгоритми ASR декодовања: Viterbi, Token-passing, N-best (HTK) •Робустне ASR методе: VTN, CMN, потискивање шума •Синтеза говора на основу текста (TTS): језичка обрада текста, синтеза (конкатенативна, HMM и DNN) •Препознавање говорника (аутоматско и форензичко) •Препознавање емоција у говору •Моделовање дијалога, разумевање говора (SLU) и дијалошки системи

Предавања се изводе уз PowerPoint презентације с бројним аудио и видео прилозима и анимацијама. Праћена су практичним вежбама у Лабораторији за акустику и говорне технологије и у говорном студију на ФТН. Организована је посета компанијама у којима студенти имају прилике да науче више о говорним технологијама. Предиспитне обавезе су семинарски рад и пројекат - услов за излазак на испит је 25 до 50 бодова. Семинарски радови се раде самостално и могу да буду основа за израду мастер рада. Самостални део рада студента на пројектном задатку подржан је преко web портала Катедре за телекомуникације и обраду сигнала - www.ktios.ftn.uns.ac.rs.

Аутори	Назив	Година	Издавач	Језик
L. Rabiner and B-H. Juang	Fundamentals of Speech Recognition	1993	Prentice Hall	Енглески
Владо Делић, Милан Сечујски, Никша Јаковљевић, Драгиша Мишковић	Аудио-издање уџбеника и презентација у оквиру ЦАБУНС-а	2019	Универзитет у Новом Саду	Српски језик
T. Dutoit	An Introduction to Text-to-Speech Synthesis	1997	Kluwer	Енглески

Предметна активност	Предиспитна	Обавезна	Број поена
Предметна активност Семинарски рад	Предиспитна Да	Обавезна Да	Број поена 20.00
Предметна активност Предметни пројекат	Предиспитна Да	Обавезна Да	Број поена 30.00
Предметна активност Писмени део испита - комбиновани задаци и теорија	Предиспитна Не	Обавезна Да	Број поена 50.00

проф. др Владо Делић

Редовни професор

Предавања

Лабораторијске вежбе

ОРГАНИЗАЦИЈА

ДОКУМЕНТА

ЗАПОСЛЕНИ

КОНКУРСИ

Галерије

АКРЕДИТАЦИЈА

КОНТАКТ

АКРЕДИТАЦИЈА

КОНТАКТ

Студентска служба

Предмет: Говорне технологије (17.EK550)

Контакт: