×
Универзитет у Новом Саду

Предмет: Говорна комуникација човек-машина (17.DE512)

Матичне организационе јединице предмета: Департман за енергетику, електронику и телекомуникације

Основне информације:
 
Категорија Научно-стручни
Ужа научна област Телекомуникације и обрада сигнала
ЕСПБ 10

Циљ је проширивање и продубљивање мултидисциплинарних знања докторанада на којима се базира говорна комуникација човека и машине. Упознавање са карактеристикама језика и говорног сигнала је основни предуслов за разумевање алгоритама машинског учења и развој адекватних језичких и акустичких модела. Овладати применом софтверских алата за обраду аудио (говорних) сигнала. Разумети алгоритме који се користе у обради говорног сигнала, а посебно адаптивне алгоритме и технике дубоког учења за аутоматско препознавање и синтезу говора на основу задатог текста. Проширити знања на идентификацију и верификацију говорника и препознавање емоција у његовом гласу. Такође упознати студенте са основама обраде природног језика, аутоматским управљањем дијалогом и дијалошким системима.

Докторанди на овом предмету теоријски упознају алгоритме машинског учења који се користе при аутоматском препознавању говора (ASR), идентификацији и верификацији говорника, као и при синтези говора на основу текста (TTS). Практично савладају већину софтверских алата и техника за обраду говорних сигнала. На тај начин стичу сва потребна предзнања неопходна за разумевање алгоритама за ASR и TTS. Стечена знања су потребна за снимање и обраду база говорних сигнала и рад на развоју мултимодалних система у којима се примењују ASR и TTS. Упознају основне елементе обраде природног језика и управљања дијалогом. На крају курса познају могућности аутоматског препознавања и синтезе говора, као и алата за развој апликација и дијалошких система базираних на овим новим говорним технологијама и спремни су да дају стручне и научне доприносе у овој области.

•Физиолошка акустика и акустичко моделовање говора. •Психоакустика и перцепција звука. •Артикулаторна и акустичка фонетика. •Основи теорије формалних језика. •Лингвистичко моделовање говора. •Предобрада говорног сигнала и издвајање релевантних обележја. •Снимање и обрада говорних база за ASR и TTS. •Теорија коначних аутомата и статистички модели, скривени Марковљеви модели (HMM). •Витербијев алгоритам, векторска квантизација, кластеровање, технике парсирања. •Алгоритми на бази поређења узорака и динамичко програмирање (DTW). •Статистички приступ на бази HMM. •Експертски системи за аутоматско препознавање говора. •Дубоко учење и неуронске мреже (DNN) и хибридни системи (DNN-HMM). •Алгоритми за идентификацију и верификацију говорника. •Морфолошко-синтаксна анализа текста. •Конкатенативни приступ синтези говора на основу текста. •Синтеза говора у временском домену. •Параметарска синтеза говора на бази ХММ или ДНН. •Обрада природног језика (NLP) и управљање дијалогом (DM). •Телефонски и интернет говорни портали (CTI, IVR). •Аутоматизација позивних центара. •Примене у домаћинству, индустрији, аутомобилима. •Хумане примене говорних технологија. •Учење српског као страног језика помоћу говорних машина. •Коришћење стандардних софтверских алата за рад са звуком (Sound Forge, Praat). •Имплементација алгоритама за обраду говорног сигнала (Matlab, DSP, HTK, Kaldi). •Алати за развој апликација са говорним технологијама (SAPI, VoiceXML, Merlin, TensorFlow и други).

Настава је комбинација предавања и менторског рада. Студијски истраживачки рад обухвата активно праћење примарних научних извора, организацију и извођење експеримената и статистичку обраду података, нумеричке симулације, као и евентуално писање рада из уже научне области којој припада тема докторске дисертације. Преко web портала Катедре за телекомуникације и обраду сигнала докторанди имају на располагању PowerPoint презентације са предавања с бројним аудио и видео прилозима и анимацијама, као и одређене on-line вежбе намењене за самостални рад. Део курса подржан је вежбама у Лабораторији за акустику и говорне технологије на ФТН, као и посетама компанијама где се докторанди детаљније упознају са говорним технологијама. Израда практичног пројекта је предиспитна обавеза. На завршном испиту се врши провера укупно стечених знања на овом курсу.

Аутори Назив Година Издавач Језик
T. Quatieri Discrete-Time Speech Signal Processing - Principles and Practice 2002 Prentice Hall Енглески
T. Dutoit An Introduction to Text-to-Speech Synthesis 1997 Kluwer Енглески
B. Gold and N. Morgan Speech and Audio Signal Processing - Processing and Perception of Speech and Music 2000 JW&S Енглески
Владо Делић и др. Аудио-издање уџбеника и презентација у оквиру ЦАБУНС-а 2019 Универзитет у Новом Саду Српски језик
L. Rabiner and B-H. Juang Fundamentals of Speech Recognition 1993 Prentice Hall Енглески
Предметна активност Предиспитна Обавезна Број поена
Предметна активност
Усмени део испита
Предиспитна
Не
Обавезна
Да
Број поена
50.00
Предметна активност
Предметни пројекат
Предиспитна
Да
Обавезна
Да
Број поена
50.00
API Image

проф. др Владо Делић

Редовни професор

Предавања

Предавања

Предавања