АНАЛИЗА И ОПТИМИЗАЦИЈА Wav2vec 2.0 МОДЕЛА ЗА ПРЕПОЗНАВАЊЕ ГОВОРА НА СРПСКОМ ЈЕЗИКУ
Ključne reči:
Препознавање говора, самонадгледано учење, Wav2vec модел
Apstrakt
Овај рад се бави применом Wav2vec 2.0 модела за препознавање говора на српском језику. Рад обухвата анализу оригиналног модела, обученог техником самонадгледаног учења на нелабелираним подацима, и fine-tuning фазу на српском језику. Оригинална имплементација, са 53000 сати нелабелираних и 10 минута лабелираних података, постигла је WER од 4.8/8.2, што потврђује ефикасност коришћених метода. Циљ је испитати применљивост ових метода на аудио подацима на српском језику. Постигнути резултати на српском језику показују WER од 10.3% и CER од 3.4%, уз могућност даљих унапређења.
Reference
[1] A. Baevski, H. Zhou, A. Mohamed, and M. Auli, “wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations,” Oct. 22, 2020, arXiv: arXiv:2006.11477. Accessed: Sep. 24, 2024. [Online]. Available: https://arxiv.org/abs/2006.11477
[2] “Common Voice.” Accessed: Sep. 24, 2024. [Online]. Available: https://commonvoice.mozilla.org/en
[3] “ASR training dataset for Serbian JuzneVesti-SR v1.0.” Accessed: Sep. 24, 2024. [Online]. Available: https://www.clarin.si/repository/xmlui/handle/11356/1679
[4] “Parliamentary spoken corpus of Serbian ParlaSpeech-RS 1.0.” Accessed: Sep. 24, 2024. [Online]. Available: https://www.clarin.si/repository/xmlui/handle/11356/1834
[5] A. Vaswani et al., “Attention Is All You Need,” 2017, arXiv. doi: 10.48550/ARXIV.1706.03762.
[6] A. van den Oord, Y. Li, and O. Vinyals, “Representation Learning with Contrastive Predictive Coding,” Jan. 22, 2019, arXiv: arXiv:1807.03748. Accessed: Sep. 24, 2024. [Online]. Available: https://arxiv.org/abs/1807.03748
[7] A. Graves, S. Fernández, F. Gomez, and J. Schmidhuber, “Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks,” in Proceedings of the 23rd international conference on Machine learning - ICML ’06, Pittsburgh, Pennsylvania: ACM Press, 2006, pp. 369–376. doi: 10.1145/1143844.1143891.
[2] “Common Voice.” Accessed: Sep. 24, 2024. [Online]. Available: https://commonvoice.mozilla.org/en
[3] “ASR training dataset for Serbian JuzneVesti-SR v1.0.” Accessed: Sep. 24, 2024. [Online]. Available: https://www.clarin.si/repository/xmlui/handle/11356/1679
[4] “Parliamentary spoken corpus of Serbian ParlaSpeech-RS 1.0.” Accessed: Sep. 24, 2024. [Online]. Available: https://www.clarin.si/repository/xmlui/handle/11356/1834
[5] A. Vaswani et al., “Attention Is All You Need,” 2017, arXiv. doi: 10.48550/ARXIV.1706.03762.
[6] A. van den Oord, Y. Li, and O. Vinyals, “Representation Learning with Contrastive Predictive Coding,” Jan. 22, 2019, arXiv: arXiv:1807.03748. Accessed: Sep. 24, 2024. [Online]. Available: https://arxiv.org/abs/1807.03748
[7] A. Graves, S. Fernández, F. Gomez, and J. Schmidhuber, “Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks,” in Proceedings of the 23rd international conference on Machine learning - ICML ’06, Pittsburgh, Pennsylvania: ACM Press, 2006, pp. 369–376. doi: 10.1145/1143844.1143891.
Objavljeno
2025-04-04
Sekcija
Elektrotehničko i računarsko inženjerstvo