PRIMENA METODA MAŠINSKOG UČENJA ZA AUTOMATSKU KLASIFIKACIJU MUZIKE PO ŽANRU

  • Nemanja Rašajski
Ključne reči: klasifikacija muzike po žanrovima, mašinsko učenje, GTZAN skup podataka

Apstrakt

Muzički žanrovi su konvencionalne kategorije koje se koriste za opisivanje muzike. Danas se najčešće koriste za klasifikaciju rastućeg broja muzičkih numera, koja bi dalje trebalo da omogući precizniju preporuku i jednostavniju pretragu muzike. U radu je analizirano  nekoliko metoda i strategija za automatsku klasifikaciju muzike uključujući  konvolucione neuronske mreže (Convolutional neural network – CNN), rekurente neuronske mreže (Reccurent neural network – RNN), mašine potpornih vektora (Support vecotor machines – SVM), random forrest (RF), AdaBoost kao i One vs. Rest (OVR) i klasifikaciju glasanjem. Muzičke numere klasifikovane su na osnovu mel-frequency cepstrum coefficients (MFCC) predstave audio zapisa, a za potrebe CNN-a korišćen je spektrogram. Ostvareni rezultati (~60%) se mogu porediti sa tačnošću (~70%) sa kojom su ljudi u stanju da ispravno procene muzički žanr kao i sa rezultatima ostvarenim u radovima koji su se bavili sličnom temom na istom skupu podataka. Obzirom da preciznost ostvarena u radu nije daleko od procene ljudi, metode bi mogle naći primenu u automatskoj klasifikaciji muzike za potrebe radio stanica ili web sajtova koji se bave distribuiranjem i preporukom muzičkih numera.

Reference

[1] https://marsyasweb.appspot.com/download/data_sets/, Datum pristupa: 25.3.2017.
[2] Muda, Lindasalwa, Mumtaj Begam, and Irraivan Elamvazuthi. "Voice recognition algorithms using mel frequency cepstral coefficient (MFCC) and dynamic time warping (DTW) techniques." arXiv preprint arXiv:1003.4083 (2010).
[3] Tzanetakis, George, and Perry Cook. "Musical genre classification of audio signals." IEEE Transactions on speech and audio processing 10.5 (2002): 293-302.
[4] https://zone.ni.com/reference/en-XX/help/371361E-01/lvanls/stft_spectrogram_core/#details, Datum pristupa: 15.8.2018.
[5] Sturm, Bob L. "An analysis of the GTZAN music genre dataset." Proceedings of the second international ACM workshop on Music information retrieval with user-centered and multimodal strategies. ACM, 2012.
[6] Müller, Meinard. Information retrieval for music and motion. Vol. 2. Heidelberg: Springer, 2007.
[7] https://ccrma.stanford.edu/~jos/sasp/, Datum pristupa: 15.8.2018.
[8] Mandel, Michael I., and Dan Ellis. "Song-Level Features and Support Vector Machines for Music Classification." ISMIR. Vol. 2005. 2005.
[9] Stanley, Kenneth O., and Risto Miikkulainen. "Evolving neural networks through augmenting topologies." Evolutionary computation 10.2 (2002): 99-127.
[10] Breiman, Leo. "Random forests." Machine learning 45.1 (2001): 5-32.
[11] D. Perrot and R. Gjerdigen, “Scanning the dial: An exploration of factors in identification of musical style,” in Proc. Soc. Music Perception Cognition, 1999
[12] https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html#sklearn.metrics.f1_score, Datum pristupa: 15.8.2018.
Objavljeno
2018-12-19
Sekcija
Elektrotehničko i računarsko inženjerstvo