KATEGORIZACIJA NOVINSKIH ČLANAKA POMOĆU MAŠINSKOG UČENJA

  • Marko Rašeta
Ključne reči: klasifikacija teksta, logistička regresija, naivni Bajes, Support Vector Machine, neuronska mreža

Apstrakt

U ovom radu korišćeno je više modela za klasifikaciju novinskog članka na osnovu njegovog kratkog sažetka, koji se najčešće sastoji iz jedne ili dve rečenice, radi utvrđivanja kojoj kategoriji članak pripada (sport, politika, zabava…). Svakom od tih modela prosleđen je kratki sažetak koji je prethodno obrađen nekom od metoda za vektorsku reprezentaciju teksta. Od modela korišćeni su: logistička regresija, naivni Bajes, Support Vector Machine, neuronska mreža, konvolutivna neuronska mreža i rekurentna neuronska mreža. Za vektorsku reprezentaciju teksta korišćeni su tf-idf, Word2vec i GloVe. Modeli su trenirani na skupu podataka koji sadrži članke iz Huffington Post novina iz perioda 2012-2018. godine, a evaluacija je rađena na tim podacima, kao i na novinskim člancima koji su dobijeni scrape-ovanjem sa njihove veb stranice. Preciznost je računata kao odnos broja tačno pogođenih kategorija i ukupnog broja pogađanja, a prikazana je i F-mera.

Reference

[1] Kavi Narayana Murthy (2003), “Automatic Categorization of Telugu News Articles”
[2] Burak Kerim Akkus, Ruket Cakici (2013), “Categorization of Turkish News Documents with Morphological Analysis”
[3] Adhy Rizaldy, Heru Agus Santoso (2017), “Performance improvement of Support Vector Machine (SVM) With information gain on categorization of Indonesian news documents”
[4] Juan Ramos (2003), “Using TF-IDF to Determine Word Relevance in Document Queries”
[5] KW Church (2017), “Word2Vec”
[6] Jeffrey Pennington, Richard Socher, Christopher D. Manning (2014), “GloVe: Global Vectors for Word Representation”
Objavljeno
2022-02-03
Sekcija
Elektrotehničko i računarsko inženjerstvo