Analiza Sentimentelor pentru Conținutul Twitter Românesc

Odată cu creșterea popularității platformelor de social media precum Twitter sau Facebook, analiza sentimentelor (SA) asupra conținutului microblogging devine de o importanță crucială.

Literatura de specialitate raportează rezultate bune pentru limbi bine documentate, cum ar fi engleza, spaniola sau germana, dar există încă un spațiu de cercetare deschis pentru limbile subreprezentate, cum ar fi româna, unde există o lipsă de seturi de date publice de instruire sau de îmbinări de cuvinte preinstruite.

Majoritatea cercetărilor privind SA în limba română abordează problema într-o manieră de clasificare binară (pozitiv vs. negativ), folosind un singur set de date publice care constă în recenzii de produse. În această lucrare, răspundem nevoii unui proiect de supraveghere media de a deține un clasificator multinomial SA personalizat pentru utilizare într-o configurație de producție restrictivă și specifică.

Descriem în detaliu modul în care a fost construit un astfel de clasificator, cu ajutorul unui set de date în limba engleză (care conține aproximativ 15.000 de tweet-uri) tradus în limba română cu ajutorul unui serviciu public de traducere. Testăm cele mai populare metode de clasificare care ar putea fi aplicate la SA, inclusiv învățarea automată standard, învățarea profundă și BERT.

Deoarece nu am putut găsi niciun rezultat pentru clasificarea sentimentală multinomială (pozitivă, negativă și neutră) în limba română, am stabilit două precizii de referință de ≈78% utilizând învățarea automată standard și ≈81% utilizând BERT.

În plus, demonstrăm că serviciul de traducere automată nu diminuează performanța de învățare prin compararea preciziei obținute de modelele antrenate pe setul de date original cu modelele antrenate pe datele traduse. Consultă lucrarea completă aici.