Na početku moramo napomenuti da postoji samo jedna neuronska mreža koja je trenirana s hrvatskim jezikom, što značajno ograničava izravnu primjenu specijaliziranih modela za obradu i analizu teksta na hrvatskom. Stoga smo bili prisiljeni koristiti multijezične modele koji mogu obraditi i razumjeti više jezika, uključujući i hrvatski. Ovo je bio ključan korak kako bismo osigurali da naši algoritmi mogu adekvatno funkcionirati unatoč jezičnim ograničenjima.
Za klasifikaciju lažnih tekstova koristeći prethodno opisani dataset koristili smo sljedeće modele neuronskih mreža i algoritme strojnog učenja, svaki s različitim karakteristikama i pristupima obradi teksta:
- FastText – FastText je model razvijen od strane Facebook AI Research, koji se specijalizira za klasifikaciju teksta i reprezentaciju riječi. Model koristi n-gram pristup kako bi uhvatio lokalni kontekst riječi unutar dokumenta, što omogućuje bolje razumijevanje sintakse i semantike teksta. FastText je posebno efikasan u radu s rijetkim riječima zahvaljujući svojoj metodi obrade subwords (podriječi).
- NBSVM – Varijante Naive Bayes i Support Vector Machines NBSVM kombinira prednosti Naive Bayes (NB) i Support Vector Machine (SVM) modela za klasifikaciju teksta. Naive Bayes je poznat po svojoj jednostavnosti i efikasnosti u obradi velikih količina podataka, dok SVM pruža visoku točnost kroz svoj pristup maksimizaciji margine između klasa. Ova kombinacija često daje izvrsne rezultate na datasetima za analizu sentimenta, ponekad postavljajući nove standarde u točnosti predviđanja.
- BiGRU – Bidirectional GRU s unaprijed treniranim FastText vektorskim reprezentacijama riječi BiGRU, ili Bidirectional Gated Recurrent Unit, pristup je koji koristi dva GRU modela postavljena da obrađuju tekst u oba smjera (s lijeva na desno i s desna na lijevo). Ovo omogućuje modelu da bolje shvati kontekst riječi uzimajući u obzir informacije iz cijelog teksta. Korištenje prethodno treniranih FastText vektora poboljšava sposobnost modela da interpretira značenje pojedinih riječi na temelju njihovih globalnih kontekstualnih veza.
- BERT – Bidirectional Encoder Representations from Transformers BERT je vrhunska tehnologija razvijena od strane Google AI, koja koristi mehanizam „Transformer“ za razumijevanje prirodnog jezika. BERT modeli su dizajnirani da prethodno treniraju na velikom korpusu teksta, a zatim se fino podešavaju za specifične zadatke kao što je klasifikacija teksta. Ova tehnologija je postala temelj za mnoge moderne sustave obrade prirodnog jezika zbog svoje sposobnosti da efektivno obradi složenost i suptilnost ljudskog jezika.
- DistilBERT – DistilBERT je “destilirana” verzija BERT modela koju je razvio Hugging Face, dizajnirana da pruži slične performanse kao BERT, ali s manje parametara i bržom izvedbom. Ovaj model je idealan za primjene gdje su resursi ograničeni, nudeći dobru ravnotežu između točnosti i efikasnosti obrade.
6.BERTić je model temeljen na arhitekturi ELECTRA, specifično prilagođen za obradu hrvatskog jezika u primjenama strojnog učenja i obrade prirodnog jezika. Korištenjem naprednih tehnika izvedenih iz ELECTRA modela, BERTić efikasno rješava zadatke vezane za jezičnu analizu, prilagođavajući se specifičnostima i nijansama hrvatske gramatike i sintakse.
Svaki od ovih modela rezultati klasifikacije lažnih vijesti je predstavljen u posebnom postu, s detaljnim analizama njihove učinkovitosti, točnosti i primjenjivosti na specifične vrste tekstova unutar ekonomske i poslovne tematike.
Na kraju, predviđa se daljnji razvoj i treniranje velikih jezičnih modela kao što su MIXTRAL i LLAMA, koji bi mogli pružiti još bolje performanse u obradi hrvatskog jezika. Ovi modeli, koji su dizajnirani za efikasno rješavanje specifičnih izazova povezanih s različitim jezicima i dijalektima, mogu značajno poboljšati preciznost i efikasnost u otkrivanju lažnih vijesti i drugih oblika dezinformacija na hrvatskom jeziku.