Podaci s kojima smo obučili AI modele

FakeNews Corpus 1.0

Budući da ne postoji specifičan dataset na hrvatskom jeziku za treniranje modela za otkrivanje lažnih vijesti, koristili smo FakeNews Corpus 1.0, koji je na engleskom jeziku i sadrži ukupno 983,682 članka. Iz ovog bogatog izvora podataka, selektirali smo 104,960 članaka koji se bave temama ekonomije i poslovanja za daljnju analizu. Kategorije vijesti: Različitost sadržaja u ovom korpusu ogleda se u širokom rasponu kategorija, koje uključuju:

bias (pristranost): 351,063 članka,
clickbait (mamac): 37,279 članaka,
conspiracy (teorije zavjere): 153,703 članka,
fake (lažne vijesti): 206,022 članka,
hate (govor mržnje): 20,886 članaka,
junksci (pseudoznanost): 18,295 članaka,
political (politika): 687,849 članaka,
reliable (pouzdani izvori): 533,399 članaka,
rumor (glasine): 82,243 članka,
satire (satira): 14,828 članaka,
unknown (nepoznato): 110,337 članaka,
unreliable (nepouzdani izvori): 39,900 članaka.

Evo opisa za kategorije koje koristite za kategorizaciju vijesti:

Pristranost – Ova kategorija obuhvaća vijesti koje mogu biti istinite, ali su prezentirane na način koji favorizira određenu stranu ili stajalište, često zanemarujući suprotne argumente ili činjenice.
Mamac – Vijesti koje koriste senzacionalističke naslove ili šokantne tvrdnje kako bi privukle pažnju čitatelja, a često su sadržajno neadekvatne ili izmišljene.
Zavjera – Vijesti koje promiču teorije zavjere, često bez dokaza ili na temelju iskrivljenih informacija, sugerirajući skrivene motive iza javnih događanja ili odluka.
Lažna vijest – Potpuno izmišljene vijesti koje nemaju nikakvu osnovu u stvarnosti, često stvorene kako bi obmanule javnost ili stvorile lažni narativ.
Mržnja – Vijesti koje šire govor mržnje, diskriminaciju ili promiču neprijateljstvo prema određenim grupama ili pojedincima na temelju rase, religije, etničke pripadnosti ili spola.
Pseudoznanost – Vijesti koje se predstavljaju kao znanstvene, ali nemaju stvarnu znanstvenu podršku, često koristeći neprovjerene metode ili teorije.
Politika – Vijesti koje se bave političkim temama, događajima ili ličnostima, uključujući izvještavanje o političkim kampanjama, izborima ili političkim odlukama.
Pouzdano – Vijesti koje dolaze iz provjerenih i pouzdanih izvora, često poduprte čvrstim dokazima i detaljnom provjerom činjenica.
Glasina – Vijesti koje se temelje na neslužbenim izvorima ili neprovjerenim tvrdnjama, često šireći informacije koje nisu potvrđene.
Satira – Vijesti koje koriste humor, ironiju ili pretjerivanje kako bi kritizirale ili komentirale društvene, političke ili kulturne fenomene. Važno je razlikovati satiričan sadržaj od stvarnog izvještavanja.
Nepoznato – Vijesti čiji izvori nisu jasni ili identificirani, što otežava provjeru njihove autentičnosti.
Nepouzdano – Vijesti koje dolaze iz izvora koji su poznati po širenju neprovjerenih informacija ili imaju povijest objavljivanja netočnih ili obmanjujućih sadržaja.

Ove kategorije pomažu u razumijevanju i evaluaciji vijesti, omogućujući korisnicima da bolje procijene vjerodostojnost i pristranost informacija koje primaju. Zbog ove neujednačenosti u broju članaka po kategorijama, odlučili smo iz svake kategorije odabrati po 10,000 članaka kako bismo osigurali uravnoteženost u trening datasetu. Odabrane članke smo preveli na hrvatski jezik, čime smo stvorili prilagođeni dataset. Ovaj pristup omogućio nam je da treniramo neuronske mreže specifično za kontekst hrvatskog jezika i kulturoloških specifičnosti, što je ključno za preciznu detekciju lažnih vijesti u lokalnom medijskom prostoru. Koristeći ovako pripremljen i prilagođen dataset, bili smo u stanju trenirati modele neuronskih mreža koji su bolje prilagođeni za identifikaciju i analizu medijskih sadržaja na hrvatskom jeziku. Ova metodologija nije samo povećala točnost naših modela u prepoznavanju lažnih vijesti, već je i pridonijela razvoju alata koji mogu biti korisni u širem okruženju medijske pismenosti i informacijske točnosti. Scenarij koji je opisan uključuje promjenu strategije skupa podataka za obučavanje AI modela kako bi se kategorizirale vijesti kao lažne ili stvarne. Evo detaljnog istraživanja što se događa i implikacija ove promjene:

Problemi s Fake Corpus 1.0

Fake Corpus 1.0, koji sadrži 10 kategorija, je bio usmjeren na pružanje višedimenzionalnog pristupa otkrivanju različitih vrsta obmanjujućih ili lažnih informacija. Višestruke kategorije mogu uključivati razne oblike dezinformacija kao što su pristrani članci, satira, teorije zavjere, pseudoznanost i drugo. Međutim, upotreba takvog raznolikog korpusa može uvesti specifične izazove:

Kompleksna kategorizacija: Razlikovanje između 10 različitih vrsta dezinformacija i pravih članaka može biti složeno zbog suptilnih razlika među kategorijama. Na primjer, satira se često može pogrešno shvatiti za prave vijesti od strane AI-a ako nije pravilno obučena na suptilne signale koji ukazuju na satiru.
Nedostatak podataka za neke kategorije: Neke kategorije možda su imale manje reprezentativne uzorke od drugih, što dovodi do slabijih performansi u tim klasama zbog nedovoljnih podataka za obuku.
Rizici od preprilagođavanja: S mnogo kategorija i potencijalno složenim skupovima značajki za učenje, postoji rizik da AI prekomjerno prilagodi idiosinkrazije podataka za obuku umjesto da uči općenitije obrasce.

Prijelaz na WELFake skup podataka

Kao odgovor na ove izazove, usvojen je novi pristup pojednostavljenjem problema na binarnu klasifikaciju: razlikovanje između “lažnih” i “stvarnih” vijesti. Ovo pojednostavljenje pomaže na nekoliko načina:

Fokusirana obuka: Koncentriranjem na binarnu klasifikaciju, AI model može se usredotočiti na šire i izraženije razlike između lažnih i stvarnih vijesti, potencijalno poboljšavajući točnost.
Veći i raznolikiji skup podataka: WELFake skup podataka je značajan korpus koji kombinira podatke iz četiri značajna izvora:
- Kaggle: Tipično izvor za širok spektar skupova podataka, uključujući sadržaj koji korisnici dodaju na brojne teme.
- McIntire: Kolekcija poznata po svom fokusu na specifične istraživačke uvide, vjerojatno pružajući visokokvalitetne, dobro istražene članke.
- Reuters: Međunarodna novinska agencija poznata po sveobuhvatnom i pouzdanom izvještavanju.
- BuzzFeed Political: Poznat po modernom, internetski osviještenom sadržaju koji može uključivati razne oblike prezentacije vijesti.
Ova kombinacija vjerojatno nudi bogat raznolikost tekstualnih značajki i konteksta, pomažući modelu da nauči robustnu razliku između stvarnih i izmišljenih vijesti.
1. Ravnoteža u podacima: Skup podataka sadrži gotovo jednak broj stvarnih i lažnih članaka (35,028 stvarnih naspram 37,106 lažnih), što pomaže u sprječavanju neravnoteže klase – uobičajenog problema koji može pristrano utjecati na performanse AI-a prema većinskoj klasi.
Implikacije korištenja WELFake skupa podataka
1. Poboljšana robustnost modela: S uravnoteženim i opsežnim skupom podataka, očekuje se poboljšanje robustnosti modela i njegove sposobnosti generalizacije na neviđene podatke.
2. Smanjenje složenosti: Smanjenjem problema na binarnu klasifikaciju smanjuje se složenost modela, što može dovesti do bržeg vremena obuke i manje potražnje za računalnom snagom.
3. Poboljšane sposobnosti otkrivanja: S fokusiranom obukom na razlikovanje samo dvije klase, model može razviti oštriji osjećaj za značajke koje obično ukazuju na lažan sadržaj naspram pravih članaka.
Prijelaz na WELFake skup podataka za obuku AI-a za identifikaciju lažnih vijesti predstavlja stratešku odluku za poboljšanje točnosti i upravljivosti modela. Ova promjena vjerojatno omogućava bolju alokaciju računalnih resursa, jednostavnije podešavanje modela i potencijalno veće performanse u praktičnim primjenama. Međutim, bitno je nastaviti procjenjivati model naspram raznolikih i evoluirajućih skupova podataka kako bi se osiguralo da ostane učinkovit protiv novih i sofisticiranih oblika dezinformacija.

FakeNews Corpus 1.0

Problemi s Fake Corpus 1.0

Prijelaz na WELFake skup podataka

Implikacije korištenja WELFake skupa podataka