FakeNews Corpus 1.0
Budući da ne postoji specifičan dataset na hrvatskom jeziku za treniranje modela za otkrivanje lažnih vijesti, koristili smo FakeNews Corpus 1.0, koji je na engleskom jeziku i sadrži ukupno 983,682 članka. Iz ovog bogatog izvora podataka, selektirali smo 104,960 članaka koji se bave temama ekonomije i poslovanja za daljnju analizu. Kategorije vijesti: Različitost sadržaja u ovom korpusu ogleda se u širokom rasponu kategorija, koje uključuju:- bias (pristranost): 351,063 članka,
- clickbait (mamac): 37,279 članaka,
- conspiracy (teorije zavjere): 153,703 članka,
- fake (lažne vijesti): 206,022 članka,
- hate (govor mržnje): 20,886 članaka,
- junksci (pseudoznanost): 18,295 članaka,
- political (politika): 687,849 članaka,
- reliable (pouzdani izvori): 533,399 članaka,
- rumor (glasine): 82,243 članka,
- satire (satira): 14,828 članaka,
- unknown (nepoznato): 110,337 članaka,
- unreliable (nepouzdani izvori): 39,900 članaka.
- Pristranost – Ova kategorija obuhvaća vijesti koje mogu biti istinite, ali su prezentirane na način koji favorizira određenu stranu ili stajalište, često zanemarujući suprotne argumente ili činjenice.
- Mamac – Vijesti koje koriste senzacionalističke naslove ili šokantne tvrdnje kako bi privukle pažnju čitatelja, a često su sadržajno neadekvatne ili izmišljene.
- Zavjera – Vijesti koje promiču teorije zavjere, često bez dokaza ili na temelju iskrivljenih informacija, sugerirajući skrivene motive iza javnih događanja ili odluka.
- Lažna vijest – Potpuno izmišljene vijesti koje nemaju nikakvu osnovu u stvarnosti, često stvorene kako bi obmanule javnost ili stvorile lažni narativ.
- Mržnja – Vijesti koje šire govor mržnje, diskriminaciju ili promiču neprijateljstvo prema određenim grupama ili pojedincima na temelju rase, religije, etničke pripadnosti ili spola.
- Pseudoznanost – Vijesti koje se predstavljaju kao znanstvene, ali nemaju stvarnu znanstvenu podršku, često koristeći neprovjerene metode ili teorije.
- Politika – Vijesti koje se bave političkim temama, događajima ili ličnostima, uključujući izvještavanje o političkim kampanjama, izborima ili političkim odlukama.
- Pouzdano – Vijesti koje dolaze iz provjerenih i pouzdanih izvora, često poduprte čvrstim dokazima i detaljnom provjerom činjenica.
- Glasina – Vijesti koje se temelje na neslužbenim izvorima ili neprovjerenim tvrdnjama, često šireći informacije koje nisu potvrđene.
- Satira – Vijesti koje koriste humor, ironiju ili pretjerivanje kako bi kritizirale ili komentirale društvene, političke ili kulturne fenomene. Važno je razlikovati satiričan sadržaj od stvarnog izvještavanja.
- Nepoznato – Vijesti čiji izvori nisu jasni ili identificirani, što otežava provjeru njihove autentičnosti.
- Nepouzdano – Vijesti koje dolaze iz izvora koji su poznati po širenju neprovjerenih informacija ili imaju povijest objavljivanja netočnih ili obmanjujućih sadržaja.
Problemi s Fake Corpus 1.0
Fake Corpus 1.0, koji sadrži 10 kategorija, je bio usmjeren na pružanje višedimenzionalnog pristupa otkrivanju različitih vrsta obmanjujućih ili lažnih informacija. Višestruke kategorije mogu uključivati razne oblike dezinformacija kao što su pristrani članci, satira, teorije zavjere, pseudoznanost i drugo. Međutim, upotreba takvog raznolikog korpusa može uvesti specifične izazove:- Kompleksna kategorizacija: Razlikovanje između 10 različitih vrsta dezinformacija i pravih članaka može biti složeno zbog suptilnih razlika među kategorijama. Na primjer, satira se često može pogrešno shvatiti za prave vijesti od strane AI-a ako nije pravilno obučena na suptilne signale koji ukazuju na satiru.
- Nedostatak podataka za neke kategorije: Neke kategorije možda su imale manje reprezentativne uzorke od drugih, što dovodi do slabijih performansi u tim klasama zbog nedovoljnih podataka za obuku.
- Rizici od preprilagođavanja: S mnogo kategorija i potencijalno složenim skupovima značajki za učenje, postoji rizik da AI prekomjerno prilagodi idiosinkrazije podataka za obuku umjesto da uči općenitije obrasce.
Prijelaz na WELFake skup podataka
Kao odgovor na ove izazove, usvojen je novi pristup pojednostavljenjem problema na binarnu klasifikaciju: razlikovanje između “lažnih” i “stvarnih” vijesti. Ovo pojednostavljenje pomaže na nekoliko načina:- Fokusirana obuka: Koncentriranjem na binarnu klasifikaciju, AI model može se usredotočiti na šire i izraženije razlike između lažnih i stvarnih vijesti, potencijalno poboljšavajući točnost.
- Veći i raznolikiji skup podataka: WELFake skup podataka je značajan korpus koji kombinira podatke iz četiri značajna izvora:
- Kaggle: Tipično izvor za širok spektar skupova podataka, uključujući sadržaj koji korisnici dodaju na brojne teme.
- McIntire: Kolekcija poznata po svom fokusu na specifične istraživačke uvide, vjerojatno pružajući visokokvalitetne, dobro istražene članke.
- Reuters: Međunarodna novinska agencija poznata po sveobuhvatnom i pouzdanom izvještavanju.
- BuzzFeed Political: Poznat po modernom, internetski osviještenom sadržaju koji može uključivati razne oblike prezentacije vijesti.
-
- Ravnoteža u podacima: Skup podataka sadrži gotovo jednak broj stvarnih i lažnih članaka (35,028 stvarnih naspram 37,106 lažnih), što pomaže u sprječavanju neravnoteže klase – uobičajenog problema koji može pristrano utjecati na performanse AI-a prema većinskoj klasi.
Implikacije korištenja WELFake skupa podataka
- Poboljšana robustnost modela: S uravnoteženim i opsežnim skupom podataka, očekuje se poboljšanje robustnosti modela i njegove sposobnosti generalizacije na neviđene podatke.
- Smanjenje složenosti: Smanjenjem problema na binarnu klasifikaciju smanjuje se složenost modela, što može dovesti do bržeg vremena obuke i manje potražnje za računalnom snagom.
- Poboljšane sposobnosti otkrivanja: S fokusiranom obukom na razlikovanje samo dvije klase, model može razviti oštriji osjećaj za značajke koje obično ukazuju na lažan sadržaj naspram pravih članaka.
Prijelaz na WELFake skup podataka za obuku AI-a za identifikaciju lažnih vijesti predstavlja stratešku odluku za poboljšanje točnosti i upravljivosti modela. Ova promjena vjerojatno omogućava bolju alokaciju računalnih resursa, jednostavnije podešavanje modela i potencijalno veće performanse u praktičnim primjenama. Međutim, bitno je nastaviti procjenjivati model naspram raznolikih i evoluirajućih skupova podataka kako bi se osiguralo da ostane učinkovit protiv novih i sofisticiranih oblika dezinformacija.