{"id":598,"date":"2024-11-17T16:13:39","date_gmt":"2024-11-17T15:13:39","guid":{"rendered":"https:\/\/ekoninfochecker.efri.uniri.hr\/?p=598"},"modified":"2024-11-20T20:54:32","modified_gmt":"2024-11-20T20:54:32","slug":"podaci-s-kojima-smo-obucili-ai-modele","status":"publish","type":"post","link":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/2024\/11\/17\/podaci-s-kojima-smo-obucili-ai-modele\/","title":{"rendered":"Podaci s kojima smo obu\u010dili AI modele"},"content":{"rendered":"\n<h3 class=\"wp-block-heading\">&nbsp;&nbsp; FakeNews Corpus 1.0<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Budu\u0107i da ne postoji specifi\u010dan dataset na hrvatskom jeziku za treniranje modela za otkrivanje la\u017enih vijesti, koristili smo FakeNews Corpus 1.0, koji je na engleskom jeziku i sadr\u017ei ukupno 983,682 \u010dlanka. Iz ovog bogatog izvora podataka, selektirali smo 104,960 \u010dlanaka koji se bave temama ekonomije i poslovanja za daljnju analizu.&nbsp;<strong>Kategorije vijesti:<\/strong>&nbsp;Razli\u010ditost sadr\u017eaja u ovom korpusu ogleda se u \u0161irokom rasponu kategorija, koje uklju\u010duju:<\/p>\n\n\n\n<ul class=\"wp-block-list has-normal-font-size\">\n<li class=\"has-normal-font-size\">bias (pristranost): 351,063 \u010dlanka,<\/li>\n\n\n\n<li class=\"has-normal-font-size\">clickbait (mamac): 37,279 \u010dlanaka,<\/li>\n\n\n\n<li class=\"has-normal-font-size\">conspiracy (teorije zavjere): 153,703 \u010dlanka,<\/li>\n\n\n\n<li class=\"has-normal-font-size\">fake (la\u017ene vijesti): 206,022 \u010dlanka,<\/li>\n\n\n\n<li class=\"has-normal-font-size\">hate (govor mr\u017enje): 20,886 \u010dlanaka,<\/li>\n\n\n\n<li class=\"has-normal-font-size\">junksci (pseudoznanost): 18,295 \u010dlanaka,<\/li>\n\n\n\n<li class=\"has-normal-font-size\">political (politika): 687,849 \u010dlanaka,<\/li>\n\n\n\n<li class=\"has-normal-font-size\">reliable (pouzdani izvori): 533,399 \u010dlanaka,<\/li>\n\n\n\n<li class=\"has-normal-font-size\">rumor (glasine): 82,243 \u010dlanka,<\/li>\n\n\n\n<li class=\"has-normal-font-size\">satire (satira): 14,828 \u010dlanaka,<\/li>\n\n\n\n<li class=\"has-normal-font-size\">unknown (nepoznato): 110,337 \u010dlanaka,<\/li>\n\n\n\n<li class=\"has-normal-font-size\">unreliable (nepouzdani izvori): 39,900 \u010dlanaka.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Evo opisa za kategorije koje koristite za kategorizaciju vijesti:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li class=\"has-normal-font-size\"><strong>Pristranost <\/strong>\u2013 Ova kategorija obuhva\u0107a vijesti koje mogu biti istinite, ali su prezentirane na na\u010din koji favorizira odre\u0111enu stranu ili stajali\u0161te, \u010desto zanemaruju\u0107i suprotne argumente ili \u010dinjenice.<\/li>\n\n\n\n<li class=\"has-normal-font-size\"><strong>Mamac <\/strong>\u2013 Vijesti koje koriste senzacionalisti\u010dke naslove ili \u0161okantne tvrdnje kako bi privukle pa\u017enju \u010ditatelja, a \u010desto su sadr\u017eajno neadekvatne ili izmi\u0161ljene.<\/li>\n\n\n\n<li class=\"has-normal-font-size\"><strong>Zavjera <\/strong>\u2013 Vijesti koje promi\u010du teorije zavjere, \u010desto bez dokaza ili na temelju iskrivljenih informacija, sugeriraju\u0107i skrivene motive iza javnih doga\u0111anja ili odluka.<\/li>\n\n\n\n<li class=\"has-normal-font-size\"><strong>La\u017ena vijest<\/strong> \u2013 Potpuno izmi\u0161ljene vijesti koje nemaju nikakvu osnovu u stvarnosti, \u010desto stvorene kako bi obmanule javnost ili stvorile la\u017eni narativ.<\/li>\n\n\n\n<li class=\"has-normal-font-size\"><strong>Mr\u017enja <\/strong>\u2013 Vijesti koje \u0161ire govor mr\u017enje, diskriminaciju ili promi\u010du neprijateljstvo prema odre\u0111enim grupama ili pojedincima na temelju rase, religije, etni\u010dke pripadnosti ili spola.<\/li>\n\n\n\n<li class=\"has-normal-font-size\"><strong>Pseudoznanost <\/strong>\u2013 Vijesti koje se predstavljaju kao znanstvene, ali nemaju stvarnu znanstvenu podr\u0161ku, \u010desto koriste\u0107i neprovjerene metode ili teorije.<\/li>\n\n\n\n<li class=\"has-normal-font-size\"><strong>Politika <\/strong>\u2013 Vijesti koje se bave politi\u010dkim temama, doga\u0111ajima ili li\u010dnostima, uklju\u010duju\u0107i izvje\u0161tavanje o politi\u010dkim kampanjama, izborima ili politi\u010dkim odlukama.<\/li>\n\n\n\n<li class=\"has-normal-font-size\"><strong>Pouzdano <\/strong>\u2013 Vijesti koje dolaze iz provjerenih i pouzdanih izvora, \u010desto poduprte \u010dvrstim dokazima i detaljnom provjerom \u010dinjenica.<\/li>\n\n\n\n<li class=\"has-normal-font-size\"><strong>Glasina <\/strong>\u2013 Vijesti koje se temelje na neslu\u017ebenim izvorima ili neprovjerenim tvrdnjama, \u010desto \u0161ire\u0107i informacije koje nisu potvr\u0111ene.<\/li>\n\n\n\n<li class=\"has-normal-font-size\"><strong>Satira <\/strong>\u2013 Vijesti koje koriste humor, ironiju ili pretjerivanje kako bi kritizirale ili komentirale dru\u0161tvene, politi\u010dke ili kulturne fenomene. Va\u017eno je razlikovati satiri\u010dan sadr\u017eaj od stvarnog izvje\u0161tavanja.<\/li>\n\n\n\n<li class=\"has-normal-font-size\"><strong>Nepoznato <\/strong>\u2013 Vijesti \u010diji izvori nisu jasni ili identificirani, \u0161to ote\u017eava provjeru njihove autenti\u010dnosti.<\/li>\n\n\n\n<li class=\"has-normal-font-size\"><strong>Nepouzdano <\/strong>\u2013 Vijesti koje dolaze iz izvora koji su poznati po \u0161irenju neprovjerenih informacija ili imaju povijest objavljivanja neto\u010dnih ili obmanjuju\u0107ih sadr\u017eaja.<\/li>\n\n\n\n<li><\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ove kategorije poma\u017eu u razumijevanju i evaluaciji vijesti, omogu\u0107uju\u0107i korisnicima da bolje procijene vjerodostojnost i pristranost informacija koje primaju. Zbog ove neujedna\u010denosti u broju \u010dlanaka po kategorijama, odlu\u010dili smo iz svake kategorije odabrati po 10,000 \u010dlanaka kako bismo osigurali uravnote\u017eenost u trening datasetu. Odabrane \u010dlanke smo preveli na hrvatski jezik, \u010dime smo stvorili prilago\u0111eni dataset. Ovaj pristup omogu\u0107io nam je da treniramo neuronske mre\u017ee specifi\u010dno za kontekst hrvatskog jezika i kulturolo\u0161kih specifi\u010dnosti, \u0161to je klju\u010dno za preciznu detekciju la\u017enih vijesti u lokalnom medijskom prostoru. Koriste\u0107i ovako pripremljen i prilago\u0111en dataset, bili smo u stanju trenirati modele neuronskih mre\u017ea koji su bolje prilago\u0111eni za identifikaciju i analizu medijskih sadr\u017eaja na hrvatskom jeziku. Ova metodologija nije samo pove\u0107ala to\u010dnost na\u0161ih modela u prepoznavanju la\u017enih vijesti, ve\u0107 je i pridonijela razvoju alata koji mogu biti korisni u \u0161irem okru\u017eenju medijske pismenosti i informacijske to\u010dnosti. Scenarij koji je opisan uklju\u010duje promjenu strategije skupa podataka za obu\u010davanje AI modela kako bi se kategorizirale vijesti kao la\u017ene ili stvarne. Evo detaljnog istra\u017eivanja \u0161to se doga\u0111a i implikacija ove promjene:<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<h4 class=\"wp-block-heading\">Problemi s Fake Corpus 1.0<\/h4>\n\n\n\n<p class=\"wp-block-paragraph\">Fake Corpus 1.0, koji sadr\u017ei 10 kategorija,&nbsp; je bio usmjeren na pru\u017eanje vi\u0161edimenzionalnog pristupa otkrivanju razli\u010ditih vrsta obmanjuju\u0107ih ili la\u017enih informacija. Vi\u0161estruke kategorije mogu uklju\u010divati razne oblike dezinformacija kao \u0161to su pristrani \u010dlanci, satira, teorije zavjere, pseudoznanost i drugo. Me\u0111utim, upotreba takvog raznolikog korpusa mo\u017ee uvesti specifi\u010dne izazove:<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li><strong>Kompleksna kategorizacija<\/strong>: Razlikovanje izme\u0111u 10 razli\u010ditih vrsta dezinformacija i pravih \u010dlanaka mo\u017ee biti slo\u017eeno zbog suptilnih razlika me\u0111u kategorijama. Na primjer, satira se \u010desto mo\u017ee pogre\u0161no shvatiti za prave vijesti od strane AI-a ako nije pravilno obu\u010dena na suptilne signale koji ukazuju na satiru.<\/li>\n\n\n\n<li><strong>Nedostatak podataka za neke kategorije<\/strong>: Neke kategorije mo\u017eda su imale manje reprezentativne uzorke od drugih, \u0161to dovodi do slabijih performansi u tim klasama zbog nedovoljnih podataka za obuku.<\/li>\n\n\n\n<li><strong>Rizici od preprilago\u0111avanja<\/strong>: S mnogo kategorija i potencijalno slo\u017eenim skupovima zna\u010dajki za u\u010denje, postoji rizik da AI prekomjerno prilagodi idiosinkrazije podataka za obuku umjesto da u\u010di op\u0107enitije obrasce.<\/li>\n<\/ol>\n<\/blockquote>\n\n\n\n<p class=\"has-large-font-size wp-block-paragraph\">Prijelaz na WELFake skup podataka<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Kao odgovor na ove izazove, usvojen je novi pristup pojednostavljenjem problema na binarnu klasifikaciju: razlikovanje izme\u0111u \u201cla\u017enih\u201d i \u201cstvarnih\u201d vijesti. Ovo pojednostavljenje poma\u017ee na nekoliko na\u010dina:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted has-normal-font-size\"><strong>Implikacije kori\u0161tenja WELFake skupa podataka<\/strong><br>1. Pobolj\u0161ana robustnost modela: S uravnote\u017eenim i opse\u017enim skupom podataka, o\u010dekuje se pobolj\u0161anje robustnosti modela i njegove sposobnosti generalizacije na nevi\u0111ene podatke.<br>2. Smanjenje slo\u017eenosti: Smanjenjem problema na binarnu klasifikaciju smanjuje se slo\u017eenost modela, \u0161to mo\u017ee dovesti do br\u017eeg vremena obuke i manje potra\u017enje za ra\u010dunalnom snagom.<br>3. Pobolj\u0161ane sposobnosti otkrivanja: S fokusiranom obukom na razlikovanje samo dvije klase, model mo\u017ee razviti o\u0161triji osje\u0107aj za zna\u010dajke koje obi\u010dno ukazuju na la\u017ean sadr\u017eaj naspram pravih \u010dlanaka.<\/pre>\n\n\n\n<p class=\"wp-block-paragraph\">Prijelaz na WELFake skup podataka za obuku AI-a za identifikaciju la\u017enih vijesti predstavlja strate\u0161ku odluku za pobolj\u0161anje to\u010dnosti i upravljivosti modela. Ova promjena vjerojatno omogu\u0107ava bolju alokaciju ra\u010dunalnih resursa, jednostavnije pode\u0161avanje modela i potencijalno ve\u0107e performanse u prakti\u010dnim primjenama. Me\u0111utim, bitno je nastaviti procjenjivati model naspram raznolikih i evoluiraju\u0107ih skupova podataka kako bi se osiguralo da ostane u\u010dinkovit protiv novih i sofisticiranih oblika dezinformacija. \u00a0<\/p>\n","protected":false},"excerpt":{"rendered":"<p>&nbsp;&nbsp; FakeNews Corpus 1.0 Budu\u0107i da ne postoji specifi\u010dan dataset na hrvatskom jeziku za treniranje modela za otkrivanje la\u017enih vijesti, koristili smo FakeNews Corpus 1.0, koji je na engleskom jeziku i sadr\u017ei ukupno 983,682 \u010dlanka. Iz ovog bogatog izvora podataka, selektirali smo 104,960 \u010dlanaka koji se bave temama ekonomije i poslovanja za daljnju analizu.&nbsp;Kategorije vijesti:&nbsp;Razli\u010ditost [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":1235,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[92],"tags":[],"class_list":["post-598","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ai-provjera"],"_links":{"self":[{"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/posts\/598","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/comments?post=598"}],"version-history":[{"count":1,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/posts\/598\/revisions"}],"predecessor-version":[{"id":1236,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/posts\/598\/revisions\/1236"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/media\/1235"}],"wp:attachment":[{"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/media?parent=598"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/categories?post=598"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/tags?post=598"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}