{"id":592,"date":"2024-11-17T14:55:45","date_gmt":"2024-11-17T13:55:45","guid":{"rendered":"https:\/\/ekoninfochecker.efri.uniri.hr\/?p=592"},"modified":"2024-11-20T21:00:35","modified_gmt":"2024-11-20T21:00:35","slug":"modeli-rabljeni-za-detekciju-laznih-vijesti","status":"publish","type":"post","link":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/2024\/11\/17\/modeli-rabljeni-za-detekciju-laznih-vijesti\/","title":{"rendered":"Modeli rabljeni za detekciju la\u017enih vijesti"},"content":{"rendered":"\n<p>&nbsp;&nbsp;<strong><em>&nbsp; Na po\u010detku moramo napomenuti da postoji samo jedna neuronska mre\u017ea koja je trenirana s hrvatskim jezikom, \u0161to zna\u010dajno ograni\u010dava izravnu primjenu specijaliziranih modela za obradu i analizu teksta na hrvatskom. Stoga smo bili prisiljeni koristiti multijezi\u010dne modele koji mogu obraditi i razumjeti vi\u0161e jezika, uklju\u010duju\u0107i i hrvatski. Ovo je bio klju\u010dan korak kako bismo osigurali da na\u0161i algoritmi mogu adekvatno funkcionirati unato\u010d jezi\u010dnim ograni\u010denjima.<\/em><\/strong><\/p>\n\n\n\n<p>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Za klasifikaciju la\u017enih tekstova koriste\u0107i prethodno opisani dataset koristili smo sljede\u0107e modele neuronskih mre\u017ea i algoritme strojnog u\u010denja, svaki s razli\u010ditim karakteristikama i pristupima obradi teksta:<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li class=\"has-normal-font-size\"><strong>FastText <\/strong>&#8211; FastText je model razvijen od strane Facebook AI Research, koji se specijalizira za klasifikaciju teksta i reprezentaciju rije\u010di. Model koristi n-gram pristup kako bi uhvatio lokalni kontekst rije\u010di unutar dokumenta, \u0161to omogu\u0107uje bolje razumijevanje sintakse i semantike teksta. FastText je posebno efikasan u radu s rijetkim rije\u010dima zahvaljuju\u0107i svojoj metodi obrade subwords (podrije\u010di).<\/li>\n\n\n\n<li class=\"has-normal-font-size\"><strong>NBSVM <\/strong>\u2013 Varijante Naive Bayes i Support Vector Machines NBSVM kombinira prednosti Naive Bayes (NB) i Support Vector Machine (SVM) modela za klasifikaciju teksta. Naive Bayes je poznat po svojoj jednostavnosti i efikasnosti u obradi velikih koli\u010dina podataka, dok SVM pru\u017ea visoku to\u010dnost kroz svoj pristup maksimizaciji margine izme\u0111u klasa. Ova kombinacija \u010desto daje izvrsne rezultate na datasetima za analizu sentimenta, ponekad postavljaju\u0107i nove standarde u to\u010dnosti predvi\u0111anja.<\/li>\n\n\n\n<li class=\"has-normal-font-size\"><strong>BiGRU <\/strong>\u2013 Bidirectional GRU s unaprijed treniranim FastText vektorskim reprezentacijama rije\u010di BiGRU, ili Bidirectional Gated Recurrent Unit, pristup je koji koristi dva GRU modela postavljena da obra\u0111uju tekst u oba smjera (s lijeva na desno i s desna na lijevo). Ovo omogu\u0107uje modelu da bolje shvati kontekst rije\u010di uzimaju\u0107i u obzir informacije iz cijelog teksta. Kori\u0161tenje prethodno treniranih FastText vektora pobolj\u0161ava sposobnost modela da interpretira zna\u010denje pojedinih rije\u010di na temelju njihovih globalnih kontekstualnih veza.<\/li>\n\n\n\n<li class=\"has-normal-font-size\">BERT \u2013 Bidirectional Encoder Representations from Transformers BERT je vrhunska tehnologija razvijena od strane Google AI, koja koristi mehanizam \u201eTransformer\u201c za razumijevanje prirodnog jezika. BERT modeli su dizajnirani da prethodno treniraju na velikom korpusu teksta, a zatim se fino pode\u0161avaju za specifi\u010dne zadatke kao \u0161to je klasifikacija teksta. Ova tehnologija je postala temelj za mnoge moderne sustave obrade prirodnog jezika zbog svoje sposobnosti da efektivno obradi slo\u017eenost i suptilnost ljudskog jezika.<\/li>\n\n\n\n<li class=\"has-normal-font-size\"><strong>DistilBERT <\/strong>&#8211; DistilBERT je \u201cdestilirana\u201d verzija BERT modela koju je razvio Hugging Face, dizajnirana da pru\u017ei sli\u010dne performanse kao BERT, ali s manje parametara i br\u017eom izvedbom. Ovaj model je idealan za primjene gdje su resursi ograni\u010deni, nude\u0107i dobru ravnote\u017eu izme\u0111u to\u010dnosti i efikasnosti obrade.<\/li>\n<\/ol>\n\n\n\n<p>6.<strong>BERTi\u0107 <\/strong>je model temeljen na arhitekturi ELECTRA, specifi\u010dno prilago\u0111en za obradu hrvatskog jezika u primjenama strojnog u\u010denja i obrade prirodnog jezika. Kori\u0161tenjem naprednih tehnika izvedenih iz ELECTRA modela, BERTi\u0107 efikasno rje\u0161ava zadatke vezane za jezi\u010dnu analizu, prilago\u0111avaju\u0107i se specifi\u010dnostima i nijansama hrvatske gramatike i sintakse.<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>Svaki od ovih modela rezultati klasifikacije la\u017enih vijesti  je predstavljen u posebnom postu, s detaljnim analizama njihove u\u010dinkovitosti, to\u010dnosti i primjenjivosti na specifi\u010dne vrste tekstova unutar ekonomske i poslovne tematike.<\/p>\n<\/blockquote>\n\n\n\n<p>Na kraju, predvi\u0111a se daljnji razvoj i treniranje velikih jezi\u010dnih modela kao \u0161to su MIXTRAL i LLAMA, koji bi mogli pru\u017eiti jo\u0161 bolje performanse u obradi hrvatskog jezika. Ovi modeli, koji su dizajnirani za efikasno rje\u0161avanje specifi\u010dnih izazova povezanih s razli\u010ditim jezicima i dijalektima, mogu zna\u010dajno pobolj\u0161ati preciznost i efikasnost u otkrivanju la\u017enih vijesti i drugih oblika dezinformacija na hrvatskom jeziku.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>&nbsp;&nbsp;&nbsp; Na po\u010detku moramo napomenuti da postoji samo jedna neuronska mre\u017ea koja je trenirana s hrvatskim jezikom, \u0161to zna\u010dajno ograni\u010dava izravnu primjenu specijaliziranih modela za obradu i analizu teksta na hrvatskom. Stoga smo bili prisiljeni koristiti multijezi\u010dne modele koji mogu obraditi i razumjeti vi\u0161e jezika, uklju\u010duju\u0107i i hrvatski. Ovo je bio klju\u010dan korak kako bismo [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":1239,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[92],"tags":[],"class_list":["post-592","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ai-provjera"],"_links":{"self":[{"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/posts\/592","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/comments?post=592"}],"version-history":[{"count":1,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/posts\/592\/revisions"}],"predecessor-version":[{"id":1240,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/posts\/592\/revisions\/1240"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/media\/1239"}],"wp:attachment":[{"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/media?parent=592"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/categories?post=592"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/tags?post=592"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}