{"id":601,"date":"2024-11-17T16:25:57","date_gmt":"2024-11-17T15:25:57","guid":{"rendered":"https:\/\/ekoninfochecker.efri.uniri.hr\/?p=601"},"modified":"2024-11-20T20:53:28","modified_gmt":"2024-11-20T20:53:28","slug":"bertic-model-na-hrvatskom-jeziku","status":"publish","type":"post","link":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/2024\/11\/17\/bertic-model-na-hrvatskom-jeziku\/","title":{"rendered":"BERTI\u0106 \u2013 model na hrvatskom jeziku"},"content":{"rendered":"\n<p><\/p>\n\n\n\n<figure class=\"wp-block-pullquote\"><blockquote><p>BERTi\u0107 je transformativni model temeljen na principu transformera, koji je prethodno treniran na 8 milijardi tokena izva\u0111enih s web stranica na hrvatskom, bosanskom, srpskom i crnogorskom jeziku. <\/p><cite>BERTi\u0107 \u2014 The Transformer Language Model for Bosnian, Croatian, Montenegrin and Serbian. Nikola Ljube\u0161i\u0107, Davor Lauc <\/cite><\/blockquote><\/figure>\n\n\n\n<p> Ovaj model se evaluira kroz razli\u010dite zadatke, kao \u0161to su ozna\u010davanje dijelova govora, prepoznavanje imenovanih entiteta, predvi\u0111anje geolokacije i razumijevanje uzro\u010dno-posljedi\u010dnih veza u op\u0107em znanju, pri \u010demu pokazuje pobolj\u0161anja u odnosu na najnovije modele za sve navedene zadatke. Za evaluaciju razumijevanja zdravorazumskih zaklju\u010divanja uveli smo COPA-HR, koji predstavlja prijevod testa Choice of Plausible. Za treniranje ovog modela odabran je pristup Electra (Clark et al., 2020), koji se temelji na treniranju manjeg generatora modela i ve\u0107eg glavnog diskriminatornog modela \u010diji je zadatak razlikovati da li je odre\u0111ena rije\u010d izvorna rije\u010d iz teksta ili rije\u010d generirana od strane generatora. Autori tvrde da je Electra pristup ra\u010dunalno u\u010dinkovitiji od modela BERT (Devlin et al., 2018) koji se temelji na maskiranom modeliranju jezika.<\/p>\n\n\n\n<p>ELECTRA model je novi pristup treniranju jezi\u010dnih modela koji unapre\u0111uje efikasnost i efektivnost u odnosu na prethodne metode poput BERT-a. Umjesto da samo maskira i predvi\u0111a rije\u010di, ELECTRA koristi generator za stvaranje zamjenskih rije\u010di u tekstu koje zatim diskriminator poku\u0161ava identificirati, \u0161to rezultira br\u017eim i ekonomi\u010dnijim u\u010denjem. Ova metoda je pokazala izvanredne rezultate u mnogim jezi\u010dnim zadacima i omogu\u0107ava izgradnju mo\u0107nijih modela s manje ra\u010dunalne snage.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Klasifikacija teksta uporabom&nbsp; BERTi\u0107 ( ELEKTRA) modela<\/h3>\n\n\n\n<p>Klasifikacija teksta pomo\u0107u modela ELECTRA koristi jedinstveni pristup predobuci, koji se zna\u010dajno razlikuje od drugih modela poput BERT-a. Metodologija obuke ELECTRA uklju\u010duje dva glavna komponenta: generator i diskriminator. Ova metoda, koju su predstavili Clark i suradnici 2020. godine, pokazala se ra\u010dunalno u\u010dinkovitom i u\u010dinkovitom, posebno za zadatke poput klasifikacije teksta.&nbsp;<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>ELECTRA predstavlja Efficiency Learning an Encoder that Classifies Token Replacements Accurately (U\u010dinkovito u\u010denje enkodera koji to\u010dno klasificira zamjene tokena). Za razliku od tradicionalnih modela koji u\u010de predvidjeti maske tokene (kao \u0161to je BERT), ELECTRA u\u010di razlikovati \u201cstvarne\u201d i \u201cla\u017ene\u201d tokene kroz cijelu ulaznu sekvencu. Ovaj pristup je u osnovi problem binarne klasifikacije na razini tokena, koji trenira model da razumije i obra\u0111uje jezik u\u010dinkovitije.je.<\/p>\n<\/blockquote>\n\n\n\n<h4 class=\"wp-block-heading\">Obuka Modela ELECTRA<\/h4>\n\n\n\n<p>Generator: Generator je manji transformer model koji u\u010di predvidjeti vjerojatne tokene za zamjenu u ulaznom tekstu. To je sli\u010dno zadatku modela maske jezika u BERT-u, ali uklju\u010duje zamjenu tokena umjesto predvi\u0111anja maskiranih tokena.<br>Diskriminator: Glavni model, diskriminator, u\u010di razlikovati je li svaki token u ulaznoj sekvenci \u201cstvarni\u201d token iz skupa podataka ili \u201cla\u017eni\u201d token proizveden od strane generatora. Diskriminator je fino pode\u0161en za ovaj zadatak, koji tijesno nalikuje krajnjim zadacima (kao \u0161to je klasifikacija teksta) koje \u0107e izvoditi.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">&nbsp;Klasifikacija Teksta s ELECTRA<\/h4>\n\n\n\n<p>Predobuka: Tijekom predobuke, generator i diskriminator se istovremeno obu\u010davaju. Generator zamjenjuje neke tokene u tekstu alternativama koje predvi\u0111a, dok diskriminator poku\u0161ava identificirati je li svaki token u tekstu izvorni ili zamijenjen. To u\u010di diskriminator fino razumijevanje jezika.<br>Fino pode\u0161avanje: Jednom predobu\u010den, model diskriminatora zatim se fino pode\u0161ava za specifi\u010dne zadatke nizvodno kao \u0161to su klasifikacija teksta. Fino pode\u0161avanje uklju\u010duje obuku diskriminatora na ozna\u010denom skupu podataka gdje su ulazi tekstualni dokumenti, a izlazi su kategorije ili oznake.<br>Sloj za Klasifikaciju: Da bi se prilagodio diskriminator za klasifikaciju, dodaje se sloj za klasifikaciju na vrh izlaza transformatora. Ovaj sloj mapira izlazne ugradnje teksta na potencijalne kategorije.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">REZULTATI:<\/h2>\n\n\n\n<p>Model BERTi\u0107 bio je obu\u010den na WELFake skupu podataka koji je prethodno preveden na hrvatski jezik. Kori\u0161tenjem ovog lokaliziranog skupa podataka, model je uspio nau\u010diti specifi\u010dnosti hrvatskog jezi\u010dnog izraza. Ova prilagodba omogu\u0107ila je precizniju analizu i klasifikaciju tekstova na hrvatskom jeziku. Kada se obu\u010dava model poput BERTi\u0107a na specifi\u010dnom skupu podataka, va\u017eno je pratiti klju\u010dne metrike tijekom procesa obuke kako bi se ocijenila u\u010dinkovitost i prilagodba modela. U slu\u010daju obuke na WELFake skupu podataka koji je preveden na hrvatski, va\u017ene metrike su uklju\u010divale prosje\u010dni gubitak i to\u010dnost kroz razli\u010dite epohe, kako za treniranje tako i za validaciju.<\/p>\n\n\n\n<p>Analiza podataka o obuci modela BERTi\u0107 za klasifikaciju teksta pru\u017ea uvid u u\u010dinkovitost i prilagodljivost modela kroz deset epoha obuke. Evo detaljnog pregleda rezultata dobivenih tijekom treninga i validacije: Pregled Podataka Tijekom prvih nekoliko epoha, vidljivo je zna\u010dajno pobolj\u0161anje kako u to\u010dnosti tako i u smanjenju gubitka na trening setu. Sli\u010dno, to\u010dnost na validacijskom setu pokazuje dobre rezultate, \u0161to ukazuje na to da model dobro generalizira na novim podacima. BERTi\u0107 model pokazuje izvrsne performanse na trening setu s vrlo visokom to\u010dno\u0161\u0107u i niskim gubitkom, \u0161to ukazuje na uspje\u0161nu obuku. Iako postoji odre\u0111ena fluktuacija u to\u010dnosti validacije, model generalno dobro prenosi nau\u010deno na validacijski set. Me\u0111utim, potrebno je obratiti pozornost na mogu\u0107i overfitting, posebno u kasnijim epohama. Analiziramo rezultate validacije modela BERTi\u0107 koji su pokazali izvanrednu uskla\u0111enost u svim klju\u010dnim metrikama ocjenjivanja performansi modela. Sve klju\u010dne metrike \u2014 to\u010dnost validacije, preciznost, odziv, F1 skor i ROC AUC skor \u2014 iznose 0.9715. Ovdje je detaljna analiza tih rezultata i \u0161to oni zna\u010daju za model BERTi\u0107:<\/p>\n\n\n\n<figure class=\"wp-block-table is-style-stripes has-normal-font-size\"><table class=\"has-fixed-layout\"><thead><tr><th class=\"has-text-align-center\" data-align=\"center\">Epoch<\/th><th>Training Average Loss<\/th><th>Training Average Accuracy<\/th><th>Validation Average Loss<\/th><th>Validation Accuracy<\/th><\/tr><\/thead><tbody><tr><td class=\"has-text-align-center\" data-align=\"center\">1<\/td><td>0.2456<\/td><td>89.52%<\/td><td>0.1138<\/td><td>95.30%<\/td><\/tr><tr><td class=\"has-text-align-center\" data-align=\"center\">2<\/td><td>0.0842<\/td><td>96.88%<\/td><td>0.0699<\/td><td>97.15%<\/td><\/tr><tr><td class=\"has-text-align-center\" data-align=\"center\">3<\/td><td>0.0481<\/td><td>98.19%<\/td><td>0.1124<\/td><td>96.10%<\/td><\/tr><tr><td class=\"has-text-align-center\" data-align=\"center\">4<\/td><td>0.0284<\/td><td>99.04%<\/td><td>0.0838<\/td><td>97.15%<\/td><\/tr><tr><td class=\"has-text-align-center\" data-align=\"center\">5<\/td><td>0.0144<\/td><td>99.45%<\/td><td>0.1107<\/td><td>97.00%<\/td><\/tr><tr><td class=\"has-text-align-center\" data-align=\"center\">6<\/td><td>0.0125<\/td><td>99.52%<\/td><td>0.1420<\/td><td>96.75%<\/td><\/tr><tr><td class=\"has-text-align-center\" data-align=\"center\">7<\/td><td>0.0087<\/td><td>99.69%<\/td><td>0.1590<\/td><td>96.20%<\/td><\/tr><tr><td class=\"has-text-align-center\" data-align=\"center\">8<\/td><td>0.0131<\/td><td>99.58%<\/td><td>0.1050<\/td><td>97.25%<\/td><\/tr><tr><td class=\"has-text-align-center\" data-align=\"center\">9<\/td><td>0.0069<\/td><td>99.79%<\/td><td>0.1716<\/td><td>96.25%<\/td><\/tr><tr><td class=\"has-text-align-center\" data-align=\"center\">10<\/td><td>0.0062<\/td><td>99.74%<\/td><td>0.1276<\/td><td>97.15%<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\">Op\u0107a Analiza Rezultata<\/h3>\n\n\n\n<p>Sve metrike postigle su identi\u010dnu vrijednost od 0.9715, \u0161to sugerira vrlo uravnote\u017eene performanse modela u razli\u010ditim aspektima evaluacije:&nbsp;<strong>To\u010dnost Validacije (Accuracy)<\/strong>: Ova metrika pokazuje koliki je udio ukupnih predikcija modela to\u010dan. Visoka to\u010dnost ukazuje na to da model dobro razlikuje ciljne klase u ve\u0107ini slu\u010dajeva.&nbsp;<strong>Preciznost (Precision)<\/strong>: Preciznost mjeri udio to\u010dnih pozitivnih predikcija u odnosu na ukupan broj pozitivnih predikcija koje je model izvr\u0161io. Visoka preciznost implicira nisku stopu la\u017eno pozitivnih rezultata, \u0161to je posebno va\u017eno u aplikacijama gdje su posljedice la\u017enih alarma visoke.&nbsp;<strong>Odziv (Recall)<\/strong>: Odziv, ili stopa istinito pozitivnih, pokazuje koliko je dobro model identificirao sve stvarne pozitivne slu\u010dajeve. Visok odziv zna\u010di da model uspje\u0161no prepoznaje ve\u0107inu pozitivnih primjera.&nbsp;<strong>F1 Skor:<\/strong>&nbsp;F1 skor je harmonijska sredina preciznosti i odziva. Visoki F1 skor ukazuje na to da model efikasno balansira izme\u0111u preciznosti i odziva, \u0161to je klju\u010dno u situacijama gdje je potrebno optimalno izbalansirati oba aspekta.&nbsp;<strong>ROC AUC Skor<\/strong>: ROC AUC mjera je sposobnost modela da diskriminira izme\u0111u klasa nezavisno o pragu klasifikacije. Skor od 0.9715 ukazuje na izvrsnu diskriminativnu sposobnost modela.&nbsp;<strong>Visoka ujedna\u010denost u svim mjerama performansi sugerira da model BERTi\u0107 ne samo da to\u010dno predvi\u0111a kategorije, nego to \u010dini s minimalnom pristrano\u0161\u0107u prema la\u017eno pozitivnim ili la\u017eno negativnim rezultatima. To je osobito va\u017eno za aplikacije koje zahtijevaju visoku pouzdanost u predikcijama, kao \u0161to su obrada prirodnog jezika i analiza sentimenta u pravnim i financijskim dokumentima.<\/strong><\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" src=\"https:\/\/ekoninfochecker.efri.uniri.hr\/wp-content\/uploads\/2024\/11\/bertic.png\" alt=\"\" class=\"wp-image-612\"\/><\/figure>\n\n\n\n<h4 class=\"wp-block-heading\">Normalizirana matrica zabune<\/h4>\n\n\n\n<p>Normalizirana matrica zabune klju\u010dan je alat za analizu performansi klasifikacijskih modela, omogu\u0107uju\u0107i detaljno razumijevanje kako model predvi\u0111a razli\u010dite klase. U kontekstu klasifikacije s dvije klase, \u201cVijest\u201d i \u201cLa\u017ena vijest\u201d, normalizirana matrica zabune pru\u017ea uvid u to kako model razlikuje te dvije klase. Evo analize rezultata koji su dani: 96.78%, 3.22%, 2.49% i 97.51%.<\/p>\n\n\n\n<h5 class=\"wp-block-heading\">Struktura Matrice Zabune<\/h5>\n\n\n\n<p>Pravi pozitivi (Vijest): 96.78% \u2013 Ovaj postotak predstavlja udio stvarnih vijesti koje su to\u010dno klasificirane kao vijesti. Visoka vrijednost ukazuje na to da model vrlo u\u010dinkovito prepoznaje stvarne vijesti.<br>La\u017eni pozitivi (La\u017ena vijest): 3.22% \u2013 Ovo predstavlja situacije gdje su stvarne vijesti pogre\u0161no klasificirane kao la\u017ene vijesti. Iako je postotak relativno nizak, svaki slu\u010daj la\u017eno pozitivne klasifikacije mo\u017ee potencijalno \u0161iriti dezinformacije.<br>La\u017eni negativi (Vijest): 2.49% \u2013 Ovo su slu\u010dajevi kada su la\u017ene vijesti pogre\u0161no identificirane kao stvarne vijesti. Sli\u010dno la\u017enim pozitivima, i ovi rezultati mogu imati negativne posljedice, posebno u kontekstima gdje je va\u017ena to\u010dna informacija.<br>Pravi pozitivi (La\u017ena vijest): 97.51% \u2013 Ovaj visoki postotak pokazuje da model efikasno identificira la\u017ene vijesti kao la\u017ene. Ovo je klju\u010dno u borbi protiv dezinformacija, gdje je va\u017eno precizno filtrirati i eliminirati neistinite sadr\u017eaje.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Zna\u010daj i Implikacije Rezultata<\/h2>\n\n\n\n<p>Visoki postotci pravih pozitiva za obje klase (96.78% za vijesti i 97.51% za la\u017ene vijesti) ukazuju na to da model generalno dobro funkcioni\u0161e u identifikaciji i klasifikaciji sadr\u017eaja. Me\u0111utim, iako su relativno niski, postotci la\u017enih pozitiva i negativa zaslu\u017euju pa\u017enju zbog potencijalnih rizika i posljedica koje mogu proiza\u0107i iz pogre\u0161nih klasifikacija.<\/p>\n\n\n\n<p><strong>Rezultati validacije modela BERTi\u0107 pokazuju da je model iznimno robustan i pouzdan u klasifikaciji teksta. Visoka ujedna\u010denost u metrikama to\u010dnosti, preciznosti, odziva, F1 skora i ROC AUC skora ukazuje na to da model mo\u017ee biti vrlo koristan u stvarnim primjenama gdje je potrebna visoka to\u010dnost i pouzdanost<\/strong><\/p>\n\n\n\n<p><\/p>\n","protected":false},"excerpt":{"rendered":"<p>BERTi\u0107 je transformativni model temeljen na principu transformera, koji je prethodno treniran na 8 milijardi tokena izva\u0111enih s web stranica na hrvatskom, bosanskom, srpskom i crnogorskom jeziku. BERTi\u0107 \u2014 The Transformer Language Model for Bosnian, Croatian, Montenegrin and Serbian. Nikola Ljube\u0161i\u0107, Davor Lauc Ovaj model se evaluira kroz razli\u010dite zadatke, kao \u0161to su ozna\u010davanje dijelova [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":1233,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[92],"tags":[],"class_list":["post-601","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ai-provjera"],"_links":{"self":[{"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/posts\/601","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/comments?post=601"}],"version-history":[{"count":1,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/posts\/601\/revisions"}],"predecessor-version":[{"id":1234,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/posts\/601\/revisions\/1234"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/media\/1233"}],"wp:attachment":[{"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/media?parent=601"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/categories?post=601"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/tags?post=601"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}