{"id":595,"date":"2024-11-17T15:44:23","date_gmt":"2024-11-17T14:44:23","guid":{"rendered":"https:\/\/ekoninfochecker.efri.uniri.hr\/?p=595"},"modified":"2024-11-20T20:55:17","modified_gmt":"2024-11-20T20:55:17","slug":"fastext-model","status":"publish","type":"post","link":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/2024\/11\/17\/fastext-model\/","title":{"rendered":"Fastext model"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">FastText je knji\u017enica za u\u010dinkovito u\u010denje reprezentacija rije\u010di i klasifikaciju re\u010denica koju je razvio laboratorij za istra\u017eivanje umjetne inteligencije Facebooka. Koristi metodu koja pro\u0161iruje popularni pristup Word2Vec kako bi u\u010dinkovito uzela u obzir morfolo\u0161ku strukturu, \u0161to je \u010dini posebno korisnom za jezike s bogatim infleksijama.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Kako FastText pretvara rije\u010di u brojeve<\/h4>\n\n\n\n<p class=\"wp-block-paragraph\">FastText zapo\u010dinje razdvajanjem teksta na manje jedinice zvane tokeni. To mogu biti rije\u010di ili podrije\u010di (n-grami). Na primjer, u rije\u010di \u201cfriendly\u201d, osim cijele rije\u010di, mogao bi se uzeti u obzir i podrije\u010di poput \u201cfrien\u201d, \u201criend\u201d, \u201ciendly\u201d itd. To poma\u017ee u hvatanju morfologije rije\u010di, posebno u aglutinativnim jezicima poput turskog ili finskog.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Vektorska reprezentacija:<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Svaki token predstavljen je kao vektor u prostoru visoke dimenzije. Ti vektori su u po\u010detku nasumi\u010dni, ali se iterativno prilago\u0111avaju tijekom treninga na tekstualnom korpusu. Cilj je da semanti\u010dki sli\u010dni tokeni na kraju imaju sli\u010dne vektore.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Kori\u0161tenje N-grama:<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">FastText dodaje zna\u010dajke n-grama osnovnom modelu ugra\u0111ivanja rije\u010di. To zna\u010di da ne gleda samo cijelu rije\u010d, ve\u0107 uzima u obzir i fiksne dijelove rije\u010di. To poma\u017ee u boljem razumijevanju konteksta, kao i u rje\u0161avanju rije\u010di izvan vokabulara tijekom zadataka klasifikacije.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Pregled ugra\u0111ivanja i agregacija:<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Prilikom klasifikacije tekstova, FastText ra\u010duna prosjek svih vektorskih reprezentacija tokena i n-grama u re\u010denici ili dokumentu. Taj prosje\u010dni vektor efikasno predstavlja semanti\u010dko zna\u010denje ulaznog teksta.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Klasifikacija:<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Taj agregirani vektor zatim se unosi u jednostavan linearni klasifikator (poput logisti\u010dke regresije) kako bi se predvidjela kategorija teksta. Budu\u0107i da FastText uklju\u010duje informacije o podrije\u010dima, otporan je na tipfelere i razli\u010dite oblike rije\u010di, \u0161to pove\u0107ava njegovu to\u010dnost i fleksibilnost.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Mogu\u0107nost FastText-a da rukuje rije\u010dima izvan rije\u010dnika , njegova brzina i u\u010dinkovitost s minimalnim ra\u010dunalnim resursima \u010dine ga popularnim izborom za zadatke klasifikacije teksta, posebno kada se radi s jezicima koji imaju koristi od informacija o podrije\u010dima. Distribuiran je kao unaprijed obu\u010deni vektorski modeli rije\u010di za 157 jezika, obu\u010deni na Common Crawl i Wikipediji pomo\u0107u fastText-a. Ti modeli su obu\u010deni koriste\u0107i CBOW s pozicijskim te\u017einama, u dimenziji 300, s karakter n-gramima du\u017eine 5, prozorom veli\u010dine 5 i 10 negativa.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Za treniranje modela rabila se ina\u010dica fastext modela koja je obu\u010dena za hrvatski jezik.<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Rezultati koje vidimo nakon 100 epoha treniranja AI modela odnose se na performanse modela na treniranju i validacijskom skupu podataka. Evo obja\u0161njenja svakog od tih mjera:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Loss (Gubitak): 0.0815<\/strong>&nbsp;\u2013<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ova vrijednost predstavlja prosje\u010dni gubitak modela na skupu za treniranje. Gubitak je mjera koliko su predikcije modela daleko od stvarnih oznaka. Manja vrijednost gubitka ukazuje na bolje performanse modela. U ovom slu\u010daju, gubitak od 0.0815 sugerira da model prili\u010dno dobro predvi\u0111a to\u010dne oznake na treniranom skupu.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Binary Accuracy: 0.9705<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u2013 Ova mjera to\u010dnosti pokazuje postotak slu\u010dajeva u kojima je model to\u010dno klasificirao ishod kao pozitivan ili negativan na treniranom skupu podataka. Vrijednost od 97.05% ukazuje na vrlo visoku razinu to\u010dnosti, \u0161to zna\u010di da je model uspje\u0161an u identificiranju i klasificiranju binarnih oznaka.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Val Loss (Validacijski gubitak): 0.0971<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u2013 Ovo je prosje\u010dni gubitak modela na validacijskom skupu, koji se koristi za testiranje modela na novim, nevi\u0111enim podacima. Validacijski gubitak koji je ne\u0161to ve\u0107i od gubitka na treniranju (0.0971 naspram 0.0815) mo\u017ee ukazivati na to da model ne\u0161to slabije performira na nevi\u0111enim podacima, \u0161to je \u010desto znak blage prenau\u010denosti (overfitting).<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Val Binary Accuracy: 0.9660<\/strong>&nbsp;\u2013<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Sli\u010dno kao to\u010dnost na treniranju, ovo pokazuje postotak slu\u010dajeva u kojima je model to\u010dno klasificirao ishode na validacijskom skupu. To\u010dnost od 96.60% tako\u0111er je vrlo visoka i blizu je to\u010dnosti na treniranju, \u0161to ukazuje na to da je model generalno dobro generaliziran, iako postoji mala razlika izme\u0111u to\u010dnosti na treniranju i validaciji.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ukratko, model pokazuje vrlo dobre performanse na treniranju i validaciji s visokom to\u010dno\u0161\u0107u i relativno niskim gubitkom. Razlika izme\u0111u treniranja i validacijskih performansi nije zna\u010dajno velika, \u0161to je dobar znak da model nije zna\u010dajno prenau\u010den, ali uvijek postoji prostor za daljnje pode\u0161avanje kako bi se minimizirala razlika izme\u0111u treniranja i validacijskih performansi.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Model ima&nbsp; 10 000 vijesti po&nbsp; kategoriji, od kojih se 90% rabi za trening a 10% za testiranje.<\/p>\n\n\n\n<p class=\"has-large-font-size wp-block-paragraph\"><strong>Rezultati testiranja su:<\/strong><\/p>\n\n\n\n<figure class=\"wp-block-table aligncenter is-style-stripes has-normal-font-size\"><table class=\"has-fixed-layout\"><thead><tr><th>Kategorija<\/th><th>Precision<\/th><th>Recall<\/th><th>F1-Score<\/th><th>Broj&nbsp; uzoraka<\/th><\/tr><\/thead><tbody><tr><td>Pristranost<\/td><td>0.51<\/td><td>0.29<\/td><td>0.37<\/td><td>830<\/td><\/tr><tr><td>Mamac<\/td><td>0.94<\/td><td>0.71<\/td><td>0.81<\/td><td>1370<\/td><\/tr><tr><td>Zavjera<\/td><td>0.88<\/td><td>0.62<\/td><td>0.72<\/td><td>910<\/td><\/tr><tr><td>La\u017ena vijest<\/td><td>0.95<\/td><td>0.70<\/td><td>0.80<\/td><td>1030<\/td><\/tr><tr><td>Mr\u017enja<\/td><td>0.87<\/td><td>0.73<\/td><td>0.80<\/td><td>1230<\/td><\/tr><tr><td>Pseudoznanost<\/td><td>0.82<\/td><td>0.64<\/td><td>0.72<\/td><td>440<\/td><\/tr><tr><td>Politika<\/td><td>0.67<\/td><td>0.50<\/td><td>0.57<\/td><td>1130<\/td><\/tr><tr><td>Pouzdano<\/td><td>1.00<\/td><td>0.92<\/td><td>0.96<\/td><td>1070<\/td><\/tr><tr><td>Glasina<\/td><td>0.96<\/td><td>0.79<\/td><td>0.86<\/td><td>890<\/td><\/tr><tr><td>Satira<\/td><td>0.78<\/td><td>0.71<\/td><td>0.75<\/td><td>910<\/td><\/tr><tr><td>Nepoznato<\/td><td>1.00<\/td><td>0.76<\/td><td>0.86<\/td><td>1070<\/td><\/tr><tr><td>Nepouzdano<\/td><td>1.00<\/td><td>0.81<\/td><td>0.89<\/td><td>730<\/td><\/tr><tr><td>Micro avg<\/td><td>0.88<\/td><td>0.69<\/td><td>0.77<\/td><td>11610<\/td><\/tr><tr><td>Macro avg<\/td><td>0.87<\/td><td>0.68<\/td><td>0.76<\/td><td>11610<\/td><\/tr><tr><td>Weighted avg<\/td><td>0.87<\/td><td>0.69<\/td><td>0.77<\/td><td>11610<\/td><\/tr><tr><td>Samples avg<\/td><td>0.69<\/td><td>0.69<\/td><td>0.69<\/td><td>11610<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Rezultati validacije ovog AI modela za klasifikaciju pokazuju razli\u010dite metrike preko razli\u010ditih kategorija ili klasa, \u0161to mo\u017ee pru\u017eiti uvide u snage i slabosti modela. Hajde da raspravimo klju\u010dne metrike i ukupne performanse:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Pregled preciznosti, odziva i F1-rezultata:<br>Preciznost odra\u017eava to\u010dnost pozitivnih predikcija za svaku klasu. Visoka preciznost zna\u010di da ve\u0107ina stavki ozna\u010denih kao pripadaju\u0107e klasi zaista pripada toj klasi.<br>Odziv mjeri sposobnost modela da detektira sve stvarne pozitive klase. Visok rezultat odziva pokazuje da je model dobar u detektiranju pozitivnih slu\u010dajeva.<br>F1-rezultat je harmonijska sredina preciznosti i odziva, pru\u017eaju\u0107i jedinstveni rezultat koji balansira i odziv i preciznost.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Analiza po Kategorijama:<\/strong><br>Kategorije s visokom precizno\u0161\u0107u, ali ni\u017eim odzivom: &#8220;Pouzdano&#8221; (Reliable), &#8220;Nepoznato&#8221; (Unknown) i &#8220;Nepouzdano&#8221; (Unreliable) sve pokazuju visoku preciznost (1.00), \u0161to ukazuje da je model vrlo to\u010dan kada predvi\u0111a ove kategorije. Me\u0111utim, njihovi rezultati odziva su ni\u017ei, \u0161to sugerira da model propu\u0161ta zna\u010dajan broj stvarnih slu\u010dajeva.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Uravnote\u017eene kategorije :<\/strong>&nbsp;&#8220;Mamac&#8221; (Bait) i &#8220;La\u017ena vijest&#8221; (Fake News) pokazuju dobar balans izme\u0111u preciznosti i odziva, \u0161to zna\u010di da su ove kategorije to\u010dno predvi\u0111ene i sveobuhvatno detektirane.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Problemati\u010dne kategorije :<\/strong>&nbsp;&#8220;Pristranost&#8221; (Bias) ima izrazito nisku preciznost (0.51) i odziv (0.29), \u0161to ukazuje na to da model ima problema i u to\u010dnom predvi\u0111anju i u potpunom detektiranju ove kategorije.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Op\u0107a zapa\u017eanja:<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>Ukupne performanse:<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">&#8220;Macro prosjek&#8221; preciznosti (0.87), odziva (0.68) i F1-rezultata (0.76) sugerira da iako je model op\u0107enito precizan, manje je efikasan u odzivu. To bi moglo zna\u010diti da je model oprezan pri dodjeljivanju oznaka, daju\u0107i prednost sigurnosti nad pokriveno\u0161\u0107u.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>Metrike ponderiranog prosjeka:<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Uzimaju\u0107i u obzir ponderirani prosjek koji uzima u obzir podr\u0161ku klase, ukupni rezultati su ne\u0161to bolji od macro prosjeka, pokazuju\u0107i da model bolje performira na klasama s vi\u0161e uzoraka.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>Mikro prosjek naspram prosjeka uzoraka:<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">&#8220;Mikro prosjek&#8221; i &#8220;prosjek uzoraka&#8221; su jednaki za sve metrike (0.69 za preciznost, odziv i F1), \u0161to ukazuje na konzistentne prosje\u010dne performanse preko svih pojedina\u010dnih predikcija kada se agregacija obavlja globalno preko svih klasa.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>ROC_AUC<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Rezultat ROC-AUC (povr\u0161ina ispod krivulje operativnih karakteristika prijemnika) od 0.965742 za ovaj AI model je izuzetno visok, \u0161to ukazuje na odli\u010dnu sposobnost modela da razlikuje izme\u0111u klasa. ROC-AUC skor je statisti\u010dka mjera koja se koristi za procjenu performansi klasifikacijskih modela na svim pragovima klasifikacije. Skor blizu 1.0 sugerira da model ima visoku sposobnost preciznog klasificiranja pozitivnih i negativnih primjera bez mije\u0161anja. Visoki ROC-AUC skor zna\u010di da postoji jasna distinkcija izme\u0111u distribucija predvi\u0111enih vjerojatnosti za pozitivne i negativne slu\u010dajeve, \u0161to model \u010dini pouzdanim u predvi\u0111anju i smanjuje \u0161ansu za la\u017eno pozitivne i la\u017eno negativne rezultate.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">U praksi, rezultat od 0.965742 implicira da model mo\u017ee efikasno i sa velikom to\u010dno\u0161\u0107u identificirati relevantne klase u datasetu, \u0161to ga \u010dini iznimno korisnim za primjene gdje su preciznost i pouzdanost kriti\u010dne. Ovako visok ROC-AUC tako\u0111er mo\u017ee ukazivati na to da su podaci dobro pripremljeni i da je model dobro pode\u0161en tijekom procesa treniranja. Me\u0111utim, va\u017eno je provjeriti kako se model pona\u0161a na novim, nevi\u0111enim podacima, kako bi se osigurala njegova generalizabilnost i smanjili rizici od preprilagodbe (overfitting). Tako\u0111er je korisno usporediti ovaj rezultat s drugim modelima istog zadatka, kako bi se stekao bolji uvid u relativnu efikasnost i mogu\u0107a podru\u010dja za pobolj\u0161anje.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>FastText je knji\u017enica za u\u010dinkovito u\u010denje reprezentacija rije\u010di i klasifikaciju re\u010denica koju je razvio laboratorij za istra\u017eivanje umjetne inteligencije Facebooka. Koristi metodu koja pro\u0161iruje popularni pristup Word2Vec kako bi u\u010dinkovito uzela u obzir morfolo\u0161ku strukturu, \u0161to je \u010dini posebno korisnom za jezike s bogatim infleksijama. Kako FastText pretvara rije\u010di u brojeve FastText zapo\u010dinje razdvajanjem teksta [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":1237,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[92],"tags":[],"class_list":["post-595","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ai-provjera"],"_links":{"self":[{"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/posts\/595","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/comments?post=595"}],"version-history":[{"count":1,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/posts\/595\/revisions"}],"predecessor-version":[{"id":1238,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/posts\/595\/revisions\/1238"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/media\/1237"}],"wp:attachment":[{"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/media?parent=595"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/categories?post=595"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/tags?post=595"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}