{"id":648,"date":"2024-11-17T19:22:05","date_gmt":"2024-11-17T18:22:05","guid":{"rendered":"https:\/\/ekoninfochecker.efri.uniri.hr\/?p=648"},"modified":"2024-11-20T20:41:26","modified_gmt":"2024-11-20T20:41:26","slug":"nbsvm-model","status":"publish","type":"post","link":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/2024\/11\/17\/nbsvm-model\/","title":{"rendered":"NBSVM model"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\"><strong>NBSVM<\/strong>&nbsp;\u2013 Varijante Naive Bayes i Support Vector Machines. NBSVM kombinira prednosti Naive Bayes (NB) i Support Vector Machine (SVM) modela za klasifikaciju teksta. Naive Bayes je poznat po svojoj jednostavnosti i efikasnosti u obradi velikih koli\u010dina podataka, dok SVM pru\u017ea visoku to\u010dnost kroz svoj pristup maksimizaciji margine izme\u0111u klasa. Ova kombinacija \u010desto daje izvrsne rezultate na datasetima za analizu sentimenta, ponekad postavljaju\u0107i nove standarde u to\u010dnosti predvi\u0111anja.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Kako NBSVM Funkcionira<\/h3>\n\n\n\n<ol class=\"wp-block-list\">\n<li class=\"has-normal-font-size\"><strong>Naive Bayes (NB)<\/strong>: Model koristi statisti\u010dki pristup za predvi\u0111anje vjerojatnosti svake klase na temelju frekvencija pojava rije\u010di u tekstu. Pretpostavlja se da su rije\u010di me\u0111usobno neovisne, \u0161to olak\u0161ava izra\u010dune ali ponekad mo\u017ee dovesti do gre\u0161aka u predvi\u0111anju zbog ignoriranja konteksta rije\u010di.<\/li>\n\n\n\n<li class=\"has-normal-font-size\"><strong>Support Vector Machine (SVM)<\/strong>: SVM se koristi za pronala\u017eenje hiper-ravnine u visokodimenzionalnom prostoru koja najbolje razdvaja kategorije dokumenata. Optimizacijom margine izme\u0111u klasa, SVM osigurava robustniji model koji je manje osjetljiv na \u0161um u podacima.<\/li>\n\n\n\n<li class=\"has-normal-font-size\"><strong>Kombinacija Modela<\/strong>: NBSVM model koristi Naive Bayes za izra\u010dunavanje log-odds vjerojatnosti da pojedine rije\u010di pripadaju odre\u0111enim klasama, a te vjerojatnosti se zatim koriste kao zna\u010dajke u SVM modelu. Ovo omogu\u0107uje da se uzmu u obzir prednosti oba modela, pove\u0107avaju\u0107i to\u010dnost predvi\u0111anja posebno u tekstualnim zadacima poput analize sentimenta.<\/li>\n\n\n\n<li class=\"has-normal-font-size\">Primjene<ul><li>Analiza Sentimenta: NBSVM je izuzetno efikasan u kategorizaciji tekstova prema sentimentu zbog svoje sposobnosti da efektivno rukuje velikim i raznolikim datasetovima.<\/li><li>Klasifikacija Dokumenata: Koristi se u automatskom razvrstavanju dokumenata u kategorije na temelju sadr\u017eaja, \u0161to je korisno u pravnim i akademskim primjenama.<\/li><li>Spam Detekcija: Efektivno filtriranje ne\u017eeljene po\u0161te koriste\u0107i tekstualne zna\u010dajke e-maila za predvi\u0111anje vjerojatnosti da je poruka spam.<\/li><\/ul>&nbsp;Slijede\u0107i dijagram pokazuje NBSVM model u akciji, prikazuju\u0107i proces kombiniranja Naive Bayes i SVM modela za klasifikaciju teksta:\n<ul class=\"wp-block-list\">\n<li>Dijagram prikazuje kako se rije\u010di transformiraju u vektore pomo\u0107u Naive Bayes modela.<\/li>\n\n\n\n<li>Vektori su prikazani kako ulaze u SVM model, koji optimizira granicu izme\u0111u klasa.<\/li>\n\n\n\n<li>Kona\u010dno, rezultat prikazuje klasifikaciju teksta u pozitivan, negativan ili neutralan sentiment.<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li><\/li>\n<\/ol>\n\n\n\n<h4 class=\"wp-block-heading\"><strong>Ovaj model nije vezan uz jezik, pa je jako pogodan za uporabu za razli\u010dite jezike.<\/strong><\/h4>\n\n\n\n<p class=\"wp-block-paragraph\">Rezultati koje vidimo nakon 100 epoha treniranja AI modela odnose se na performanse modela na treniranju i validacijskom skupu podataka. Evo obja\u0161njenja svakog od tih mjera:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Rezultati treniranja NBSVM modela&nbsp; mogu se analizirati na temelju nekoliko klju\u010dnih metrika koje su navedene: loss (gubitak), binary_accuracy (binarna to\u010dnost), val_loss (gubitak na validacijskom setu) i val_binary_accuracy (binarna to\u010dnost na validacijskom setu). Evo \u0161to svaka od ovih metrika zna\u010di i kako interpretirati dobivene vrijednosti:<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li class=\"has-normal-font-size\"><strong>Loss (Gubitak) \u2013 0.0801<\/strong>: Ova vrijednost pokazuje prosje\u010dni gubitak modela na trening setu. Gubitak je mjera koliko su predikcije modela udaljene od stvarnih vrijednosti; ni\u017ei gubitak ukazuje na bolju u\u010dinkovitost modela. Vrijednost od 0.0801 je prili\u010dno niska, \u0161to sugerira da model dobro generalizira u\u010dene zna\u010dajke iz trening seta.<\/li>\n\n\n\n<li class=\"has-normal-font-size\"><strong>Binary_accuracy (Binarna to\u010dnost) \u2013 0.9709<\/strong>: Binarna to\u010dnost od 97.09% na trening setu pokazuje da model pravilno klasificira gotovo 97% primjera. Ovo je visoka to\u010dnost i ukazuje na to da je model vrlo u\u010dinkovit u predvi\u0111anju na trening podacima.<\/li>\n\n\n\n<li class=\"has-normal-font-size\"><strong>Val_loss (Gubitak na validacijskom setu) \u2013 0.1091<\/strong>: Gubitak na validacijskom setu je ne\u0161to ve\u0107i u usporedbi s trening setom, \u0161to je normalno jer model nije izravno treniran na validacijskom setu. Vrijednost od 0.1091 jo\u0161 uvijek predstavlja dobar rezultat, ali ve\u0107i gubitak na validaciji mo\u017ee ukazivati na po\u010detne znakove overfittinga (prekomjernog prilago\u0111avanja).<\/li>\n\n\n\n<li class=\"has-normal-font-size\"><strong>Val_binary_accuracy (Binarna to\u010dnost na validacijskom setu) \u2013 0.9642<\/strong>: To\u010dnost od 96.42% na validacijskom setu je vrlo bliska to\u010dnosti na trening setu, \u0161to je pozitivan znak da model dobro generalizira na nove, nevi\u0111ene podatke. Ova visoka to\u010dnost na validaciji potvr\u0111uje pouzdanost modela u prakti\u010dnim primjenama.<\/li>\n\n\n\n<li><\/li>\n<\/ol>\n\n\n\n<p class=\"wp-block-paragraph\">Model pokazuje izvrsne performanse kako na treningu tako i na validaciji, s visokom to\u010dno\u0161\u0107u i niskim gubitcima. Razlika izme\u0111u trening i validacijskih metrika nije velika, \u0161to je dobar znak da model nije prekomjerno prilago\u0111en na trening podacima. Takav model bi bio pouzdan u stvarnim aplikacijama, pretpostavljaju\u0107i da distribucija trening i validacijskog seta odgovara stvarnoj distribuciji podataka s kojima \u0107e model raditi.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Rezultati po pojedinim kategorijama:<\/strong><\/p>\n\n\n\n<div class=\"wp-block-columns is-layout-flex wp-container-core-columns-is-layout-8f761849 wp-block-columns-is-layout-flex\">\n<div class=\"wp-block-column is-layout-flow wp-block-column-is-layout-flow\" style=\"flex-basis:100%\">\n<figure class=\"wp-block-table is-style-stripes has-normal-font-size\"><table class=\"has-fixed-layout\"><thead><tr><th class=\"has-text-align-center\" data-align=\"center\">Kategorija<\/th><th>Precision<\/th><th>Recall<\/th><th>F1-Score<\/th><th>Uzoraka<\/th><\/tr><\/thead><tbody><tr><td class=\"has-text-align-center\" data-align=\"center\">Pristranost<\/td><td>0.80<\/td><td>0.45<\/td><td>0.57<\/td><td>1050<\/td><\/tr><tr><td class=\"has-text-align-center\" data-align=\"center\">Mamac<\/td><td>0.89<\/td><td>0.78<\/td><td>0.83<\/td><td>1310<\/td><\/tr><tr><td class=\"has-text-align-center\" data-align=\"center\">Zavjera<\/td><td>0.73<\/td><td>0.38<\/td><td>0.50<\/td><td>920<\/td><\/tr><tr><td class=\"has-text-align-center\" data-align=\"center\">La\u017ena vijest<\/td><td>0.91<\/td><td>0.80<\/td><td>0.85<\/td><td>1090<\/td><\/tr><tr><td class=\"has-text-align-center\" data-align=\"center\">Mr\u017enja<\/td><td>0.84<\/td><td>0.72<\/td><td>0.77<\/td><td>1100<\/td><\/tr><tr><td class=\"has-text-align-center\" data-align=\"center\">Pseudoznanost<\/td><td>0.72<\/td><td>0.45<\/td><td>0.55<\/td><td>510<\/td><\/tr><tr><td class=\"has-text-align-center\" data-align=\"center\">Politika<\/td><td>0.67<\/td><td>0.48<\/td><td>0.56<\/td><td>1030<\/td><\/tr><tr><td class=\"has-text-align-center\" data-align=\"center\">Pouzdano<\/td><td>1.00<\/td><td>0.94<\/td><td>0.97<\/td><td>1000<\/td><\/tr><tr><td class=\"has-text-align-center\" data-align=\"center\">Glasina<\/td><td>0.95<\/td><td>0.69<\/td><td>0.80<\/td><td>750<\/td><\/tr><tr><td class=\"has-text-align-center\" data-align=\"center\">Satira<\/td><td>0.77<\/td><td>0.63<\/td><td>0.69<\/td><td>950<\/td><\/tr><tr><td class=\"has-text-align-center\" data-align=\"center\">Nepoznato<\/td><td>1.00<\/td><td>0.72<\/td><td>0.84<\/td><td>1060<\/td><\/tr><tr><td class=\"has-text-align-center\" data-align=\"center\">Nepouzdano<\/td><td>0.99<\/td><td>0.88<\/td><td>0.93<\/td><td>840<\/td><\/tr><tr><td class=\"has-text-align-center\" data-align=\"center\">Micro avg<\/td><td>0.87<\/td><td>0.67<\/td><td>0.76<\/td><td>11610<\/td><\/tr><tr><td class=\"has-text-align-center\" data-align=\"center\">Macro avg<\/td><td>0.85<\/td><td>0.66<\/td><td>0.74<\/td><td>11610<\/td><\/tr><tr><td class=\"has-text-align-center\" data-align=\"center\">Weighted avg<\/td><td>0.86<\/td><td>0.67<\/td><td>0.75<\/td><td>11610<\/td><\/tr><tr><td class=\"has-text-align-center\" data-align=\"center\">Samples avg<\/td><td>0.67<\/td><td>0.67<\/td><td>0.67<\/td><td>11610<\/td><\/tr><\/tbody><\/table><\/figure>\n<\/div>\n<\/div>\n\n\n\n<p class=\"wp-block-paragraph\">Rezultati validacije NBSVM modela za klasifikaciju tekstova u razli\u010dite kategorije, kao \u0161to su pristranost, mamac, zavjera, i druge, mogu se razmatrati kroz nekoliko klju\u010dnih mjera: preciznost (precision), opoziv (recall), F1 ocjena (f1-score) i podr\u0161ka (support). Evo detaljnijeg pregleda rezultata po kategorijama:<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Analiza Po Kategorijama<\/h4>\n\n\n\n<ol class=\"wp-block-list\">\n<li class=\"has-normal-font-size\"><strong>Pristranost<\/strong>\n<ul class=\"wp-block-list\">\n<li><strong>Preciznost<\/strong>: 0.80 \u2013 Model to\u010dno identificira 80% stvarnih slu\u010dajeva pristranosti.<\/li>\n\n\n\n<li><strong>Opoziv<\/strong>: 0.45 \u2013 Od svih stvarnih slu\u010dajeva pristranosti, model ih je identificirao samo 45%.<\/li>\n\n\n\n<li><strong>F1 Ocjena<\/strong>: 0.57 \u2013 Srednja vrijednost preciznosti i opoziva za pristranost nije visoka, \u0161to ukazuje na to da model mo\u017eda nije najbolje prilago\u0111en za prepoznavanje ove kategorije.<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li class=\"has-normal-font-size\"><strong>Mamac<\/strong>\n<ul class=\"wp-block-list\">\n<li><strong>Preciznost<\/strong>: 0.89<\/li>\n\n\n\n<li><strong>Opoziv<\/strong>: 0.78<\/li>\n\n\n\n<li><strong>F1 Ocjena<\/strong>: 0.83 \u2013 Model je relativno dobro prilago\u0111en za detekciju mamaca s visokim vrijednostima u sve tri metrike.<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li class=\"has-normal-font-size\"><strong>Zavjera<\/strong>\n<ul class=\"wp-block-list\">\n<li><strong>Preciznost<\/strong>: 0.73<\/li>\n\n\n\n<li><strong>Opoziv<\/strong>: 0.38<\/li>\n\n\n\n<li><strong>F1 Ocjena<\/strong>: 0.50 \u2013 Model slabo prepoznaje zavjere, \u0161to mo\u017ee biti zbog nedostatka reprezentativnih primjera u trening setu.<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li class=\"has-normal-font-size\"><strong>La\u017ena Vijest<\/strong>\n<ul class=\"wp-block-list\">\n<li><strong>Preciznost<\/strong>: 0.91<\/li>\n\n\n\n<li><strong>Opoziv<\/strong>: 0.80<\/li>\n\n\n\n<li><strong>F1 Ocjena<\/strong>: 0.85 \u2013 Model efikasno prepoznaje la\u017ene vijesti s visokom to\u010dno\u0161\u0107u i opozivom.<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li class=\"has-normal-font-size\"><strong>Pseudoznanost<\/strong>\n<ul class=\"wp-block-list\">\n<li><strong>Preciznost<\/strong>: 0.72<\/li>\n\n\n\n<li><strong>Opoziv<\/strong>: 0.45<\/li>\n\n\n\n<li><strong>F1 Ocjena<\/strong>: 0.55 \u2013 Sli\u010dno kao i za zavjeru, model pokazuje slabije rezultate u kategoriji pseudoznanosti.<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li class=\"has-normal-font-size\"><strong>Pouzdano<\/strong>\n<ul class=\"wp-block-list\">\n<li><strong>Preciznost<\/strong>: 1.00<\/li>\n\n\n\n<li><strong>Opoziv<\/strong>: 0.94<\/li>\n\n\n\n<li><strong>F1 Ocjena<\/strong>: 0.97 \u2013 Model izvrsno prepoznaje pouzdane izvore, s gotovo savr\u0161enom precizno\u0161\u0107u i vrlo visokim opozivom.<\/li>\n<\/ul>\n<\/li>\n<\/ol>\n\n\n\n<h4 class=\"wp-block-heading\">Globalni Pregled<\/h4>\n\n\n\n<ul class=\"wp-block-list\">\n<li class=\"has-normal-font-size\"><strong>Micro Avg<\/strong>: 0.87 (Preciznost), 0.67 (Opoziv), 0.76 (F1 Ocjena) \u2013 Ove vrijednosti ukazuju na to da model generalno dobro prepoznaje ispravne kategorije kada je procijenjen kao jedinstvena grupa.<\/li>\n\n\n\n<li class=\"has-normal-font-size\"><strong>Macro Avg<\/strong>: 0.85 (Preciznost), 0.66 (Opoziv), 0.74 (F1 Ocjena) \u2013 Prosje\u010dne vrijednosti pokazuju dobru ravnote\u017eu izme\u0111u razli\u010ditih kategorija, ali tako\u0111er sugeriraju prostor za pobolj\u0161anje u nekim specifi\u010dnim kategorijama.<\/li>\n\n\n\n<li class=\"has-normal-font-size\"><strong>Weighted Avg<\/strong>: 0.86 (Preciznost), 0.67 (Opoziv), 0.75 (F1 Ocjena) \u2013 Ove ponderirane prosje\u010dne vrijednosti uzimaju u obzir podr\u0161ku (broj primjera) za svaku kategoriju, daju\u0107i realniji pogled na ukupnu u\u010dinkovitost modela.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Iako model pokazuje solidne ukupne performanse, rezultati po kategorijama otkrivaju varijabilnost u efikasnosti modela. Posebno, kategorije kao \u0161to su zavjera i pseudoznanost zahtijevaju dodatne pristup.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">ROC-AUC rezultat od 0.956844 za model umjetne inteligencije predstavlja visoku u\u010dinkovitost modela u klasifikaciji izme\u0111u pozitivnih i negativnih klasa. Evo detaljnije obja\u0161njenje \u0161to ovaj rezultat zna\u010di:<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">ROC-AUC<\/h4>\n\n\n\n<p class=\"wp-block-paragraph\">ROC (Receiver Operating Characteristic) krivulja je graf koji prikazuje performanse klasifikacijskog modela na svim pragovima klasifikacije. Ova krivulja prikazuje odnos izme\u0111u stope pravih pozitivnih rezultata (True Positive Rate, TPR) i stope la\u017enih pozitivnih rezultata (False Positive Rate, FPR) pri razli\u010ditim pragovima.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">AUC (Area Under the Curve) je mjera koja izra\u010dunava ukupnu sposobnost modela da razlikuje izme\u0111u klasa. Vrijednost AUC mo\u017ee biti izme\u0111u 0 i 1, gdje 1 predstavlja savr\u0161en model koji savr\u0161eno razlikuje klase, a 0.5 model koji klasifikacije vr\u0161i nasumi\u010dno.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Interpretacija ROC-AUC rezultata od 0.956844<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Rezultat AUC od 0.956844 ukazuje na vrlo visoku sposobnost modela da to\u010dno klasificira pozitivne i negativne primjere. To zna\u010di da model s velikom sigurno\u0161\u0107u mo\u017ee odrediti pripadnost primjera pozitivnoj ili negativnoj klasi, \u0161to je posebno korisno u aplikacijama gdje su posljedice pogre\u0161ne klasifikacije velike (npr. medicinske dijagnoze, financijska predvi\u0111anja).<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">&nbsp;<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">&nbsp;ROC-AUC rezultat od 0.956844 predstavlja izuzetno dobru performansu modela, pokazuju\u0107i da je model pouzdan u razlikovanju izme\u0111u klasa. Ovakav visok rezultat je pokazatelj kvalitete modela, \u0161to ga \u010dini prikladnim za upotrebu u razli\u010ditim primjenama gdje je to\u010dnost od kriti\u010dne va\u017enosti. U kontekstu razvoja i validacije modela, ovakav rezultat mo\u017ee slu\u017eiti kao poticaj za daljnje \u0161irenje upotrebe modela, ali i za provo\u0111enje dodatnih testiranja kako bi se osigurala njegova robustnost i pouzdanost u stvarnim uvjetima.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>NBSVM&nbsp;\u2013 Varijante Naive Bayes i Support Vector Machines. NBSVM kombinira prednosti Naive Bayes (NB) i Support Vector Machine (SVM) modela za klasifikaciju teksta. Naive Bayes je poznat po svojoj jednostavnosti i efikasnosti u obradi velikih koli\u010dina podataka, dok SVM pru\u017ea visoku to\u010dnost kroz svoj pristup maksimizaciji margine izme\u0111u klasa. Ova kombinacija \u010desto daje izvrsne rezultate [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":1225,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[92],"tags":[],"class_list":["post-648","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ai-provjera"],"_links":{"self":[{"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/posts\/648","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/comments?post=648"}],"version-history":[{"count":1,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/posts\/648\/revisions"}],"predecessor-version":[{"id":1226,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/posts\/648\/revisions\/1226"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/media\/1225"}],"wp:attachment":[{"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/media?parent=648"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/categories?post=648"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/ekoninfochecker.efri.uniri.hr\/index.php\/wp-json\/wp\/v2\/tags?post=648"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}