Zašto AI griješi
Unatoč snažnom porivu ljudi da umjetnoj inteligenciji pripisuju ljudske osobine, ti sustavi često pokazuju značajna ograničenja u svojim operativnim sposobnostima. Primarno ograničenje je ugrađeno u njihovom dizajnu: njihova sposobnost učenja strogo je ograničena. Naši najsofisticiraniji sustavi umjetne inteligencije, modeli velikih jezika (LLM), zahtijevaju jasno razlikovanje između stjecanja znanja i njegove primjene, odnosno inferencije tog znanja. […]
BERTIĆ – model na hrvatskom jeziku
BERTić je transformativni model temeljen na principu transformera, koji je prethodno treniran na 8 milijardi tokena izvađenih s web stranica na hrvatskom, bosanskom, srpskom i crnogorskom jeziku. (BERTić — The Transformer Language Model for Bosnian, Croatian, Montenegrin and SerbianNikola Ljubešić, Davor Lauc ) Ovaj model se evaluira kroz različite zadatke, kao što su označavanje dijelova […]
BERT
U posljednjem desetljeću, napredak u području umjetne inteligencije i strojnog učenja donio je značajne promjene u mnogim industrijama, uključujući i tehnologiju obrade prirodnog jezika (NLP). Jedan od najistaknutijih primjera takvog napretka je BERT (Bidirectional Encoder Representations from Transformers), model koji je transformirao način na koji računala razumiju ljudski jezik. U ovom blogu istražit ćemo kako […]
DISTILBERT
DistilBERT: Optimalno Rješenje za Klasifikaciju i Detekciju Lažnih Vijesti Facebook Linkedin X-twitter U svijetu obrade prirodnog jezika (NLP), DistilBERT se ističe ne samo svojom efikasnošću nego i specifičnim primjenama koje optimalno koriste njegove sposobnosti. Jedna od najčešćih upotreba DistilBERT-a je u zadacima klasifikacije, gdje model demonstrira izvanredne sposobnosti u različitim domenama. DistilBERT je pojednostavljena verzija […]
Klasifikacija teksta
Klasifikacija teksta je područje strojnog učenja koje omogućava računalima da klasificiraju tekst u različite kategorije. Najčešće se koristi kao tehnika nadziranog učenja, što znači da se algoritam trenira na skupu tekstova koji su već označeni svojim odgovarajućim kategorijama. Nakon što je obučen na tim podacima, algoritam može koristiti naučeno za predviđanje kategorija novih, neoznačenih tekstova. […]
BIGRU model
BiGRU, ili Bidirectional Gated Recurrent Unit, je vrsta modela za obradu sekvencijalnih podataka, posebno učinkovita za zadatke kategorizacije teksta. Ovaj model koristi arhitekturu neuronske mreže koja omogućava bolje razumijevanje konteksta i semantike u tekstualnim podacima. BIGRU BiGRU model koristi se za obradu teksta u kojem je potrebno uzeti […]
NBSVM model
NBSVM – Varijante Naive Bayes i Support Vector Machines. NBSVM kombinira prednosti Naive Bayes (NB) i Support Vector Machine (SVM) modela za klasifikaciju teksta. Naive Bayes je poznat po svojoj jednostavnosti i efikasnosti u obradi velikih količina podataka, dok SVM pruža visoku točnost kroz svoj pristup maksimizaciji margine između klasa. Ova kombinacija često daje izvrsne […]
Fastext model
FastText je knjižnica za učinkovito učenje reprezentacija riječi i klasifikaciju rečenica koju je razvio laboratorij za istraživanje umjetne inteligencije Facebooka. Koristi metodu koja proširuje popularni pristup Word2Vec kako bi učinkovito uzela u obzir morfološku strukturu, što je čini posebno korisnom za jezike s bogatim infleksijama. Kako FastText pretvara riječi u brojeve FastText započinje razdvajanjem […]
Modeli rabljeni za detekciju lažnih vijesti
Na početku moramo napomenuti da postoji samo jedna neuronska mreža koja je trenirana s hrvatskim jezikom, što značajno ograničava izravnu primjenu specijaliziranih modela za obradu i analizu teksta na hrvatskom. Stoga smo bili prisiljeni koristiti multijezične modele koji mogu obraditi i razumjeti više jezika, uključujući i hrvatski. Ovo je bio ključan korak kako […]
Podaci s kojima smo obučili AI modele
FakeNews Corpus 1.0 Budući da ne postoji specifičan dataset na hrvatskom jeziku za treniranje modela za otkrivanje lažnih vijesti, koristili smo FakeNews Corpus 1.0, koji je na engleskom jeziku i sadrži ukupno 983,682 članka. Iz ovog bogatog izvora podataka, selektirali smo 104,960 članaka koji se bave temama ekonomije i poslovanja za daljnju analizu. […]