Klasifikacija teksta je područje strojnog učenja koje omogućava računalima da klasificiraju tekst u različite kategorije. Najčešće se koristi kao tehnika nadziranog učenja, što znači da se algoritam trenira na skupu tekstova koji su već označeni svojim odgovarajućim kategorijama. Nakon što je obučen na tim podacima, algoritam može koristiti naučeno za predviđanje kategorija novih, neoznačenih tekstova.
Algoritam traži obrasce u tekstu kako bi odredio kojoj kategoriji pripada. To je slično kao kada učimo prepoznati određenu vrstu cvijeta – počinjemo primjećivati određene značajke koje ga razlikuju od drugih vrsta cvijeća. U klasifikaciji teksta, algoritam čini isto, ali s riječima i frazama.
Klasifikacija teksta je svestran alat koji se široko koristi u mnogim stvarnim primjenama s kojima ste se mogli susresti. Na primjer, e-pošta koja završi u vašoj mapi sa spamom rezultat je klasifikacije teksta. Model može razlikovati spam od ne-spam e-pošte proučavajući specifične riječi ili fraze koje identificiraju e-poštu kao spam, poput “Čestitamo, osvojili ste” ili “Danas je vaš sretan dan”.
Klasifikacija teksta je također korisna u analizi sentimenta društvenih medija, posebice kada je riječ o otkrivanju negativnih sentimenata kao što su govor mržnje. Koristeći model strojnog učenja, tekst se može klasificirati i nadzirati za uvredljiv jezik i govor mržnje.