Duomenų gavybos klasifikavimas yra vienas iš duomenų gavybos proceso žingsnių. Jis naudojamas elementams grupuoti pagal tam tikras pagrindines charakteristikas. Duomenų gavybos klasifikavimui naudojami keli metodai, įskaitant artimiausio kaimyno klasifikaciją, sprendimų medžio mokymąsi ir paramos vektorines mašinas.
Duomenų gavyba yra metodas, kurį mokslininkai naudoja norėdami išgauti šablonus iš duomenų. Paprastai iš duomenų rinkinio parenkama reprezentatyvi imtis, o tada manipuliuojama ir analizuojama, kad būtų rasti modeliai. Be duomenų gavybos klasifikavimo, tyrėjai duomenims analizuoti taip pat gali naudoti grupavimą, regresiją ir taisyklių mokymąsi.
Yra keli algoritmai, kurie gali būti naudojami duomenų gavybos klasifikacijoje. Artimiausio kaimyno klasifikacija yra vienas iš paprasčiausių duomenų gavybos klasifikavimo algoritmų. Tai priklauso nuo treniruočių rinkinio. Mokymo rinkinys yra duomenų rinkinys, naudojamas išmokyti kompiuterį atkreipti dėmesį į tam tikrus kintamuosius. Artimiausio kaimyno klasifikacijoje kompiuteris tiesiog klasifikuoja visus duomenis kaip dalį grupės, kurioje yra duomenys, artimiausi įvesties vertei.
Sprendimų medžio mokymasis naudoja šakojimo modelį duomenims klasifikuoti. Kompiuteris iš esmės užduoda keletą klausimų apie duomenis. Jei atsakymas į pirmąjį klausimą yra teisingas, užduodamas 2a klausimas. Jei atsakymas klaidingas, užduodamas 2b klausimas. Ištraukus šį metodą, susidaro šakojančių takų medis.
Naivioji Bayes klasifikacija remiasi tikimybe. Ji užduoda keletą klausimų apie kiekvieną duomenų dalį ir naudoja atsakymus, kad nustatytų tikimybę, kad duomenys priklauso tam tikrai klasifikacijai. Tai skiriasi nuo mokymosi sprendimų medyje, nes atsakymas į pirmąjį klausimą neturi įtakos, kuris klausimas bus užduotas toliau.
Sudėtingesni duomenų gavybos klasifikavimo metodai apima neuroninius tinklus ir paramos vektorines mašinas. Šie metodai yra kompiuteriniai modeliai, kuriuos būtų sunku atlikti rankomis. Neuroniniai tinklai dažnai naudojami dirbtinio intelekto programavimui, nes jie imituoja žmogaus smegenis. Jis filtruoja informaciją per keletą mazgų, kurie suranda šablonus ir klasifikuoja informaciją.
Pagalbinės vektoriaus mašinos naudoja mokomuosius pavyzdžius, kad sukurtų modelį, kuris klasifikuos informaciją, paprastai vizualizuojamą kaip sklaidos diagramą su dideliu tarpu tarp kategorijų. Kai į mašiną įvedama nauja informacija, ji atvaizduojama grafike. Tada duomenys klasifikuojami pagal tai, kuriai kategorijai diagramoje informacija patenka arčiausiai. Šis metodas veikia tik tada, kai galima rinktis iš dviejų variantų.