Duomenų gavybos procesas yra įrankis, leidžiantis atskleisti statistiškai reikšmingus modelius dideliame duomenų kiekyje. Paprastai tai apima penkis pagrindinius veiksmus, įskaitant paruošimą, duomenų tyrimą, modelio kūrimą, diegimą ir peržiūrą. Kiekvienas proceso žingsnis apima skirtingus metodus, tačiau dauguma jų naudoja tam tikrą statistinę analizę.
Prieš pradedant duomenų gavybos procesą, mokslininkai paprastai nustato tyrimo tikslus. Šis pasiruošimo etapas paprastai nustato, kokių tipų duomenis reikia tirti, kokius duomenų gavybos būdus naudoti ir kokia bus rezultatų forma. Šis pradinis proceso žingsnis gali būti labai svarbus renkant naudingą informaciją.
Kitas duomenų gavybos proceso žingsnis yra tyrinėjimas. Šis veiksmas paprastai apima reikalingų duomenų rinkimą iš informacijos saugyklos arba rinkimo objekto. Tada kasybos ekspertai paprastai parengia neapdorotų duomenų rinkinius analizei. Šį veiksmą paprastai sudaro visų duomenų rinkimas, valymas, tvarkymas ir patikrinimas, ar nėra klaidų.
Šie paruošti duomenys dažniausiai patenka į trečiąjį duomenų gavybos proceso žingsnį – modelio kūrimą. Norėdami tai padaryti, mokslininkai paprastai ima nedidelius bandomuosius duomenų pavyzdžius ir jiems taiko įvairius duomenų gavybos metodus. Modeliavimo žingsnis dažnai naudojamas siekiant nustatyti geriausią statistinės analizės metodą, reikalingą norimiems rezultatams pasiekti.
Yra keturi pagrindiniai metodai, kuriuos galima taikyti duomenų gavybos procese. Pirmasis yra klasifikavimas, kuris suskirsto duomenis į iš anksto nustatytas grupes arba kategorijas. Taikant antrąjį metodą, vadinamą grupavimu, mokslininkai leidžia kompiuteriui suskirstyti duomenis į grupes, kaip jis pasirenka. Trečiasis duomenų gavybos metodas siekia sąsajų tarp kintamųjų. Ketvirtasis paprastai ieško nuoseklių duomenų modelių, kurie gali būti naudojami būsimoms tendencijoms prognozuoti.
Paskutinis duomenų gavybos proceso žingsnis yra diegimas. Norėdami tai padaryti, modelyje pasirinktos technikos taikomos didesniam duomenų rinkiniui, o rezultatai analizuojami. Ataskaitoje, kuri gaunama atlikus šį veiksmą, paprastai rodomi viso proceso metu rasti modeliai, įskaitant visas duomenų rinkinyje esančias klasifikacijas, grupes, asociacijas arba nuoseklius šablonus.
Peržiūra dažnai yra svarbus paskutinis žingsnis. Šis proceso etapas paprastai apima gavybos modelių kartojimą su nauju duomenų rinkiniu, siekiant įsitikinti, kad pagrindinis rinkinys reprezentuoja visą duomenų rinkinį. Rezultatai negali numatyti tendencijų didesnėje populiacijoje, jei duomenų imtis jos tiksliai neatspindi.