Statistinių duomenų gavyba, taip pat žinoma kaip žinių ar duomenų atradimas, yra kompiuterizuotas informacijos rinkimo ir analizės metodas. Duomenų gavybos įrankis renka duomenis ir suskirsto informaciją į kategorijas, kad nustatytų modelius ar koreliacijas, kurios gali būti naudojamos svarbiose programose, pvz., medicinoje, kompiuterių programavime, verslo skatinimu ir robotų projektavimu. Statistiniai duomenų gavybos metodai analizei sukurti naudoja sudėtingą matematiką ir sudėtingus statistinius procesus.
Duomenų gavyba apima penkis pagrindinius veiksmus. Pirmoji duomenų gavybos programa renka statistinius duomenis ir talpina informaciją į sandėlio tipo programą. Toliau tvarkomi duomenys sandėlyje ir sukuriama valdymo sistema. Kitas veiksmas sukuria būdą pasiekti valdomus duomenis. Tada ketvirtame žingsnyje sukuriama programinė įranga duomenims analizuoti, taip pat žinoma kaip duomenų gavybos regresija, o paskutinis žingsnis palengvina statistinių duomenų naudojimą arba interpretavimą praktiškai.
Paprastai duomenų gavybos metodai integruoja analitines ir operacijų duomenų sistemas. Analitinė programinė įranga rūšiuoja abiejų tipų duomenų sistemas naudodama atvirus vartotojo klausimus. Atvirojo tipo klausimai suteikia daugybę atsakymų, todėl programuotojai nedaro įtakos rūšiavimo rezultatams. Programuotojai sukuria klausimų sąrašus, kad padėtų suskirstyti informaciją į kategorijas pagal bendrą dėmesį.
Tada rūšiavimas grindžiamas duomenų klasių ir grupių kūrimu, duomenų asociacijomis ir bandymais pagal asociacijas apibrėžti modelius ir tendencijas. Pavyzdžiui, „Google“ renka informaciją apie vartotojų pirkimo įpročius, kad padėtų pateikti internetinę reklamą. Atvirieji klausimai, naudojami šiems pirkėjo duomenims rūšiuoti, yra orientuoti į interneto vartotojų pirkimo nuostatas arba žiūrėjimo įpročius.
Kompiuterių mokslininkai ir programuotojai daugiausia dėmesio skiria renkamų statistinių duomenų analizei. Kuriant sprendimų medžius, dirbtinius neuroninius tinklus, artimiausio kaimyno metodą, taisyklių indukciją, duomenų vizualizavimą ir genetinius algoritmus naudojami statistiškai išgauti duomenys. Šios klasifikavimo sistemos padeda interpretuoti analitinių duomenų programų atrastas asociacijas. Statistinė duomenų gavyba apima nedidelius projektus, kuriuos galima atlikti nedideliu mastu namų kompiuteryje, tačiau dauguma duomenų gavybos asociacijų rinkinių yra tokie dideli, o duomenų gavybos regresija tokia sudėtinga, kad jiems reikia superkompiuterio arba didelės spartos kompiuterių tinklo.
Statistinių duomenų gavyba renka trijų bendrų tipų duomenis, įskaitant operatyvinius duomenis, neoperatyvinius duomenis ir metaduomenis. Drabužių parduotuvėje veiklos duomenys yra pagrindiniai duomenys, naudojami verslui vykdyti, pavyzdžiui, apskaita, pardavimas ir atsargų kontrolė. Ne veiklos duomenys, kurie netiesiogiai susiję su verslu, apima būsimų pardavimų įvertinimus ir bendrą informaciją apie nacionalinę drabužių rinką. Meta duomenys yra susiję su pačiais duomenimis. Programa, naudojanti metaduomenis, gali suskirstyti parduotuvės klientus į klasifikacijas pagal drabužių pirkėjų lytį ar geografinę vietą arba klientų mėgstamą spalvą, jei tokie duomenys buvo renkami.
Duomenų gavybos programa gali būti labai sudėtinga, o statistinių duomenų gavybos įrankis gali būti plačiai pritaikytas praktikoje. Vienas iš pavyzdžių yra ligų protrūkių tyrimas. 2000 m. duomenų gavybos projektas išanalizavo kriptosporidijų ligos protrūkį Ontarijuje, Kanadoje, siekiant nustatyti ligų atvejų padidėjimo priežastis. Duomenų gavybos rezultatai padėjo susieti bakterijų protrūkį su vietinėmis vandens sąlygomis ir tinkamo komunalinio vandens valymo trūkumu. Laukas, vadinamas „biologiniu stebėjimu“, naudoja epidemiologinius duomenis, kad nustatytų vienos ligos protrūkius.
Kompiuterių programuotojai ir dizaineriai taip pat naudoja tikimybių ir statistinių duomenų analizės tyrimą, kad sukurtų mašinas ir kompiuterines programas. Google interneto paieškos sistema buvo sukurta naudojant statistinių duomenų gavybą. „Google“ toliau renka ir naudoja duomenų gavybą kurdama programų naujinius ir programas.