Duomenų gavyba naudoja gana didelę skaičiavimo galią, kuri veikia dideliu duomenų rinkiniu, kad nustatytų dėsningumus ir ryšius tarp duomenų taškų. Algoritmai, kuriuose naudojami statistikos, mašininio mokymosi ir modelių atpažinimo metodai, naudojami automatinei paieškai didelėse duomenų bazėse. Duomenų gavyba taip pat žinoma kaip žinių atradimas duomenų bazėse (KDD).
Kaip ir terminas dirbtinis intelektas, duomenų gavyba yra bendras terminas, kuris gali būti taikomas daugeliui skirtingų veiklų. Verslo pasaulyje duomenų gavyba dažniausiai naudojama siekiant nustatyti tendencijų kryptį ir numatyti ateitį. Jis naudojamas kuriant modelius ir sprendimų palaikymo sistemas, kurios suteikia žmonėms informaciją, kurią jie gali naudoti. Duomenų gavyba atlieka pagrindinį vaidmenį kovojant su terorizmu. Manoma, kad jis buvo naudojamas Rugsėjo 9-osios atakų lyderiui nustatyti.
Duomenų gavėjai yra statistikos specialistai, naudojantys tokius pavadinimų metodus kaip artimo kaimyno modeliai, k-means klasterizavimas, išlaikymo metodas, k-karto kryžminis patvirtinimas, atmetimo vienas metodas ir pan. Regresijos metodai naudojami nereikšmingiems modeliams atimti, paliekant tik naudingą informaciją. Terminas Bayesian dažnai vartojamas šioje srityje, nurodant išvadų metodų klasę, kuri numato būsimų įvykių tikimybę, derinant ankstesnes tikimybes ir tikimybes, pagrįstas sąlyginiais įvykiais. Šlamšto filtravimas, be abejo, yra duomenų gavybos forma, kuri automatiškai iškelia atitinkamus pranešimus į paviršių iš chaotiškos sukčiavimo bandymų ir „Viagra“ pranešimų jūros.
Sprendimų medžiai naudojami duomenų kalnams filtruoti. Sprendimų medyje visi duomenys praeina per įėjimo mazgą, kur jie susiduria su filtru, kuris atskiria duomenis į srautus, atsižvelgiant į jų charakteristikas. Pavyzdžiui, duomenys apie vartotojų elgesį greičiausiai bus filtruojami pagal demografinius veiksnius. Duomenų gavyba visų pirma nėra susijusi su išgalvotais grafikais ir vizualizavimo būdais, bet jais naudojamasi parodyti, ką rado. Yra žinoma, kad vizualiai galime įsisavinti daugiau statistinės informacijos nei žodžiu, ir šis pateikimo formatas gali būti labai įtikinamas ir galingas, jei naudojamas tinkamame kontekste.
Kadangi mūsų civilizacija tampa vis labiau prisotinta duomenų ir jutikliai yra masiškai paskirstomi mūsų vietinėje aplinkoje, mes netyčia atrasime dalykų, kuriuos galime praleisti pirmą kartą. Duomenų gavyba leis mums ištaisyti šias klaidas ir atrasti naujų įžvalgų, pagrįstų ankstesniais duomenimis, taip suteikdami mums daugiau pinigų už duomenų saugojimą.