Duomenų gavybos programinė įranga yra įrankis, naudojamas didelių duomenų rinkinių modeliams nustatyti. Ši kompiuterių programinės įrangos sritis per pastaruosius kelerius metus labai išsiplėtė, nes įmonės ieško būdų, kaip didelius informacijos kiekius paversti naudinga informacija priimant sprendimus. Gebėjimas aiškiai nustatyti priežastį ir pasekmes, žmogaus elgesio modelius, tendencijas ir kitus rodiklius yra esminis dalykas norint tinkamai valdyti bet kokį verslą. Duomenų gavybos programinės įrangos pranašumai yra aiškūs daugumai vartotojų, tačiau verslo bendruomenė menkai supranta, kaip gauti norimą informaciją ir kaip tiksliai veikia procesas.
Yra trys duomenų gavybos programinės įrangos aspektai, apibūdinantys procesą: neapdorotų duomenų konvertavimas, gavybos programavimo scenarijai ir interpretavimas. Šis procesas taip pat žinomas kaip žinių atradimas duomenų bazėse (KDD) ir naudojamas apibūdinti visus duomenų gavybos aspektus, įskaitant duomenų struktūrą, duomenų prieigos metodus ir sistemos architektūrą. Yra daugybė įmonių, siūlančių duomenų gavybos programinę įrangą, o norint sėkmingai ir tinkamai naudoti technologiją, labai svarbu gerai suprasti šio produkto idėjas.
Pirmasis reikalavimas naudojant bet kokią duomenų gavybos programinę įrangą yra neapdorotus duomenis konvertuoti į tikslinį duomenų rinkinį. Pavyzdžiui, neapdoroti duomenys yra visų pardavimų, apdorotų per platų laikotarpį, duomenų bazė. Tikslinis duomenų rinkinys turi tik tam tikrą kriterijų atitinkančius duomenis. Tai gali apimti operacijas, apdorotas per tam tikrą laikotarpį. Į duomenų rinkinio specifikacijas įtraukti atskiri įtraukti laukai. Tai gali apimti operacijos datą, mokėjimo būdą, parduotuvės vietą, produkto aprašymą ir įsigytų prekių skaičių.
Nustačius duomenų rinkinio specifikacijas, duomenys išvalomi, kad būtų pašalinta perteklinė informacija, triukšmas arba neišsamūs duomenų failai. Šiam procesui paprastai reikia naudoti programavimo įgūdžius, duomenų valdymo metodus ir bendrą pagrindinių duomenų sąvokų supratimą. Duomenų rinka arba duomenų saugykla yra labiausiai paplitęs įrankis, naudojamas duomenų lentelėms saugoti taip, kad ją būtų galima lengvai pasiekti duomenų gavybos programinės įrangos programa.
Tikrieji duomenų gavybos programavimo scenarijai gali būti pritaikyti arba programuotojai gali naudoti standartinius scenarijus, įtrauktus į duomenų gavybos programinės įrangos paketą. Didžioji dauguma duomenų gavybos programinės įrangos naudoja regresinę analizę, neaiškią logiką ir algoritmus, kad nustatytų konkrečius modelius, atitinkančius vartotojo specifikacijas. Rezultatų interpretacija reikalauja žmogaus įsikišimo, laiko ir statistikos įgūdžių, modelių atpažinimo ir susijusių matematinių įgūdžių. Svarbu atsiminti, kad programa gali grąžinti parinktis tik pagal vartotojo pateiktas specifikacijas. Blogai apibrėžtos specifikacijos ir žema duomenų kokybė turės neigiamos įtakos rezultatų pagrįstumui.