Interneto gavyba yra informacijos rinkimo forma, taikoma duomenims, surinktiems iš internetinių šaltinių. Duomenų rinkimas iš šaltinių visame internete leidžia vartotojams kaupti didelius informacijos kiekius analizei, kad galėtų priimti pagrindinius verslo sprendimus internetinėje aplinkoje. Pavyzdžiui, tyrėjas gali naudoti žiniatinklio kasybą, kad rinktų informaciją apie konkrečių raktinių žodžių naudojimą žiniatinklio turinyje. Arba mažmenininkai ir kiti rinkodaros specialistai naudoja internetinį duomenų gavybą, kad nustatytų žiniatinklio srauto tendencijas, svetainės lankytojų pavertimą pirkėjais ir kitą žiniatinklio naudojimą.
Duomenų rinkimo, rūšiavimo ir analizės požiūriu žiniatinklio gavyba imituoja tradicinę duomenų gavybos veiklą. Palyginti, žiniatinklio gavybos veikla sutelkta į žiniatinklio informaciją, o ne į didelį informacijos šaltinių, pvz., neprisijungus naudojamų kompiuterių duomenų bazių, klientų įrašų ar popierinių kopijų apskaitos duomenų, skerspjūvį, kaip paprastai atsitinka naudojant tradicinę duomenų gavybą. Dėmesys tik duomenų rinkimui iš internetinių šaltinių suteikia tikslinę analizę, reikalingą internetinės rinkodaros strategijoms, svetainės struktūros sprendimams ir panašiems su elektronine prekyba susijusiems sprendimams priimti. Duomenų rinkimas naudojant žiniatinklio gavybą taip pat suteikia papildomos naudos iš plačios tarptautinės demografijos, nes tyrėjams ir informacijos rinkėjams prieinamos svetainės iš viso pasaulio.
Profesionaliai žiniatinklio gavyba skirstoma į tris konkrečias kategorijas: žiniatinklio struktūros gavyba, naudojimo gavyba ir žiniatinklio turinio gavyba. Kiekvienoje srityje dėmesys sutelkiamas į konkrečią informaciją, tokią kaip konkrečios svetainės struktūra ir hipersaitai, serverio žurnalo informacija apie lankytojų naudojimą ir konkretus internete pasiekiamas turinys. Svetainių analizės programinės įrangos paketai ir paslaugos yra puikus žiniatinklio naudojimo atrankos pavyzdys, teikiantis žiniatinklio valdytojams informaciją apie lankytojų srautą, naudotus paieškos rezultatus, spustelėtas nuorodas ir laiką, praleistą sąveikaujant su konkrečiais puslapiais. Kita vertus, struktūrų gavyba suteikia išsamią informaciją apie konkrečios svetainės vidinę struktūrą, įskaitant hipersaitus, duomenų bazes ir užklausų funkcijas.
Rinkodaros profesionalui žiniatinklio kasyba siūlo daugybę naudojimo būdų, palyginti su rinkodaros veikla. Žinojimas, kaip svetainės lankytojai naudojasi tam tikra svetaine, kaip konkurentai sukuria konkuruojančią svetainę ir koks turinys jau yra internete, yra vertinga informacija. Tokia informacija padeda pagrindiniams sprendimų priėmėjams sukurti rinkodaros strategiją, pagrįstą anksčiau patikrintais metodais ir dokumentuota informacija.
Kolegijos ir universitetai taip pat naudoja žiniatinklio kasybą naudodami programinę įrangą, kuri patikrina, ar studentų darbai yra unikalūs ir nėra nuplagijuoti. Naudojant žiniatinklio turinio gavybos principus, tokie klasifikavimo pagalbininkai panašaus turinio ieško visame internete. Dėstytojai įkelia studento dokumento tekstą ir nurodo plagijavimo programinei įrangai patikrinti, ar internete nėra panašių frazių arba nukopijuoto teksto. Rezultatai dažnai išreiškiami atitinkančio teksto procentais. Pateikiamos nuorodos į bet kokius panašius rezultatus, kad instruktoriai galėtų apsilankyti svetainėse ir nustatyti, ar rungtynės iš tikrųjų yra nuplagijuotos.