Kas yra struktūrų kasyba?

Struktūrų gavyba – tai duomenų gavybos rūšis, kai nuskaitomas pusiau struktūrinis duomenų šaltinis, atrandami ir išryškinami jo struktūros elementai. Pusiau struktūrizuotas duomenų šaltinis yra tas, kuriame nenaudojama tradicinė lentelių duomenų bazės struktūra, bet yra semantinis elementas, atskiriantis informaciją žymomis ir žymekliais. Struktūrų gavyba gali būti naudojama duomenų bazėms, svetainėms ir daugeliui kitų kompiuterinės informacijos formų, siekiant atrasti struktūros elementus. Tai padeda vartotojams suprasti, kaip dalys sąveikauja viena su kita, arba kaip rasti informaciją pagal tam tikras žymas. Šis kasimas taip pat gali būti naudojamas nuspėti, kas yra elementas, remiantis vartotojo parašytomis taisyklėmis.

Yra daug skirtingų duomenų gavybos tipų, ir dauguma jų yra susiję su tradicinės struktūros šaltinio gavyba. Tai apima bet kokį šaltinį, kuriame naudojamos daugumai duomenų bazių būdingos lentelės ir mazgai. Struktūrų gavyboje naudojami tik pusiau struktūriniai duomenys. Šiuo atveju duomenys yra iš svetainių arba paprastų duomenų bazių, kurių struktūra neatitinka tradicinių duomenų bazės taisyklių. Duomenims reikia žymų arba žymeklių, išskiriančių kiekvieną elementą, kad būtų galima tinkamai išgauti.

Skaitydami pusiau struktūrinį duomenų rinkinį, struktūros gavyba gali atrasti, kaip struktūra sąveikauja. Pavyzdžiui, kiekviena svetainė turi naršymo modelį, ir būtent šis modelis nustato, kaip puslapiai sąveikauja. Išmindamas struktūrą vartotojas gali sužinoti, kaip veikia ši navigacija, o tai gali padėti sukurti panašią naršymo schemą.

Struktūrų gavyba taip pat gali būti naudojama norint rasti elementus, įrašant taisykles į kasybos programą. Pavyzdžiui, jei yra knygų duomenų rinkinys, vartotojas gali parašyti taisyklę, kad visos knygos be rodyklės turi būti grąžintos kaip grožinė literatūra, o tos, kurios turi rodyklę – kaip negrožinė literatūra. Daugumoje grožinės literatūros knygų trūksta rodyklės, todėl ši taisyklė labai tiksliai nuspės, kokie yra duomenys. Tai padeda vartotojams, kai žiūri į pusiau struktūrinį rinkinį, kurio organizacinis metodas neatitinka to, ko vartotojas ieško.

Išsiaiškinęs pusiau struktūrinio vieneto struktūrą, vartotojas paprastai lygina jį su kitu pusiau struktūriniu vienetu. Jei vartotojas turi verslo svetainę, jis arba ji gali išgauti kitą verslo svetainę, kad būtų galima naršyti ir pateikti nuorodas, ir pamatyti, kaip panaši jo svetainė. Palyginus išgaunamą informaciją, vartotojas gali rasti būdų, kaip padidinti konstrukcijos efektyvumą.