Kas yra koreliacijos klasterizavimas?

Koreliacijos klasterizavimas atliekamas duomenų bazėse ir kituose dideliuose duomenų šaltiniuose, siekiant sugrupuoti panašius duomenų rinkinius, taip pat įspėjant vartotoją apie skirtingus duomenų rinkinius. Kai kuriuose grafikuose tai galima padaryti puikiai, o kituose bus klaidų, nes bus sunku atskirti panašius duomenis nuo nepanašių. Pastarojo atveju koreliacijos klasterizavimas padės automatiškai sumažinti klaidas. Tai dažnai naudojama duomenų gavybai arba sudėtingų duomenų panašumų paieškai. Skirtingi duomenys paprastai ištrinami arba dedami į atskirą grupę.

Kai naudojama koreliacijos grupavimo funkcija, ji ieško duomenų pagal vartotojo nurodymus. Vartotojas pasakys programai, ko ieškoti ir, kai ji bus rasta, kur talpinti duomenis. Paprastai tai taikoma labai dideliems duomenų šaltiniams, kai neįmanoma (arba užtruks per daug valandų) ieškoti duomenų rankiniu būdu. Gali būti tobulas arba netobulas grupavimas.

Tobulas grupavimas yra idealus scenarijus. Tai reiškia, kad yra tik dviejų tipų duomenys, kurių vartotojas ieško, o kito nereikia. Visi teigiami arba reikalingi duomenys dedami į vieną klasterį, o kiti duomenys ištrinami arba perkeliami. Pagal šį scenarijų nėra painiavos ir viskas veikia puikiai.

Dauguma sudėtingų grafikų neleidžia tobulai klasterizuoti, o yra netobuli. Pavyzdžiui, grafikas turi tris kintamuosius: X, Y ir Z. X,Y panašus, X,Z panašus, bet Y,Z nepanašus. Tačiau trys kintamųjų klasteriai yra tokie panašūs, kad neįmanoma sukurti tobulos koreliacijos klasterizacijos. Programa sieks maksimaliai padidinti teigiamų koreliacijų skaičių, tačiau tam vis tiek reikės atlikti neautomatinę vartotojo paiešką.

Duomenų gavybos metu, ypač kai kalbama apie didelius duomenų rinkinius, koreliacijos klasterizavimas naudojamas panašiems duomenims sugrupuoti su panašiais duomenimis. Pavyzdžiui, jei įmonė renka duomenis didelės svetainės ar duomenų bazės ir nori sužinoti tik apie konkretų aspektą, prireiks amžinai ieškoti visų to aspekto duomenų. Naudojant klasterizacijos formulę, duomenys bus atidėti tinkamai analizei.

Skirtinga informacija tvarkoma remiantis tik vartotojo instrukcijomis. Vartotojas gali pasirinkti siųsti skirtingus duomenis į skirtingas grupes, nes informacija gali būti naudinga kitiems projektams. Jei duomenys nereikalingi ir tiesiog eikvoja atmintį, nepanaši informacija išmetama. Esant netobulam klasterizavimui, gali būti, kad nepanaši informacija nebus išmesta, nes ji labai panaši į duomenis, kurių ieško vartotojas.