Statistinė klasifikacija – tai duomenų skirstymas į reikšmingas analizei skirtas kategorijas. Galima taikyti statistines formules duomenims, kad tai būtų atlikta automatiškai, o tai leidžia apdoroti didelius duomenis ruošiantis analizei. Yra keletas standartizuotų sistemų, skirtų įprastiems duomenims, pvz., medicininių vaizdų tyrimų rezultatams. Tai leidžia keliems objektams įvertinti duomenis taikant tą pačią metriką, kad jie galėtų lengvai palyginti ir keistis informacija.
Tyrėjai ir kitos šalys renka duomenis, todėl jos gali priskirti juos laisvoms kategorijoms remdamosi panašiomis savybėmis. Jie taip pat gali sukurti formules, pagal kurias būtų klasifikuojami jų gaunami duomenys, automatiškai suskirstydami juos į konkrečias statistines klasifikacijas. Rinkdami informaciją tyrėjai gali nelabai daug žinoti apie savo duomenis, todėl sunku juos klasifikuoti. Formulės gali nustatyti svarbias funkcijas, kurios gali būti naudojamos kaip galimi kategorijų identifikatoriai.
Duomenims apdoroti reikalinga statistinė klasifikacija, kad būtų galima atskirti įvairių rūšių informaciją analizei ir palyginimui. Pavyzdžiui, surašymo metu darbuotojai turėtų turėti galimybę ištirti kelis parametrus, kad galėtų prasmingai įvertinti jų renkamus duomenis. Naudojant deklaracijas surašymo formose, statistinio klasifikavimo algoritmas gali atskirti skirtingus namų ūkių ir asmenų tipus pagal informaciją, pvz., amžių, namų ūkio konfigūraciją, vidutines pajamas ir kt.
Kad statistinė analizė veiktų, surinkti duomenys turi būti kiekybinio pobūdžio. Kokybinė informacija gali būti pernelyg subjektyvi. Dėl to tyrėjai turi kruopščiai kurti duomenų rinkimo metodus, kad gautų informaciją, kurią iš tikrųjų galėtų panaudoti. Pavyzdžiui, klinikinio tyrimo metu stebėtojai, pildantys formas per tolesnius tyrimus, gali naudoti balų skyrimo rubriką, kad įvertintų paciento sveikatą. Vietoj kokybinio įvertinimo, pavyzdžiui, „pacientas gerai atrodo“, tyrėjas skalėje galėtų priskirti septynis balus, kuriuos formulė galėtų naudoti duomenims apdoroti.
Statistikai naudoja įvairius statistinio klasifikavimo metodus ir atitinkamų formulių kūrimą savo duomenims apdoroti. Klaidos šiame duomenų analizės etape gali būti papildytos vėlesniais tyrimais ir analize. Svarbu pagalvoti apie duomenų rinkinio pobūdį, informaciją, kurią žmonės nori iš jo ištraukti, ir kaip medžiaga bus naudojama. Oficialiuose darbuose tyrėjai turi aptarti pasirinktą statistinę klasifikavimo sistemą, o daugelis taip pat pateikia neapdorotus duomenis, kad recenzentai galėtų patys pažvelgti į informaciją ir nustatyti tyrimo metu padarytų išvadų pagrįstumą.