Dideli duomenys yra duomenų, kurie išaugo tokie dideli, kad įprastos duomenų bazės negali talpinti ir dirbti su didžiuliu informacijos kiekiu, matavimai. Duomenys būna trijų dydžių: maži, vidutiniai ir dideli; nė vienas iš šių matavimų nėra griežtas; vietoj to kiekvienas labiau priklauso nuo naudojimo paprastumo ir nuo to, kokio tipo aparatas gali apdoroti informaciją. Dideliems duomenims reikalingos specialios mašinos, daug didesnės ir sudėtingesnės nei naudojamos įprastoms duomenų bazėms. Tokio tipo duomenys paprastai randami vyriausybės ir mokslo agentūrose, tačiau kai kuriose labai didelėse svetainėse taip pat yra tiek daug informacijos.
Duomenys pateikiami trijų standartinių, bet ne griežtų dydžių. Maži duomenys gali tilpti į vieną kompiuterį ar įrenginį, pavyzdžiui, nešiojamąjį kompiuterį. Vidutiniai duomenys gali tilpti į disko masyvą ir geriausiai juos valdo duomenų bazė. Duomenų bazės, kad ir kokios didelės jos būtų, nepajėgios dirbti su dideliais duomenimis, o vietoj jų dažnai naudojamos specialios sistemos. Nors nėra griežtų nurodymų, kas yra dideli duomenys, jie paprastai prasideda maždaug terabaitų (TB) lygiu ir pakyla iki petabaitų (PB).
Bandymas dirbti su dideliais duomenimis duomenų bazėje, kuri nėra specializuota tokiam duomenų kiekiui, sukels keletą didelių problemų. Duomenų bazė nepajėgi apdoroti informacijos kiekio, todėl kai kurie duomenys turi būti ištrinti. Tai tarsi bandymas sutalpinti 100 gigabaitų (GB) kompiuteryje, kuriame yra tik 50 GB vietos standžiajame diske; to padaryti negalima. Likę duomenys bus nelengvi tiek valdyti, tiek tvarkyti, nes bet kokia funkcija užtruks ilgai, o duomenų bazė turi būti uždaryta naujiems pateikimams.
Nors galima ir toliau pirkti mašinas ir į duomenų bazes įtraukti naujų duomenų, tai sukuria sudėtingą problemą. Taip yra todėl, kad duomenų bazės programinė įranga skirta dirbti tik su vidutiniais duomenimis. Didesni duomenų rinkiniai sukelia klaidų ir administracinių problemų, nes programinė įranga tiesiog negali perkelti ar dirbti su dideliais duomenimis, nesukeldama problemų.
Daugelis organizacijų ar svetainių nesusiduria su dideliais duomenimis. Gynybos ir karinės agentūros naudoja tokį informacijos kiekį modeliams kurti ir bandymų rezultatams saugoti, o daugeliui didelių mokslo agentūrų šių specializuotų mašinų reikia dėl panašių priežasčių. Kai kurioms labai didelėms svetainėms reikia didelių duomenų mašinų, tačiau svetainės nėra tokios paplitusios kaip agentūros šioje rinkoje. Šios organizacijos turi saugoti visus savo duomenis, nes tai padeda geriau analizuoti būsimus duomenis ir daryti prognozes.