Kas yra paprasta tiesinė regresija?

Paprasta tiesinė regresija taikoma statistikai ir padeda apibūdinti (x, y) duomenis, kurie, atrodo, turi tiesinį ryšį, leidžiantį numatyti y, jei x yra žinomas. Šie duomenys dažnai brėžiami taškinėse diagramose, o tiesinės regresijos formulė sukuria liniją, kuri geriausiai atitinka visus taškus, jei jie tikrai turi tiesinę koreliaciją. Jis netiks tiksliai visiems taškams, bet tai turėtų būti linija, kurioje skirtumo tarp faktinių ir laukiamų duomenų kvadratų suma (likučiai) sukuria mažiausią skaičių, kuris dažnai vadinamas mažiausių kvadratų linija arba geriausiai tinkantis. Imties duomenų ir populiacijos duomenų linijos lygtis yra tokia: y = b0 + b1x ir Y = B0 + B1x.

Kiekvienas, susipažinęs su algebra, gali pastebėti šios linijos panašumą į y = mx + b, o iš tikrųjų jos yra santykinai identiškos, išskyrus atvejus, kai dešinėje lygties pusėje esantys du terminai yra perjungti taip, kad B1 būtų lygus nuolydžiui arba m. Šio pertvarkymo priežastis yra ta, kad tuomet tampa elegantiškai lengva pridėti papildomų terminų su ypatybėmis, pvz., eksponentais, kurie gali apibūdinti skirtingas netiesines santykių formas.

Paprastos tiesinės regresijos tiesės formulės yra gana sudėtingos ir sudėtingos, todėl dauguma žmonių neskiria daug laiko jas užrašydami, nes jas užbaigti reikia ilgai. Vietoj to, įvairios programos, pvz., „Excel“ arba daugelio tipų moksliniai skaičiuotuvai, gali lengvai apskaičiuoti mažiausių kvadratų eilutę. Linija tinkama numatyti tik tuo atveju, jei yra aiškių įrodymų, kad tarp (x,y) duomenų rinkinių yra tvirta koreliacija. Skaičiuoklė sukurs eilutę, neatsižvelgiant į tai, ar prasminga ją naudoti.

Tuo pačiu metu sukuriama paprasta tiesinės regresijos linijos lygtis, žmonės turi žiūrėti į koreliacijos lygį. Tai reiškia, kad r, koreliacijos koeficientas, įvertinimas pagal verčių lentelę, siekiant nustatyti, ar egzistuoja tiesinė koreliacija. Be to, duomenų įvertinimas nubraižant juos kaip sklaidos diagramą yra geras būdas suprasti, ar duomenys turi tiesinį ryšį.

Tai, ką tada galima padaryti naudojant paprastą tiesinę regresijos liniją, jei ji turi tiesinę koreliaciją, yra tai, kad reikšmes galima pakeisti x, kad būtų gauta numatoma y reikšmė. Ši prognozė turi savo ribas. Pateikiami duomenys, ypač jei tai tik pavyzdys, dabar gali turėti tiesinę koreliaciją, bet vėliau gali nebūti pridėjus papildomos pavyzdžio medžiagos.

Arba visa imtis gali turėti bendrą koreliaciją, o visa populiacija – ne. Todėl numatymas yra ribotas, o tai, kas gerokai viršija turimas duomenų vertes, vadinama ekstrapoliacija ir nėra skatinama. Be to, jei žmonės turėtų žinoti, kad jei nėra tiesinės koreliacijos, geriausias x įvertis yra visų y duomenų vidurkis.

Iš esmės paprasta tiesinė regresija yra naudinga statistinė priemonė, kurią galima savo nuožiūra naudoti numatant y reikšmes pagal ax vertę. Beveik visada mokoma tiesinės koreliacijos idėja, nes norint nustatyti regresijos linijos naudingumą, reikia analizuoti r. Laimei, naudojant daugybę šiuolaikinių techninių programų, žmonės gali sudaryti sklaidos diagramas, pridėti regresijos linijas ir nustatyti koreliacijos koeficientą r su keliais įrašais.