Bestämningskoefficient (R i kvadrat)

Innehållsförteckning:

Bestämningskoefficient (R i kvadrat)
Bestämningskoefficient (R i kvadrat)
Anonim

Bestämningskoefficienten är andelen av den totala variansen för variabeln förklarad av regressionen. Bestämningskoefficienten, även kallad R kvadrat, återspeglar en modells passform till den variabel som den tänker förklara.

Det är viktigt att veta att resultatet av bestämningskoefficienten svänger mellan 0 och 1. Ju närmare dess värde är 1, desto större passar modellen på variabeln som vi försöker förklara. Omvänt, ju närmare noll desto mindre stram kommer modellen att vara och därför mindre tillförlitlig.

I föregående uttryck har vi en bråkdel. Så, låt oss gå genom delar. Först analyserar vi täljaren, det vill säga den övre delen.

För dem som inte känner till variansuttryck rekommenderar jag att du läser artikeln om det. För de som vet det, inser de kanske att det är uttrycket för variansen, men med två grundläggande skillnader.

Den första skillnaden är att Y har en omkrets eller vad lärare didaktiskt kallar en "hatt". Vad den hatten beskriver är att Y är uppskattningen av en modell av vad enligt de förklarande variablerna är värt Y, men det är inte det verkliga värdet av Y, utan en uppskattning av Y.

För det andra skulle det vara nödvändigt att dela med T. Som i andra fall noteras som N eller antal observationer. Eftersom nämnarens formel också skulle bära den tar vi bort nämnarna (botten) från båda formlerna för att förenkla uttrycket. På så sätt är det lättare att arbeta med det.

Därefter ska vi utföra samma analys med nämnarens del (nedre delen).

I det här fallet är den enda skillnaden från den ursprungliga variansformeln frånvaron av dess nämnare. Det vill säga, vi delar inte med T eller N. På detta sätt, när de två delarna av det generiska uttrycket för R-kvadraten eller bestämningskoefficienten har förklarats, kommer vi att se ett exempel.

VariationskoefficientLinjär korrelationskoefficientRegressionsanalys

Tolkning av bestämningskoefficienten

Anta att vi vill förklara antalet mål Cristiano Ronaldo gör baserat på antalet spel han spelar. Vi antar att ju fler matcher som spelas desto fler mål gör han. Uppgif.webpterna avser de senaste åtta säsongerna. Efter extrahering av data ger modellen således följande uppskattning:

Som vi kan se i diagrammet är förhållandet positivt. Ju fler matcher som spelas, ju fler mål gör han under säsongen. Passformen, baserat på R-kvadratberäkningen, är 0,835. Det betyder att det är en modell vars uppskattningar passar den verkliga variabeln ganska bra. Även om det tekniskt sett inte skulle vara korrekt kan vi säga något liknande att modellen förklarar 83,5% av den verkliga variabeln.

Koefficienten för bestämningsproblem

Problemet med bestämningskoefficienten och anledningen till att den justerade bestämningskoefficienten uppstår är att den inte straffar införandet av icke-signifikanta förklarande variabler. Det vill säga om fem förklarande variabler läggs till i modellen som inte har något förhållande till de mål som Cristiano Ronaldo gör under en säsong, kommer R-kvadraten att öka. Det är därför många ekonometriska, statistiker och matematiska experter motsätter sig användningen av R i kvadrat som ett representativt mått på godheten hos den verkliga passformen.

Den justerade bestämningskoefficienten

Den justerade bestämningskoefficienten (justerad R kvadrat) är det mått som definierar procentandelen förklarad av variansen för regressionen i förhållande till variansen för den förklarade variabeln. Det vill säga samma som R i kvadrat, men med en skillnad: Den justerade bestämningskoefficienten straffar införandet av variabler.

Som vi har sagt tidigare ökar bestämningskoefficienten för en modell även om variablerna som vi inkluderar inte är relevanta. Eftersom detta är ett problem, för att försöka lösa det, är den justerade R-kvadraten sådan att:

I formeln är N provstorleken och k är antalet förklarande variabler. Med matematiskt avdrag, ju högre värden på k, desto längre kommer den justerade R-kvadraten från den normala R-kvadraten. Omvänt, vid lägre värden på k, ju närmare den centrala fraktionen kommer att vara 1 och därför kommer den justerade R-kvadraten och den normala R-kvadraten att vara mer lika.

Med tanke på att k är antalet förklarande variabler drar vi slutsatsen att detta inte kan vara noll. Om det var noll, skulle det inte finnas någon modell. Vi måste åtminstone förklara en variabel i termer av en annan variabel. Eftersom k måste vara minst 1 kan inte den justerade R-kvadraten och den normala R-kvadraten ha samma värde. Dessutom kommer den justerade R-kvadraten alltid att vara mindre än den normala R-kvadraten.