Dummyvariabel - Vad är det, definition och koncept

Innehållsförteckning:

Dummyvariabel - Vad är det, definition och koncept
Dummyvariabel - Vad är det, definition och koncept
Anonim

En dummyvariabel är en variabel som används för att förklara kvalitativa värden i en regressionsmodell.

Regressionsmodeller försöker förklara en variabel i termer av andra. Till exempel en persons lön baserat på deras ålder, utbildning och erfarenhet. Dessa variabler kan kvantifieras. En persons ålder, utbildning och erfarenhet kan kvantifieras i antal år. Men vad händer när vi har variabler som inte kan kvantifieras? Till exempel hårfärg, land där du bor eller kön. Lösningen på detta problem finns i dummyvariablerna. De är variabler som vanligtvis tar binära värden. Det vill säga värde noll eller ett.

Till exempel är det variabla könet, vi har sagt, en kvalitativ variabel. För att inkludera den i en regressionsmodell måste du skapa en dummyvariabel. Vi kommer att kalla variabeln "kvinna" så att:

Kvinna = 1 (om individen är kvinna)

Kvinna = 0 (om individen inte är kvinna, det vill säga han är en man)

I detta fall betraktas "man" som en referenskategori eller basgrupp.

Det finns två typer av dummyvariabler. Å ena sidan finns additiva dummyvariabler och å andra sidan finns de multiplicerande dummyvariablerna.

Regressionsanalys

Additiv dummyvariabel

En additiv dummyvariabel samlar en fast förändring. Denna förändring påverkar endast ekvationens konstanta term. Till exempel en modell som syftar till att förklara löner baserat på kön och år av utbildning. Vi kan sätta ekvationen som en referens till män (andra ekvationen) eller ta som en referens till kvinnor (första ekvationen):

Den grafiska representationen av ekvationerna skulle vara: Om män har högre löner och tar en additiv dummyvariabel, skulle modellen representeras som föregående bild.

I ditt fall, om kvinnor hade högre löner än män, med en additiv dummyvariabel, skulle modellen representeras grafiskt som den föregående bilden.

Den kvantitativa skillnaden mellan den blå linjen (män) och den orange linjen (kvinnor) kommer att vara lika med värdet på variabeln «Kvinnor"eller"Män»Enligt vald modell. I det här fallet beror löneskillnaden inte på studienivån för additivdummyvariablerna. Med andra ord beror löneskillnaden enbart och uteslutande på kön.

Multiplikativ dummyvariabel

En multiplikerande dummyvariabel fångar en förändring i ekvationernas lutning för män och kvinnor. Fortsatt med föregående exempel har vi:

Grafiskt sett skulle en möjlig representation vara:

I det här fallet skulle modellen berätta två saker. Först och främst är kvinnornas löner lägre än mäns. Och för det andra att ytterligare ett år med utbildning betalar bättre för män än kvinnor. Vi vet detta eftersom lutningen på den blå linjen (män) är större än lutningen på den orange linjen (kvinnor).

Om ytterligare ett år av utbildning betalades bättre till kvinnor, skulle lutningen på den orange linjen (kvinnor) vara större. Och den blå linjen (män) skulle ligga under.

Statistisk variabel