Outlier - Vad är det, definition och koncept

Innehållsförteckning:

Outlier - Vad är det, definition och koncept
Outlier - Vad är det, definition och koncept
Anonim

En outlier är en onormal och extrem observation i ett statistiskt urval eller en tidsserie av data som potentiellt kan påverka uppskattningen av dess parametrar.

Med enklare ord skulle en outlier vara en observation i ett urval eller en tidsserie med data som inte överensstämmer med resten. Tänk dig till exempel att vi mäter elevernas höjd i en klass.

Låt oss föreställa oss ett urval av tio studenter. Varje höjd är följande:

Prov 1
StuderandeHöjd i meter
11,65
21,80
31,72
41,68
51,75
61,85
71,62
81,79
91,82
101,69

Klassens genomsnittliga höjd skulle vara 1,73. Om vi ​​tar hänsyn till den maximala höjden (1,85) och den minsta höjden (1,62) och avståndet mellan dem till medelvärdet, ser vi att det är 0,113 respektive 0,117. Som vi kan se är medelvärdet ungefär mitt i intervallet och kan betraktas som en ganska bra uppskattning.

Outlier-effekten

Låt oss nu tänka på ett annat urval av tio studenter, deras höjder är följande:

Prov 1
StuderandeHöjd i meter
11,65
21,80
31,72
41,68
52,18
62,20
71,62
81,79
91,75
101,69

I det här fallet skulle klassens genomsnittliga höjd vara 1,81. Om vi ​​nu tittar på maximal höjd (2,20) och minimihöjd (1,62) och avståndet mellan dem till medelvärdet, ser vi att det är 0,39 respektive 0,18. I detta fall är medelvärdet inte längre ungefär i mitten av intervallet.

Effekten av de två mest extrema observationerna (2.18 och 2.20) har orsakat att det aritmetiska medelvärdet har skiftat mot det maximala värdet av fördelningen.

Med detta exempel ser vi effekten som avvikelser har och hur de kan snedvrida beräkningen av ett genomsnitt.

Hur upptäcker jag outliers?

Hur man korrigerar effekten av avvikare

I situationer som denna där det finns onormala värden som skiljer sig väsentligt från resten är medianen en bättre uppskattning för att veta vid vilken tidpunkt ett större antal observationer koncentreras.

När det gäller båda fördelningarna och eftersom vi har ett jämnt antal värden kan vi inte ta exakt det värde som halverar fördelningen för att beräkna medianen. Med vilken vi efter att ha beställt värdena från lägsta till högsta skulle vi ta den femte och sjätte observationen (båda lämnar fyra observationer på varje sida) och vi beräknar medianen enligt följande:

Prov 1:

1,75+1,72/2 = 1,73

Prov 2:

1,79+1,71/2 = 1,75

Som vi kan se, i prov nummer 1, med tanke på att det inte finns några outliers eller onormala observationer, är medianen 1,73 och sammanfaller med medelvärdet. Tvärtom, för prov 2 är medelvärdet 1,75. Som vi kan se ligger detta värde längre bort från medelhöjden, som var 1,81 och ger oss en högre kvalitetspoänguppskattning för att veta ungefär vid vilken tidpunkt ett större antal observationer koncentreras.

Punktuppskattning