Upptäck avvikare med normalfördelning

Detektering av avvikare genom normalfördelningen är en process som innebär att man definierar en standardavvikelsetröskel och som den är avsedd att hitta extrema värden för ett prov.

Med andra ord är det att hitta extrema värden för en datauppsättning genom den standardiserade normala formeln att upptäcka avvikare genom normalfördelningen.

  • Värdena ytterligheter kallas avvikare på engelska.
  • Värdena inre kallas insiders på engelska.

Visuellt upptäcka avvikare kan vara ett alternativ när du har väldigt lite data. När du arbetar med databaser är det väldigt opraktiskt att behöva hitta avvikelser manuellt. För att lösa detta problem kan vi beräkna vilka värden som anses extrema genom att jämföra med en tröskel för avvikelser.

För normalfördelningen anses ett värde vara extremt när det är 3 standardavvikelser från medelvärdet. Eftersom normalfördelningen har två svansar måste vi ta hänsyn till att den kan zoomas ut på både den negativa och den positiva sidan.

Formel för att upptäcka avvikare med normalfördelning

En uppsättning observationer kan uttryckas på föregående sätt, där x är medelvärdet över vilket värdena oscillerar och sigma dispersionen av oscillationen av nämnda värden. Med andra ord är sigma avståndet mellan observationerna och medelvärdet.

Multiplikationsfaktorn avgör om det är en outlier eller en insider. Om z tar värdena 3 eller -3 kommer observationen y enligt normalfördelningen att vara en outlier.

Att veta värdet av z vi använder den tidigare ekvationen:

  • Om z> = 3 eller z = <-3, kan vi enligt normalfördelningen säga det Y det är ett extremt värde eller outlier.
  • Om z <3 eller z <-3, kan vi, enligt normalfördelningen, säga det Y är ett internt värde eller insider.

Normal standard

Är ovanstående ekvation bekant?

Exakt är det uttrycket för en observation som följer en normalfördelning när den är standardiserad eller typiserad. Det kallas så för att när man delar med standard- eller standardavvikelsen uttrycks skillnaden mellan täljaren i termer av avvikelser.

Av denna anledning kan vi associera avvikelsevärden till z och därmed kunna köpa den med tröskeln på tre avvikelser.

Exempel

Hitta de extrema värdena för följande observationer enligt normalfördelningen:

Vi representerar observationerna i en graf:

Från början kan vi redan se att det värde som ligger längst ifrån resten sannolikt kan vara en outlier.

Först beräknar vi medelvärdet och standardavvikelsen:

x = medelvärde = 5,8

sigma = standardavvikelse = 10,51

Sedan ersätter vi värdena i formeln och beräknar värdet på z för varje observation:

Ovanstående värden är multiplikationsfaktorerna för sigma, det vill säga z. Allt som är större än 3 eller mindre än -3 kommer att vara ett extremt värde.

Vi kan se att värdet av z som överstiger 3 standardavvikelser är den som motsvarar observation 49.

Därför skulle det extrema eller avvikande värdet för datamängden vara 49.

Populära Inlägg

Resa i europeiska aktier?

Aktieutvecklingen har varit föremål för hög volatilitet under den senaste halvanden månad. Låt oss göra en analys av vad som hände och tänka på vart pengarna går 2015. I Grekland släppte valet av Alexis Tsipras radikala parti och hans valprogram nervösa för alla Läs mer…

Cheryl

För några veckor sedan på ett matematik-OS för barn i Singapore föreslog de ett mattepussel, tror du att du också kan lösa det?…

Negativa räntor orsakar flygning i fast inkomst

Med en inflation på -0,7% (enligt INE) måste vi vänja oss vid att se negativ avkastning på ränte- och valutamarknaden en tid, åtminstone fram till september 2016. Jag säger detta, eftersom Europeiska centralbanken har skyldigheten att gör allt för att få tillbaka hastigheter nära 2% för hela Läs mer…