Upptäck avvikare med normalfördelning

Innehållsförteckning:

Upptäck avvikare med normalfördelning
Upptäck avvikare med normalfördelning
Anonim

Detektering av avvikare genom normalfördelningen är en process som innebär att man definierar en standardavvikelsetröskel och som den är avsedd att hitta extrema värden för ett prov.

Med andra ord är det att hitta extrema värden för en datauppsättning genom den standardiserade normala formeln att upptäcka avvikare genom normalfördelningen.

  • Värdena ytterligheter kallas avvikare på engelska.
  • Värdena inre kallas insiders på engelska.

Visuellt upptäcka avvikare kan vara ett alternativ när du har väldigt lite data. När du arbetar med databaser är det väldigt opraktiskt att behöva hitta avvikelser manuellt. För att lösa detta problem kan vi beräkna vilka värden som anses extrema genom att jämföra med en tröskel för avvikelser.

För normalfördelningen anses ett värde vara extremt när det är 3 standardavvikelser från medelvärdet. Eftersom normalfördelningen har två svansar måste vi ta hänsyn till att den kan zoomas ut på både den negativa och den positiva sidan.

Formel för att upptäcka avvikare med normalfördelning

En uppsättning observationer kan uttryckas på föregående sätt, där x är medelvärdet över vilket värdena oscillerar och sigma dispersionen av oscillationen av nämnda värden. Med andra ord är sigma avståndet mellan observationerna och medelvärdet.

Multiplikationsfaktorn avgör om det är en outlier eller en insider. Om z tar värdena 3 eller -3 kommer observationen y enligt normalfördelningen att vara en outlier.

Att veta värdet av z vi använder den tidigare ekvationen:

  • Om z> = 3 eller z = <-3, kan vi enligt normalfördelningen säga det Y det är ett extremt värde eller outlier.
  • Om z <3 eller z <-3, kan vi, enligt normalfördelningen, säga det Y är ett internt värde eller insider.

Normal standard

Är ovanstående ekvation bekant?

Exakt är det uttrycket för en observation som följer en normalfördelning när den är standardiserad eller typiserad. Det kallas så för att när man delar med standard- eller standardavvikelsen uttrycks skillnaden mellan täljaren i termer av avvikelser.

Av denna anledning kan vi associera avvikelsevärden till z och därmed kunna köpa den med tröskeln på tre avvikelser.

Exempel

Hitta de extrema värdena för följande observationer enligt normalfördelningen:

Vi representerar observationerna i en graf:

Från början kan vi redan se att det värde som ligger längst ifrån resten sannolikt kan vara en outlier.

Först beräknar vi medelvärdet och standardavvikelsen:

x = medelvärde = 5,8

sigma = standardavvikelse = 10,51

Sedan ersätter vi värdena i formeln och beräknar värdet på z för varje observation:

Ovanstående värden är multiplikationsfaktorerna för sigma, det vill säga z. Allt som är större än 3 eller mindre än -3 kommer att vara ett extremt värde.

Vi kan se att värdet av z som överstiger 3 standardavvikelser är den som motsvarar observation 49.

Därför skulle det extrema eller avvikande värdet för datamängden vara 49.