Upptäck avvikare med normalfördelning

Detektering av avvikare genom normalfördelningen är en process som innebär att man definierar en standardavvikelsetröskel och som den är avsedd att hitta extrema värden för ett prov.

Med andra ord är det att hitta extrema värden för en datauppsättning genom den standardiserade normala formeln att upptäcka avvikare genom normalfördelningen.

  • Värdena ytterligheter kallas avvikare på engelska.
  • Värdena inre kallas insiders på engelska.

Visuellt upptäcka avvikare kan vara ett alternativ när du har väldigt lite data. När du arbetar med databaser är det väldigt opraktiskt att behöva hitta avvikelser manuellt. För att lösa detta problem kan vi beräkna vilka värden som anses extrema genom att jämföra med en tröskel för avvikelser.

För normalfördelningen anses ett värde vara extremt när det är 3 standardavvikelser från medelvärdet. Eftersom normalfördelningen har två svansar måste vi ta hänsyn till att den kan zoomas ut på både den negativa och den positiva sidan.

Formel för att upptäcka avvikare med normalfördelning

En uppsättning observationer kan uttryckas på föregående sätt, där x är medelvärdet över vilket värdena oscillerar och sigma dispersionen av oscillationen av nämnda värden. Med andra ord är sigma avståndet mellan observationerna och medelvärdet.

Multiplikationsfaktorn avgör om det är en outlier eller en insider. Om z tar värdena 3 eller -3 kommer observationen y enligt normalfördelningen att vara en outlier.

Att veta värdet av z vi använder den tidigare ekvationen:

  • Om z> = 3 eller z = <-3, kan vi enligt normalfördelningen säga det Y det är ett extremt värde eller outlier.
  • Om z <3 eller z <-3, kan vi, enligt normalfördelningen, säga det Y är ett internt värde eller insider.

Normal standard

Är ovanstående ekvation bekant?

Exakt är det uttrycket för en observation som följer en normalfördelning när den är standardiserad eller typiserad. Det kallas så för att när man delar med standard- eller standardavvikelsen uttrycks skillnaden mellan täljaren i termer av avvikelser.

Av denna anledning kan vi associera avvikelsevärden till z och därmed kunna köpa den med tröskeln på tre avvikelser.

Exempel

Hitta de extrema värdena för följande observationer enligt normalfördelningen:

Vi representerar observationerna i en graf:

Från början kan vi redan se att det värde som ligger längst ifrån resten sannolikt kan vara en outlier.

Först beräknar vi medelvärdet och standardavvikelsen:

x = medelvärde = 5,8

sigma = standardavvikelse = 10,51

Sedan ersätter vi värdena i formeln och beräknar värdet på z för varje observation:

Ovanstående värden är multiplikationsfaktorerna för sigma, det vill säga z. Allt som är större än 3 eller mindre än -3 kommer att vara ett extremt värde.

Vi kan se att värdet av z som överstiger 3 standardavvikelser är den som motsvarar observation 49.

Därför skulle det extrema eller avvikande värdet för datamängden vara 49.

Populära Inlägg

Geomarketing - Vad är det, definition och koncept

✅ Geomarknadsföring | Vad det är, mening, koncept och definition. En fullständig sammanfattning. Geomarketing består av att göra det möjligt att växa ett företag tack vare den exakta platsen för ...…

Det spanska pensionssystemet i ruiner

Är det spanska pensionssystemet i trassel? De ekonomiska nyheterna som har invaderat oss i denna fråga de senaste åren är tveksamma. Mycket information har spridits och från mycket olika positioner. Frågan om Toledopakten, strejker från pensionärer, en arbetsmarknad som långsamt återhämtar sig och läs mer…

BBVA Momentum hjälper 100 nya företagare

BBVA satsar ytterligare ett år på sociala entreprenörer och tillkännager den 7: e upplagan av BBVA Momentum, som kommer att hjälpa 100 projekt att bli livskraftiga.…

Kommer colombianskt kaffe avfyras från New York Stock Exchange?

Colombianskt kaffe, även känt som Arabigo-kaffe, är ett av de mest uppskattade i världen. Så viktigt har kaffe varit i den colombianska ekonomin att det under hela 1900-talet var dess främsta exportprodukt. Men kaffesektorn går inte igenom sina bästa ögonblick och i månadenLäs mer…