Kolmogorov-test - Smirnoff (K-S)

Innehållsförteckning:

Kolmogorov-test - Smirnoff (K-S)
Kolmogorov-test - Smirnoff (K-S)
Anonim

Kolmogorov-Smirnoff (K-S) -testet är ett icke-parametriskt test som syftar till att avgöra om frekvensen för två olika datamängder följer samma fördelning kring deras medelvärde.

Kolmogorov-Smirnoff (K-S) -testet är med andra ord ett test som anpassar sig till formens data och används för att kontrollera om två olika prover följer samma fördelning.

Varför är det ett icke-parametriskt test?

Skönheten i den "icke-parametriska" egenskapen är att den passar data och följaktligen de distributioner som kan följa datafrekvensen. Dessutom sparar den här funktionen oss från att behöva anta a priori vilken fördelning följer provet.

Betydelsen av K-S-testet

Hur många gånger har vi fått två prover och beräknat Pearsons korrelationskoefficient utan att tänka två gånger? Med andra ord, om vi vill se det linjära förhållandet mellan två datamängder, skulle det vara rättvist att beräkna korrelationen, eller hur?

Detta avdrag skulle vara sant om fördelningarna av de två proverna följer en normalfördelning. Korrelationskoefficienten antar att fördelningarna är normala. Om vi ​​hoppar över detta antagande är resultatet av korrelationskoefficienten fel. För hypotesproven och konfidensintervallen antar vi också att populationen fördelas genom en normalfördelning.

Liksom alla hypotesprov som involverar statistik är det viktigt att ha en stor datamängd för att ha statistiskt signifikanta resultat. Vi kan felaktigt avvisa en nollhypotes eftersom provet är litet. Vidare är det också viktigt att detta urval har några extrema fall (avvikare, på engelska) för att ge enhetlighet till testresultatet.

Test procedur

Proceduren för nästa steg.

Hypotes

Det första steget blir att kontrollera om båda proverna har samma fördelning. För att göra detta utför vi ett hypotesprov förutsatt att båda proverna har samma fördelning mot den alternativa hypotesen att de är olika.

Statistisk

Vi arbetar med de kumulativa fördelningsfunktionerna för två prover, F1(x) och F2(x):

Ingen panik! Vi analyserar ovanstående formel lugnt:

  • Den viktiga delen av formeln är skillnadstecken (-). Vi letar efter vertikala skillnader i distributionerna. Så vi kommer att subtrahera båda kumulativa fördelningsfunktionerna.
  • De operatör "max". Vi är intresserade av att hitta den största eller maximala skillnaden för att se hur olika de två fördelningarna kan vara.
  • De absolutvärde. Vi använder det absoluta värdet så att operatörernas ordning inte ändrar resultatet. Med andra ord spelar det ingen roll vilken F (x) som har negativt tecken:

Kritiskt värde

För stora prover finns det en approximation till det kritiska värdet för K-S som beror på signifikansnivån (%):

Var1 och n2 är provstorleken för F-provet1(x) och F2(x) respektive.

Några beräknade kritiska värden:

Avvisningsregel

App

Mycket ofta vill vi testa om två distributioner skiljer sig tillräckligt mycket från varandra när vi vill skapa förutsägelsesscenarier (vi arbetar med två prover) eller när vi vill utvärdera vilken distribution som bäst passar data (vi arbetar med endast ett exempel).