Klusteranalys - Vad är det, definition och koncept

Klusteranalys är en uppsättning multivariata statistiska tekniker som syftar till att gruppera en uppsättning fall eller individer i kluster eller kluster.

Klusteranalys är därför en typ av statistisk gruppering. Målet är att göra uppgif.webpterna i varje kluster så lika varandra som möjligt och så olika som möjligt i förhållande till de andra grupperna. Det kan också göras med variabler.

Datatransformation i klusteranalys

Ett av problemen vi stöter på när vi grupperar data är att data ibland finns i olika måttenheter. Av denna anledning måste ett förklusteranalyssteg utföras som tillåter klustring.

Den vanligaste metoden är standardisering. Detta används för att omvandla data så att de har liknande måttenheter. Två regler måste beaktas, binära variabler är inte standardiserade och, om de är kategoriska, blir de binära (närvaro / frånvaro).

Metoder i klusteranalys

Det finns många metoder för att utföra klusteranalysen, men i Economy-Wiki.com kommer vi, enligt principen om enkelhet som kännetecknar oss, att se det mest relevanta på ett schematiskt sätt.

Hierarkiska metoder

En första klassificering skulle vara hierarkiska eller icke-hierarkiska metoder. Den tidigare gruppen individer i hierarkiska faser (därav deras namn). På detta sätt ändrar bara ett objekt grupp åt gången, resten återstår på samma plats.

Dessa klassificeras i sin tur i:

Agglomerativa metoder

Den består av att gruppera individer i mindre kluster varje gång. Den börjar från ett antal grupper som är lika med antalet fall och minskar.

De mest kända är:

  • Närmaste grannmetod: I det här fallet använder du en algoritm för att gruppera data. Vad du letar efter är det minsta avståndet mellan de närmaste individerna. Det är mycket känsligt för data som kan orsaka så kallat "buller". Den längsta grannmetoden är liknande.
  • Genomsnittsmetod mellan grupper: Vad det gör är att beräkna medelvärdet av avståndet mellan individerna i en grupp och särskilt en av dem. Det är mycket användbart att minska det så kallade "bullret".
  • Ward's metod: Vad det gör är att lägga till kvadraterna för avvikelserna mellan varje individ och medelvärdet för hans kluster, för att undvika förlust av information. Det är en av de mest kända och har fördelarna med metoden baserat på medelvärdet, men större diskrimineringsförmåga.

Dissociativa metoder

I det här fallet är det du gör att dela upp. Det börjar med ett enda kluster och divisioner föreslås baserat på en serie krav.

De vanligaste är:

  • Mellan gruppmedeltal, närmaste granne och längst grannmetod: Dessa tre metoder liknar föregående fall, men använder den dissociativa metoden. Det vill säga den här gången är vad vi gör separata och inte grupperade.
  • Centroid-metoden: Det används ofta i optimeringsproblem för anläggningsplatser. Använd denna typ av analys för att hitta de lämpligaste.

Icke-hierarkiska metoder

I det här fallet börjar de med en förinställd lösning. Detta är utgångspunkten för klusteranalys. På detta sätt etableras grupperna i förväg och varje fall kommer att placeras i en av dem, beroende på dess egenskaper. I sin tur kan vi dela upp dem i andra undergrupper.

  • Omfördelningsmetoder: De mest relevanta är centroidmetoderna, till exempel k-medel. De för medioider, som PAM. Eller dynamiska moln.
  • Direkta metoder: Det viktigaste är blockkluster, som ofta används i data mining.
  • Reduktiva metoder: Dessa är baserade på faktoranalys.
  • Metoder för densitetssökning: Å ena sidan skulle det finnas typologiska tillvägagångssätt, såsom modal analys. Å andra sidan har vi de probabilistiska, som Wolf.

Exempel på klusteranalys

Låt oss äntligen se några exempel på klusteranalysapplikationer.

  • Låt oss föreställa oss att vi har en grupp länder som vi vill gruppera baserat på vissa makroekonomiska variabler, såsom inflation eller arbetslöshet. Vi kan använda denna typ av analys för att skapa homogena grupper, till exempel mer eller mindre utvecklade länder.
  • Ett annat exempel kan vara en serie konsumenter med vissa sociodemografiska egenskaper. Tanken är att skapa grupper med liknande individer och som i sin tur skiljer sig mycket från varandra.
  • Men förutom ekonomi är klusteranalys användbar inom andra vetenskaper. Till exempel i biologi, för att klassificera arter, eller i geologi, för att göra detsamma med mineraler.

Du kommer att bidra till utvecklingen av webbplatsen, dela sidan med dina vänner

wave wave wave wave wave