Von WIKTORIA KORYGA (Predictive Solutions)

Kurtosis und Schiefe sind Asymmetriemaße, die Eigenschaften wie die Form und Asymmetrie der analysierten Verteilung beschreiben. Sie geben Auskunft darüber, wie die Werte der Variablen im Vergleich zum Mittelwert abweichen.

MASSE FÜR DIE ASYMMETRIE UND KONZENTRATION DER VERTEILUNG EINER VARIABLEN

Kurtosis und Schiefe sind Asymmetriemaße, die Eigenschaften wie die Form und Asymmetrie der analysierten Verteilung beschreiben. Sie geben Auskunft darüber, wie die Werte der Variablen im Vergleich zum Mittelwert abweichen. So ermöglichen sie die Beantwortung der Frage, ob der Mittelwert in der Mitte der Verteilung (und damit nahe am Median) liegt, wie die einzelnen Beobachtungen um diesen Mittelwert gestreut sind und wie extrem die abweichenden Beobachtungen sind.

WAS IST DIE SCHIEFE UND WAS SAGT SIE UNS?

Die Schiefe ist eine Statistik, die es ermöglicht, die Verteilung der analysierten Variablen mit einer hypothetischen Normalverteilung zu vergleichen. Sie zeigt die Diskrepanz zwischen dem Mittelwert und dem Zentrum einer gegebenen Verteilung an. Der Mittelwert wiederum zeichnet sich bekanntlich dadurch aus, dass er bei Vorhandensein von Extremwerten nicht sehr robust ist. Wenn wir also bei der Analyse der Verteilung einer bestimmten Variablen das Vorhandensein ungewöhnlich kleiner oder großer Werte feststellen, können wir daraus schließen, dass der Mittelwert durch diese Extremwerte nach rechts oder links „gezogen“ wurde. In einer Situation mit ungewöhnlich kleinen Werten wird der Durchschnitt beispielsweise nach links „gezogen“. In einem Diagramm sieht man einen verlängerten linken Schwanz der Verteilung oder das Auftreten einer linksschiefen Verteilung.

WIE MAN DEN KOEFFIZIENTEN DER SCHIEFE INTERPRETIERT (ASYMMETRY)?

Der Schiefekoeffizient As kann negative Werte annehmen, gleich Null sein oder positive Werte annehmen. Je nach Wert des Koeffizienten kann er wie folgt interpretiert werden:

1. As < 0 – Linke Schiefe

  • Mo > Me >
  • verlängerter linker Rand der Verteilung

2. As = 0 – Symmetrische Verteilung

  • Mo = Me =
3. As > 0 – Rechte Schiefe
  • Mo < Me <
  • verlängerter rechter Rand der Verteilung
Mo – mode (Modus) Me – median (Median) – mean (Mittelwert)

Abbildung 1. Arten von Verteilungen nach dem Wert des Schiefekoeffizienten

WAS IST KURTOSIS UND WAS SAGT SIE AUS?

Wir verwenden die Kurtosis auch, um die Verteilung der analysierten Variablen mit einer hypothetischen Normalverteilung zu vergleichen, bei der die Streuung der Beobachtungen um den Mittelwert relativ gleichmäßig ist und es keine extremen Ausreißer gibt. Je nach dem Wert der Kurtosis kann die gezeichnete Verteilung einen „dickeren“ oder „dünneren“ Rand haben, der durch die Intensität der Extremwerte beeinflusst wird.

Anhand seines Wertes können wir drei Arten von Verteilungen unterscheiden:

  • leptokurtisch (K>0) – die Verteilung hat einen breiteren Rand, d. h. die Intensität der Extremwerte ist höher als bei einer Normalverteilung.
  • mesokurtisch (K=0) – die Verteilung ist annähernd normal.
  • platykurtisch (K<0) – die Verteilung hat einen dünneren Rand als die Normalverteilung, d. h. die Intensität der Extremwerte ist geringer als bei der Normalverteilung.
Abbildung 2. Arten von Verteilungen nach dem Wert der Kurtosis
Betrachten wir eine Beispielanalyse der Verteilung von drei Variablen wie dem Alter eines Kunden, seinen Ausgaben und dem Preis eines bestimmten Produkts. Im Folgenden finden Sie die grundlegenden deskriptiven Statistiken, die für diese Analyse mit PS IMAGO PRO erstellt wurden.
Tabelle 1. Ausgewählte deskriptive Statistiken für die analysierte Variable
Für die Ausgabenvariable lässt sich ableiten, dass die Verteilung linksschief ist (Schiefe-Wert < 0) und einen dicken Rand hat, wenn man den Wert der Wölbung betrachtet. Bei der Altersvariablen liegen sowohl der Wert der Schiefe als auch der der Wölbung nahe bei 0, was darauf hindeutet, dass die Verteilung dieser Variablen einer Normalverteilung ähnelt. Aus dem Wert der Schiefe für die Preisvariable lässt sich schließen, dass ihre Verteilung durch eine starke Linksasymmetrie und eine größere Intensität der Extremwerte als bei einer Normalverteilung gekennzeichnet ist, was durch den hohen Wert der Kurtosis angezeigt wird. Da wir bereits die Werte der Statistiken in der Tabelle analysiert haben, lohnt es sich noch, die folgenden Visualisierungen (Histogramme) für die Verteilung der analysierten Variablen zu betrachten, die mit der Normalverteilungskurve angereichert sind. Anhand dieser mit PS IMAGO PRO erstellten Diagramme lassen sich oft schnell einige Beziehungen und Merkmale der Verteilungen der analysierten Variablen erkennen. Auf dem Histogramm der Ausgabenvariablen kann man beobachten, dass der linke Rand der Verteilung spektral verlängert ist, was auf eine Linksschiefe hinweist. Darüber hinaus ist zu beachten, dass die Beobachtungen häufiger Extremwerte annehmen, als dies bei einer Normalverteilung der Fall wäre (siehe den linken stark ausgeprägten Rand der Verteilung).[/et_pb_text][et_pb_divider show_divider="off" _builder_version="4.20.2" _module_preset="default" global_colors_info="{}"][/et_pb_divider][et_pb_image src="https://ps-imago-pro.2x4.de/wp-content/uploads/2023/05/Rysunek_5.png" title_text="Rysunek_5" align="center" _builder_version="4.20.2" _module_preset="default" width="65%" max_width="65%" global_colors_info="{}"][/et_pb_image][et_pb_text _builder_version="4.20.2" _module_preset="default" background_color="#e5e5e5" text_orientation="center" width="65%" max_width="65%" module_alignment="center" hover_enabled="0" global_colors_info="{}" sticky_enabled="0"]Abbildung 3. Histogramm der Ausgabenvariablen
Im Falle der Altersvariablen kann die Verteilung, wie aus den Werten für Schiefe und Kurtosis hervorgeht, als nahezu normalverteilt angesehen werden. In der Grafik ist keine merkliche Asymmetrie der Verteilung zu erkennen (keiner der Ränder ist übermäßig gestreckt) oder eine übermäßige Intensität von abweichenden Beobachtungen wie im Fall der Verteilung der Ausgabenvariablen.
Abbildung 4. Histogramm der Variable „Alter“
Das letzte Histogramm zeigt die Verteilung der Preisvariablen. Auf den ersten Blick lassen sich zwei Eigenschaften der Verteilung dieser Variable erkennen. Die erste ist der deutlich verlängerte rechte Rand der Verteilung, was auf eine starke Schiefe nach rechts hinweist. Zweitens ist zu erkennen, dass die Beobachtungen sehr viel häufiger Extremwerte annehmen (siehe den rechten ausgeprägten Rand der Verteilung), als man bei einem Vergleich mit einer Normalverteilung erwarten würde.
Abbildung 5. Histogramm der Preisvariablen
Zusammenfassend lässt sich sagen, dass Schiefe und Kurtosis Maße sind, die der Analytiker verwendet, wenn er Antworten auf die Frage sucht, wie die einzelnen Beobachtungen um den Mittelwert herum gestreut sind, wie extrem die abweichenden Beobachtungen sind und ob der Mittelwert wirklich in der Mitte der analysierten Verteilung liegt. Zu Beginn der Arbeit mit den Daten ist es besonders nützlich, die Verteilungen der analysierten Variablen in Form von Histogrammen darzustellen, die es ermöglichen, die wichtigsten Eigenschaften, wie die diskutierte Asymmetrie oder die Art der Konzentration der Beobachtungen, leicht und schnell zu erfassen.

Pin It on Pinterest

Share This