Von WIKTORIA KORYGA (Predictive Solutions)

Der Gini-Index ist ein Maß für die Konzentration der Verteilung einer Variablen. In der Statistik wird er üblicherweise verwendet, um die Konzentration (Ungleichmäßigkeit) der Verteilung einer Zufallsvariablen zu beschreiben, während er in den Wirtschaftswissenschaften vor allem als Maß für den Grad der Einkommensungleichheit verwendet wird.

GINI-INDEX ALS MAß FÜR DIE VARIATION DER QUALITATIVEN VARIABLEN

Der Gini-Index wird auch als Variationsmaß für qualitative, kategoriale Variablen verwendet. Kategoriale Daten werden bei vielen Analysen verwendet, sehr häufig in wissenschaftlichen Bereichen wie Soziologie, Wirtschaft oder Biostatistik. Eines der Maße, die zur Analyse der Variation verwendet werden, ist der Gini-Index, der durch die folgende Formel ausgedrückt wird:

wobei:

k – Anzahl der Kategorien der Variablen,

wzór2 – die Wahrscheinlichkeit, einer bestimmten Kategorie anzugehören.

Der Wert des Gini-Index gibt an, wie groß die Variabilität der untersuchten qualitativen Variable ist. Er kann mit der für quantitative Variablen berechneten Varianz und Standardabweichung verglichen werden.

Der Gini-Index, der die Konzentration der Verteilung der qualitativen Variablen beschreibt, kann Werte ab Null annehmen, während die Obergrenze nicht streng definiert ist. Der Höchstwert, den der Gini-Index annehmen kann, hängt von der Anzahl der Kategorien der Variablen ab. Bei einer Variablen mit zwei Kategorien würde die maximale Variabilität 0,5 betragen, während bei vier Kategorien jede Kategorie 25 % der Beobachtungen umfassen würde, so dass der Gini-Index 0,75 betragen würde. Es ist zu beachten, dass die Anzahl der Kategorien nur den Wert der maximalen Variabilität beeinflusst, die für eine bestimmte Variable erreicht werden kann. Der Minimalwert ist immer Null und steht für das Fehlen von Variabilität, was uns Sicherheit bei der Entscheidungsfindung gibt. Dies ist der Fall, wenn alle Beobachtungen zu nur einer Kategorie der Variablen gehören. Das heißt, wenn wir anhand einer solchen Verteilung einer Variablen vorhersagen wollten, ob eine Beobachtung zu einer bestimmten Kategorie gehört, würden wir in 100 % der Fälle richtig liegen.

Zur Erläuterung nehmen wir das Beispiel der Variable Geschlecht mit zwei Kategorien – weiblich und männlich. Bei der Analyse der Variabilität wird der prozentuale Anteil der Personen in jeder Kategorie verwendet.

Tabelle 1. Variationsanalyse für eine Variable mit zwei Kategorien

Tabelle 1 zeigt drei verschiedene Fälle der Verteilung der Variable Geschlecht. Im ersten Fall (Beispiel 1) sind alle Personen, die an der Umfrage teilnehmen, Frauen. Anhand der obigen Formel wird der Gini-Koeffizient berechnet: . Der Gini-Koeffizient nimmt den Wert 0 an, was bedeutet, dass das Merkmal in diesem Beispiel einen Mangel an Variabilität, d. h. Entscheidungssicherheit, aufweist.

Betrachtet man die Verteilung der Geschlechtsvariable im zweiten Beispiel, so stellt man fest, dass 60 % der Befragten weiblich und 40 % männlich sind, was zu einer mittleren Variabilität führt. Wenn wir anhand dieser Verteilung vorhersagen wollten, ob ein Befragter weiblich ist, würden wir in 40 % der Fälle falsch liegen. Berechnet man den Gini-Koeffizienten für eine solche Verteilung der nominalen Variable, so erhält man: .

Die letzte Spalte der Tabelle (Beispiel 3) zeigt die Verteilung der Variablen, bei der wir die größte Variabilität haben. Wie bereits erwähnt, ist der Minimalwert des Gini-Index gleich Null, was bedeutet, dass es keine Variabilität gibt, während das Maximum, das erreicht werden kann, von der Anzahl der Kategorien der Variablen abhängt. Im Falle des Geschlechts wird die maximale Variabilität erreicht, wenn es 50 % der Beobachtungen für jede Kategorie gibt. Der Gini-Koeffizient beträgt dann 0,5, und dies ist die maximale Variabilität, die für eine Variable mit zwei Kategorien erreicht werden kann.

Wenn wir eine Variable mit vier Kategorien analysieren, wird die maximale Variabilität (0,75) erreicht, wenn jede Kategorie 25 % der Beobachtungen enthält.

GINI-INDEX FÜR QUALITATIVE VARIABLEN IN PS IMAGO PRO

Sehen wir uns ein Beispiel für die Verwendung des Gini-Koeffizienten an, der in der Data Audit-Prozedur in PS IMAGO PRO verfügbar ist. Das Verfahren berechnet den Wert des Gini-Indexes und den Prozentsatz des Maximalwertes des Gini-Indexes, der für die analysierte Variable berechnet wurde (Gini versus Maximalwert – Tabelle 3). Es ist zu beachten, dass der Maximalwert des Gini-Index variabel ist und von der Anzahl der Kategorien des analysierten Merkmals abhängt.

Betrachten wir die Verteilung der Variablen, die das abgeschlossene Studienfach der Teilnehmer an einer bestimmten Umfrage darstellt.

Tabelle 2. Verteilung der Variablen Studienrichtung

Die Variable hat vier Kategorien, so dass wir zu dem Schluss kommen können, dass der maximale Wert des Gini-Koeffizienten 0,75 beträgt.

Zur Erinnerung: Der Mindestwert des Indexes ist 0, wenn es keine Variabilität gibt, d. h. wenn alle Befragten angeben, dass sie einen Abschluss an der Juristischen Fakultät gemacht haben.

Die nachstehende Tabelle zeigt den Wert des Gini-Index und den Gini-Wert im Vergleich zum Maximalwert, d. h. den Prozentsatz der maximal möglichen Variabilität für diese Variable.

Tabelle 3. Gini (Wert) und Gini (Prozentsatz) im Vergleich
zum Maximalwert für die Variable Studienfach
Der Gini-Index für die Variable, die das Studienfach repräsentiert, beträgt 0,7, was auf eine hohe Variabilität hinweist. Da die maximal mögliche Variabilität 0,75 beträgt, liegt der Gini-Wert im Vergleich zum Maximalwert bei 97 % – was bedeutet, dass die Variabilität des Studienfachs 97 % der maximal möglichen Variabilität dieser Variable ausmacht.

Aus den obigen Beispielen geht hervor, dass der Gini-Index neben den üblichen Anwendungen wie der Messung der Einkommensungleichheit auch zur Analyse der Variabilität von Variablen in kategorialen Daten verwendet werden kann, die in vielen wissenschaftlichen und wirtschaftlichen Bereichen zu finden sind.

Pin It on Pinterest

Share This
Datenschutz
Wir, 2x4 Solutions GmbH (Firmensitz: Deutschland), verarbeiten zum Betrieb dieser Website personenbezogene Daten nur im technisch unbedingt notwendigen Umfang. Alle Details dazu in unserer Datenschutzerklärung.
Wir, 2x4 Solutions GmbH (Firmensitz: Deutschland), verarbeiten zum Betrieb dieser Website personenbezogene Daten nur im technisch unbedingt notwendigen Umfang. Alle Details dazu in unserer Datenschutzerklärung.