DER PEARSON'S CHI-QUADRAT TEST

Von RAFAŁ WAŚKO (Predictive Solutions)

Zu den gängigen statistischen Tests gehören die Chi-Quadrat-Tests von Pearson. Es sei gleich zu Beginn darauf hingewiesen, dass dieser Test mehr als eine Anwendung hat. In diesem Blog werde ich die Hauptunterschiede zwischen den Tests erörtern und die wichtigsten Fragen im Zusammenhang mit dem Chi-Quadrat-Test vorstellen.

Zunächst sollten Sie sich die grundlegenden Informationen über den Chi-Quadrat-Test von Pearson ins Gedächtnis rufen. Der erste Test, der wahrscheinlich am häufigsten verwendet wird, ist der Chi-Quadrat-Unabhängigkeitstest. Bei verschiedenen Arten der Umfrageforschung im Bereich Marketing, Psychologie oder Soziologie stehen dem Analysten hauptsächlich qualitative Variablen zur Verfügung. Ein beliebter Test, mit dem zwei qualitative Variablen analysiert und festgestellt werden kann, ob eine statistisch signifikante Beziehung zwischen ihnen besteht, ist der Chi-Quadrat-Unabhängigkeitstest.

Wir können den Chi-Quadrat-Test auf Kontingenz verwenden, wenn wir eine einzige qualitative Variable haben. Oft, aber nicht immer, erwartet der Analytiker, dass die Kategorien gleiche Anteile haben, z. B. bei einem t-Test für unabhängige Gruppen oder bei einer Varianzanalyse. Mit dem Test lässt sich überprüfen, ob die Häufigkeitsverteilung einer kategorialen Variable signifikant von unserer Erwartung abweicht. Mit anderen Worten: Der Chi-Quadrat-Kontingenztest wird verwendet, um zu beurteilen, ob die empirische Verteilung der Daten mit der theoretischen Verteilung, die durch eine bestimmte Nullhypothese beschrieben wird, übereinstimmt.

Eine ähnliche Form des Tests ist der Chi-Quadrat-Homogenitätstest, mit dem z. B. geprüft wird, ob zwei Verteilungen einer Variablen im Verhältnis zueinander die gleichen Proportionen aufweisen. Im Allgemeinen wird der Chi-Quadrat-Homogenitätstest verwendet, um zu prüfen, ob sich die Häufigkeitsverteilung einer kategorialen Variable von einer anderen definierten Verteilung unterscheidet. Dieser Test wird verwendet, wenn der Forscher überprüfen möchte, ob ein signifikanter Unterschied zwischen den Verteilungen von mindestens zwei kategorialen Variablen besteht. Beispiele für Nullhypothesen, die mit dem Chi-Quadrat-Homogenitätstest geprüft werden können, sind die Häufigkeit eines bestimmten Ereignisses in verschiedenen Gruppen, ein Vergleich der Verbraucherpräferenzen für verschiedene Produkte usw.

Aus mathematischer Sicht ist es bemerkenswert, dass es sich um dieselben Tests handelt. Wir betrachten sie jedoch oft als unterschiedliche Tests, weil sie für unterschiedliche Zwecke verwendet werden.

FORMEL DES CHI-QUADRAT-TESTS

Die Formeln für den Homogenitätstest und den Kontingenztest sind einander im Wesentlichen sehr ähnlich. In beiden Fällen basiert die Berechnung der Chi-Quadrat-Statistik auf beobachteten und erwarteten Werten.

wobei:

–Chi-Quadrat-Teststatistik,

– Messwerte (Beobachtungswerte),

– erwartete Werte,

– Anzahl der Messungen/Gruppen.

Wie man sieht, ist die Formel ähnlich wie die für den Chi-Quadrat-Unabhängigkeitstest. Je größer die Differenz zwischen den beobachteten und den erwarteten Werten ist, desto größer ist der Wert der Chi-Quadrat-Statistik. Um zu entscheiden, ob der Unterschied statistisch signifikant ist, vergleichen Sie den resultierenden Testwert mit der Tabelle der kritischen Werte der Chi-Quadrat-Verteilung.

BEISPIEL FÜR DIE BERECHNUNG EINER CHI-QUADRAT-STATISTIK

Wir fragten die Umfrageteilnehmer, ob sie sich mindestens einmal pro Woche körperlich betätigen, z. B. Laufen, Fitnessstudio, Radfahren. Wir erhielten die folgenden Ergebnisse:

Tabelle 1. Mindestens einmal pro Woche körperlich aktiv sein

Wir wollen die Frage beantworten, ob der Unterschied zwischen Personen, die mindestens eine körperliche Aktivität pro Woche ausüben, und Personen, die sich nicht körperlich betätigen, statistisch signifikant ist. Zu diesem Zweck berechnen wir die Chi-Quadrat-Statistik. Am einfachsten geht das mit einer gut vorbereiteten Tabelle.

Tabelle 2. Berechnung der Chi-Quadrat-Statistiken für die Daten zur körperlichen Aktivität

Nachdem wir die Chi-Quadrat-Statistik berechnet haben, müssen wir noch die Anzahl der Freiheitsgrade (df) berechnen, um die oben gestellte Frage zu beantworten. Die Formel für die Anzahl der Freiheitsgrade lautet wie folgt:

df = k-1

wobei:

k – Anzahl der Kategorien.

In unserem Beispiel ist die Anzahl der Freiheitsgrade 1.

Vergleichen Sie dann den Chi-Quadrat-Wert mit der Tabelle der kritischen Werte der Chi-Quadrat-Verteilung. Unter der Annahme eines Signifikanzniveaus von 0,05 ergab der Chi-Quadrat-Test in unserem Beispiel keinen statistisch signifikanten Unterschied zwischen Trainierenden und Nicht-Trainierenden.

CHI-QUADRAT-TEST DER KONTINGENZ ALS VARIATIONSMASS FÜR QUALITATIVE VARIABLEN IN PS IMAGO PRO

In diesem Blogartikel habe ich die grundlegenden Aspekte des Chi-Quadrat-Tests für Kontingenz erörtert und wie man ihn ohne Computer und statistische Software berechnen kann. Wenden wir uns nun einer nicht offensichtlichen Anwendung dieses Tests zu, nämlich seiner Verwendung als Variationsmaß für qualitative Variablen.

Kehren wir zu dem Beispiel der sportlich aktiven Personen zurück. Wenn die Anzahl der Trainierenden und der Nicht-Trainierenden gleich ist, ist der Wert des Chi-Quadrat-Tests 0. Das Gleiche gilt, wenn die analysierte Variable mehr als zwei Kategorien hat, für die die Anzahl gleich ist. Liegt der Wert des Tests nahe bei 0, so kann die Variation in den Kategorien der untersuchten Variable als gering interpretiert werden.

Der Mindestwert für den Chi-Quadrat-Test ist 0, wenn die Verteilung der Häufigkeiten gleichmäßig ist. Der Maximalwert hingegen wird erreicht, wenn alle Beobachtungen einer Kategorie der Variablen zugeordnet sind.

Eine der Prozeduren, mit der die Chi-Quadrat-Teststatistik in PS IMAGO PRO berechnet werden kann, ist Data Audit. Mit diesem Verfahren können Sie eine Zusammenfassung für die analysierten Variablen in Form von Tabellen erstellen, die ausgewählte Statistiken enthalten, die nach qualitativen und quantitativen Variablen unterteilt sind.

Lassen Sie uns ein weiteres Beispiel analysieren, in dem wir eine Variable mit vier Kategorien haben.

Tabelle 3: Verteilung der Variablen „Typ der Karosserie“.

Bei der Analyse von Tabelle 3 fällt sofort auf, dass die Zählungen für die einzelnen Kategorien nicht gleich sind, d. h. es gibt Unterschiede zwischen den Kategorien. Mit Hilfe des Data-Audit-Verfahrens können wir prüfen, wie hoch der Wert der Chi-Quadrat-Statistik ist.

Tabelle 4. Chi-Quadrat-Ergebnisse für die analysierte Variable

Wie man sieht, ist der Testwert deutlich größer als 1 und beträgt 58,8. Da es sich nicht um einen auf einen bestimmten Bereich normierten Wert handelt, ist es schwierig festzustellen, ob dies ein großer Wert ist oder nicht. Man müsste jedes Mal für ein bestimmtes Beispiel den Höchstwert für diese Statistik berechnen. Das Datenaudit erleichtert diese Aufgabe, denn es ermöglicht die Berechnung des Prozentsatzes des maximalen Chi-Quadrat-Wertes für dieses Beispiel (Spalte „Chi-Quadrat im Vergleich zum Maximalwert“). In unserer Studie beträgt er fast 8 Prozent – das bedeutet, dass er für diese Variable und diese Datenverteilung 8 Prozent der maximalen Variabilität beträgt, die die Variable annehmen kann.

Zusammenfassend lässt sich sagen, dass Chi-Quadrat-Tests beliebte Tests sind, die nicht nur bei der Suche nach Beziehungen zwischen qualitativen Variablen eingesetzt werden können, sondern auch, wenn geprüft werden soll, ob die Kategorien einer qualitativen Variable kollinear sind. Viele statistische Tests setzen für eine gruppierende Variable die Annahme voraus, dass ihre Kategorien gleich sind (z. B. einseitige ANOVA). Der Chi-Quadrat-Kontingenztest ist ein nützliches statistisches Instrument, um die Häufigkeiten verschiedener Kategorien einer qualitativen Variable zu vergleichen und zu beurteilen, ob es signifikante Unterschiede zwischen ihnen gibt. Eine weitere Anwendung dieses Tests ist die Verwendung des Chi-Quadrat-Tests der Kontingenz als Variationsmaß für qualitative Variablen. Zusätzlich zu den bereits im Blog vorgestellten Statistiken wie Entropie und Gini-Index – die auch in PS IMAGO PRO verfügbar sind – können das Data-Audit-Verfahren und die Chi-Quadrat-Statistik eine sehr gute Ergänzung zu den vorbereiteten Statistiken sein, die bei der Analyse der Verteilung qualitativer Variablen benötigt werden.

DER PEARSON’S CHI-QUADRAT TEST