Von RAFAŁ WAŚKO (Predictive Solutions)

Der Chi-Quadrat-Test auf Unabhängigkeit ist einer der bekanntesten statistischen Tests. Er wird verwendet, um zu prüfen, ob eine statistisch signifikante Beziehung zwischen zwei qualitativen Variablen besteht. Er basiert auf dem Vergleich der beobachteten Zahlen, d. h. der in der Studie ermittelten Zahlen, mit den erwarteten Zahlen, d. h. den Zahlen, von denen der Test ausgeht, wenn es keine Beziehung zwischen den Variablen gibt. Wenn der Unterschied zwischen den beobachteten und den erwarteten Zahlen groß (statistisch signifikant) ist, kann man daraus schließen, dass eine Beziehung zwischen der einen und der anderen Variable besteht. Dieser Test ist sehr beliebt in der Umfrageforschung, wo qualitative Variablen vorherrschen. In der Marketingforschung kann der Chi-Quadrat-Test beispielsweise verwendet werden, um festzustellen, ob ein Zusammenhang zwischen der Wahl der Art der Produktverpackung und dem Geschlecht des Kunden besteht. Ein weiteres Anwendungsbeispiel ist die Überprüfung, ob die Art des ausgeübten Sports von der Bildung der befragten Personen abhängt. Lassen Sie uns nun ein Beispiel betrachten. Angenommen, ein Analytiker möchte herausfinden, ob die Variable „Einkommen des Befragten“ in einem statistisch signifikanten Zusammenhang mit der Variable „Geschlecht“ steht. Der Chi-Quadrat-Unabhängigkeitstest geht davon aus, dass die Variablen Einkommen und Geschlecht unabhängig voneinander sind, d. h. die Proportionen sind für alle Spalten gleich, und alle Abweichungen sind auf zufällige Variation zurückzuführen. Der Test vergleicht die beobachteten Zahlen mit den erwarteten Zahlen, die zu erwarten wären, wenn die beiden Variablen nicht miteinander verbunden wären.

Tabelle 1.
Kreuztabelle von Geschlecht und Einkommen
mit beobachteten und erwarteten Zahlen

Wenn die Variablen nicht miteinander in Beziehung stehen, sind die beobachteten und die erwarteten Zahlen ähnlich, und das Ergebnis des Chi-Quadrat-Tests ist statistisch nicht signifikant, so dass wir nicht davon ausgehen können, dass eine statistisch signifikante Beziehung zwischen den untersuchten Variablen besteht. Ein größerer Wert der Chi-Quadrat-Statistik bedeutet eine größere Diskrepanz zwischen den beobachteten und den erwarteten Zahlen, und somit ist die Hypothese der Unabhängigkeit der Variablen falsch, und es kann geschlossen werden, dass eine statistisch signifikante Beziehung zwischen den Variablen Geschlecht und Einkommen besteht.

Tabelle 2.
Ergebnis des Chi-Quadrat-Tests

Wie aus Tabelle 2 ersichtlich ist, liegt die statistische Signifikanz unter dem allgemein akzeptierten Wert von 0,05, so dass die Variablen Einkommen und Geschlecht als abhängig betrachtet werden können. Es ist zu beachten, dass das Ergebnis des Chi-Quadrat-Tests nichts über die Stärke dieser Beziehung oder ihre Richtung aussagt. Um mehr über diese Beziehung zu erfahren, sollten Sie sich die Daten genauer ansehen, und zwar die Kreuztabelle für die analysierten Variablen. In der Tabelle werden Prozentsätze häufiger analysiert als Zählungen. Dank der Kreuztabellenanalyse weiß der Analytiker, ob die untersuchten Abhängigkeiten mit seinen Annahmen übereinstimmen oder nicht.

WANN IST DER CHI-QUADRAT-TEST AUF UNABHÄNGIGKEIT ZU VERWENDEN?

Wie bereits erwähnt, wird dieser Test verwendet, um festzustellen, ob eine statistisch signifikante Beziehung zwischen zwei kategorialen Variablen besteht. Jede der Variablen kann mehrere Antwortkategorien haben, z. B. Geschlecht – weiblich und männlich; Bildung – Grundschule, Sekundarschule, Hochschule usw. Die Verwendung dieses Tests ist mit Vorsicht zu genießen, wenn wir Variablen mit einer großen Anzahl von Kategorien haben, da in diesem Fall die Annahmen für den Test möglicherweise nicht erfüllt werden.

ANNAHMEN FÜR DEN CHI-QUADRAT-TEST AUF UNABHÄNGIGKEIT

Der Chi-Quadrat-Test hat nur wenige Annahmen, und die Einfachheit seiner Durchführung und Interpretation macht ihn zu einer beliebten Wahl bei der Datenanalyse. Die wichtigsten Annahmen des Chi-Quadrat-Tests:
  • Die Variablen in der Analyse müssen kategorisch sein (nominal oder ordinal).
  • Die Stichprobe, aus der die Ergebnisse stammen, wurde zufällig aus der Grundgesamtheit ausgewählt.
  • Unabhängigkeit der untersuchten Kategorien (eine Beobachtung kann nicht gleichzeitig zu zwei Kategorien einer Variablen gehören).
  • Nicht mehr als 20% der Zellen haben eine erwartete Anzahl von weniger als 5.
  • Die erwartete Mindestanzahl ist größer als 1.

FORMEL FÜR DEN CHI-QUADRAT-TEST DER UNABHÄNGIGKEIT

Auch wenn die Berechnung des Chi-Quadrat-Tests „auf die Schnelle“ eine Tätigkeit ist, die eher nur von Studenten in Statistikprüfungen durchgeführt wird, lohnt sich ein Blick auf die Formel für diese Statistik.

Wobei:

X² – Chi-Quadrat-Test,

Oij – beobachtete Anzahl in der Zelle, die durch die Kategorie i der Zeilenvariable und die Kategorie j der Spaltenvariable gebildet wird,

Eij – erwartete Anzahl in der durch die Kategorie i der Zeilenvariable und die Kategorie j der Spaltenvariable gebildeten Zelle,

∑ – Summe der Ergebnisse (Quadrate der standardisierten Residuen), berechnet für alle Tabellenzellen o in Zeilen und k Spalten, von denen es * k gibt.

Wie Sie sehen, ist die Chi-Quadrat-Statistik das Quadrat der Differenz zwischen der beobachteten und der erwarteten Zahl, geteilt durch die erwartete Zahl. Die erhaltenen Ergebnisse werden dann für alle Gruppen summiert.

Die Nullhypothese und die Alternativhypothese für den Chi-Quadrat-Test der Unabhängigkeit können wie folgt formuliert werden:

 – H0: Die untersuchten Variablen sind unabhängig.
 – H1: Die untersuchten Variablen sind abhängig.

Zusammenfassend… Der Chi-Quadrat-Unabhängigkeitstest ist ein beliebter statistischer Test, der in der Forschung verwendet wird, wenn es um die Frage geht, ob eine der Variablen von einer anderen abhängig ist. Voraussetzung für seine Anwendung ist, dass es sich bei den Variablen um qualitative Variablen handeln muss. Am häufigsten werden solche Variablen in der Sozial-, Marketing- und psychologischen Forschung erhoben.

Pin It on Pinterest

Share This