STATISTISCHER RÜCKSCHLUSS

Von NATALIA GOLONKA (Predictive Solutions)

Die statistische Inferenz ist der Teilbereich der Statistik, der es ermöglicht, auf der Grundlage einer Stichprobe die Grundgesamtheit zu beschreiben, zu analysieren und Rückschlüsse auf sie zu ziehen.

Die Untersuchung der gesamten Bevölkerung kann eine sehr schwierige Aufgabe sein, manchmal sogar unmöglich. Wenn wir z. B. eine Gruppe von Marschällen in den polnischen Provinzen untersuchen wollen, ist es durchaus möglich, Daten von 16 Personen (d. h. der gesamten Marschallpopulation) zu sammeln. In der Regel möchten wir jedoch, dass unsere Schlussfolgerungen allgemeingültiger und praktischer sind, so dass die untersuchte Population eine größere Gruppe von Personen umfasst. Hier kommt das bereits erwähnte Problem bei der Durchführung eines solchen Projekts ins Spiel. Wenn wir z. B. die Gewohnheiten der Polen analysieren wollten, würde es einen gigantischen Aufwand bedeuten, jeden einzelnen Bürger mit dem Forschungsinstrument zu erreichen. Eine Vollerhebung kann jedoch durch eine Stichprobenerhebung ersetzt werden. Mit Hilfe statistischer Verfahren können wir feststellen, inwieweit die uns zur Verfügung stehende Stichprobe repräsentativ für die Gesamtbevölkerung ist und wie gut die gezogenen Schlussfolgerungen der Realität entsprechen.

Die Methoden zur Verallgemeinerung der Ergebnisse umfassen zwei große Gruppen: die Schätzung, bei der unbekannte Werte von Verteilungsparametern geschätzt werden, und die statistische Hypothesenprüfung, bei der bestimmte Vermutungen über die Verteilung der untersuchten Variablen getestet werden.

STATISTISCHE SCHÄTZUNG

Unter Schätzung versteht man den Prozess der Schätzung bestimmter Parameter der Verteilung einer Variablen in einer Grundgesamtheit auf der Grundlage der Daten, die uns aus ihrer „Stichprobe“ vorliegen. Ein solcher Parameter kann der Mittelwert, die Varianz oder ein anderes numerisches Merkmal sein. Wenn wir zum Beispiel die durchschnittliche Zeit für die Erbringung einer bestimmten Dienstleistung in der untersuchten Stichprobe kennen, können wir damit die durchschnittliche Zeit für die Erbringung einer solchen Dienstleistung für die gesamte Population schätzen. Auf diese Weise lässt sich beispielsweise ermitteln, wie viele Kunden ein bestimmtes Bankinstitut an einem Arbeitstag betreuen kann, um sicherzustellen, dass jede Person von einem Berater bedient wird. Je nach gewählter Methode kann die Schätzung in eine Punkt- und eine Bereichsschätzung unterteilt werden. Punkt-Schätzung basiert auf der Bestimmung einer einzigen Zahl (Schätzer), die den unbekannten Parameter in der Grundgesamtheit am besten repräsentiert. In unserem Beispiel könnte dies ein Wert von 21 Minuten für die durchschnittliche Zeit für die Bedienung eines Kunden in der Grundgesamtheit sein. Es ist zwar praktisch, eine einzige, spezifische Zahl zu erhalten, aber der Nachteil dieser Methode ist, dass wir nicht wissen, wie genau der ermittelte Wert ist: liegt er im Bereich 19-23 Minuten oder 2-40 Minuten? Intervall-Schätzung basiert auf der Bestimmung eines Intervalls, in dem sich der gewünschte unbekannte Populationsparameter mit einer bestimmten Wahrscheinlichkeit befindet. Der Analytiker kann ein Konfidenzintervall mit einem Wert von 1-a bestimmen, der die Wahrscheinlichkeit der Schätzung des richtigen Wertes festlegt. Das resultierende Intervall wird Konfidenzintervall genannt. Je größer der Wert des Konfidenzkoeffizienten ist, desto breiter wird das Konfidenzintervall sein. Wenn wir z. B. das Durchschnittsalter der Empfänger von Webinhalten schätzen wollen, gibt uns ein Intervall von 0-100 Jahren fast 100 % Sicherheit für das Ergebnis. Der Kompromiss in einer solchen Situation ist natürlich die Genauigkeit der Schätzung. Obwohl eine Verkleinerung des Konfidenzintervalls die Wahrscheinlichkeit verringert, dass der wahre Wert innerhalb dieses Intervalls liegt, ist ein solches Intervall weitaus nützlicher; zu wissen, dass der Befragte wahrscheinlich zwischen 0 und 100 Jahre alt ist, ist für uns in der Praxis zu allgemein. Wenn wir diesen Bereich auf, sagen wir, 25-35 Jahre eingrenzen können, wird uns diese Information unter anderem ermöglichen, genauere Verkaufsstrategien zu verfolgen.

GRENZEN DER SCHÄTZUNG

Sowohl die Punkt- als auch die Entfernungsschätzung sind leider mit einem gewissen Maß an Fehlern behaftet; auch wenn manche behaupten, dass Ausnahmen die Regel bestätigen, so kann man doch nicht mit 100-prozentiger Sicherheit sagen, dass die vorgenommenen Schätzungen das richtige Ergebnis liefern.

Im Falle einer Punktschätzung ist das Ergebnis der – der Einzelwert eines bestimmten Parameters in der Stichprobe. Wenn wir den Wert dieses Parameters in der Grundgesamtheit kennen, können wir den Schätzfehler berechnen, indem wir ihn vom Wert des Schätzers subtrahieren. Liegen jedoch keine derartigen Informationen über die Grundgesamtheit vor, wird die Qualität der Punktschätzung in der Regel anhand des Standardfehlers beurteilt. Der Standardfehler ist ein Maß für die Streuung der Schätzer aus der Stichprobe um den wahren Wert des Populationsparameters.

Bei der Intervallschätzung hängt das Ausmaß dieses Fehlers von dem bereits erwähnten Konfidenzfaktor ab. Normalerweise werden Konfidenzintervalle mit einer Wahrscheinlichkeit von 95 % definiert, dass der wahre Wert eines Parameters aus der Grundgesamtheit innerhalb des Intervalls liegt, aber es ist auch üblich, Wahrscheinlichkeiten von 97 % oder 99 % zu finden. Diese Entscheidung hängt in erster Linie von der Art der vorliegenden Daten ab.

Wie sollten also die Daten beschaffen sein, damit die vorgenommene Schätzung den tatsächlichen Werten in der Grundgesamtheit so nahe wie möglich kommt? Eine wichtige Aufgabe für den Forscher ist hier die geeignete Stichprobe. Zunächst einmal muss die Stichprobe aus der Grundgesamtheit nach dem Zufallsprinzip ausgewählt werden. Der zweite sehr wichtige Aspekt ist, dass sie eine angemessene Größe haben sollte. Nur wenn die Stichprobe repräsentativ ist, sind die daraus gezogenen Schlussfolgerungen mit weniger Fehlern behaftet und kommen den tatsächlichen Ergebnissen in der Grundgesamtheit näher.

ÜBERPRÜFUNG DER STATISTISCHEN HYPOTHESEN

Der zweite Zweig der statistischen Inferenz ist die Überprüfung von statistischen Hypothesen. Sie ermöglicht es, Annahmen über eine Grundgesamtheit anhand einer statistischen Stichprobe zu überprüfen, die der Grundgesamtheit entnommen wurde.

Der erste Schritt bei der Überprüfung von statistischen Hypothesen besteht natürlich darin, sie richtig aufzustellen. Es ist üblich, für jede Schlussfolgerung zwei Hypothesen aufzustellen: die Nullhypothese, die davon ausgeht, dass es keine Unterschiede gibt, z. B. zwischen Gruppen, Messungen, Verteilungen, und die Alternativhypothese dagegen. In einem zweiten Schritt sollte ein statistischer Test ausgewählt werden, der für die zu prüfenden Hypothesen und die verfügbaren Daten geeignet ist. Die weiteren Schritte hängen bereits von dem gewählten Ansatz ab.

Ableitung der Häufigkeit ist der am häufigsten verwendete Ansatz für das Problem der statistischen Hypothesenüberprüfung. Nach der Bestimmung des Signifikanzniveaus wird eine Teststatistik und auf dieser Grundlage ein p-Wert berechnet, über den Sie im Artikel über statistische Signifikanz mehr erfahren können. In Kenntnis des p-Werts kann entschieden werden, ob die Nullhypothese abgelehnt oder akzeptiert wird. Bei einem Signifikanzniveau von a=0,05 werden 5 Fehler pro 100 Schlussfolgerungen in Kauf genommen, bei einem Signifikanzniveau von a=0,001 dagegen nur 1 Fehler pro 1000.

Eine weitere Möglichkeit zur Überprüfung von Hypothesen ist die Verwendung von Bayes’sche Inferenz. Dieser Ansatz geht über die rein frequentistische Statistik hinaus, indem er dem Prozess ein subjektives Element hinzufügt: die A-priori-Wahrscheinlichkeit. Mit der Bayes’schen Statistik können bestehende Annahmen auf der Grundlage neuer Daten aktualisiert werden. A-priori-Annahmen können auf früheren Forschungsergebnissen, aber auch auf Expertenwissen oder sogar Intuition beruhen. Später gesammelte Daten ermöglichen es, diese Annahmen zu verifizieren: eine posteriore Wahrscheinlichkeit. Um dies anhand eines Beispiels zu verstehen, stellen wir uns vor, dass wir die Lebenserwartung einer Person vorhersagen wollen. Auf der Grundlage der Lebenserwartung aus dem CSO-Bericht 2021 könnten wir a priori davon ausgehen, dass dieses Alter bei 75,6 Jahren liegen würde. Wenn wir jedoch über zusätzliche Informationen über die Person verfügen, z. B. über ihren Gesundheitszustand, ihren Lebensstil oder ihre genetische Veranlagung, können wir die Methode der Bayes’schen Statistik anwenden, um ihre Lebenserwartung genauer vorherzusagen.

Mithilfe der Bayes’schen Statistik aktualisieren wir daher unsere Annahme über die Lebenserwartung einer Person auf der Grundlage der gesammelten Daten (eine Nachfolgewahrscheinlichkeit). Auf der Grundlage der verfügbaren Informationen kann sich unsere Schätzung dahingehend ändern, dass unsere posteriore Wahrscheinlichkeit eine höhere Lebenserwartung angibt, z. B. 80 Jahre, wenn die Person einen gesunden Lebensstil hat und in ihrer Familie keine chronischen Krankheiten aufgetreten sind. Das Wesen der Bayes’schen Statistik besteht darin, dass wir unsere Überzeugungen auf der Grundlage neuer Daten ständig aktualisieren und so immer genauere Vorhersagen und bessere Entscheidungen treffen können.

Obwohl frequentistische und Bayes’sche Inferenz die am häufigsten verwendeten Methoden zur statistischen Hypothesenüberprüfung sind, ist es erwähnenswert, dass Ansätze wie die Likelihood-basierte Inferenz (Likelihood-Quotient-Test), der darauf abzielt, die Zuverlässigkeitsfunktion zu maximieren, oder das Akaike-Informationskriterium (AIC), das auf der Informationstheorie basiert und verschiedene statistische Modelle im Hinblick auf das Gleichgewicht zwischen Datenanpassung und Modellkomplexität vergleicht, ist ebenfalls verfügbar.

ZUSAMMENFASSUNG

Statistische Schlussfolgerungen spielen eine Schlüsselrolle bei der Datenanalyse, da sie es ermöglichen, genaue und zuverlässige Schlussfolgerungen aus einer Stichprobe zu ziehen. Durch geeignete Hypothesentestverfahren und die Erstellung von Konfidenzintervallen kann der Analytiker Entscheidungen auf einer soliden numerischen Grundlage treffen. Die Einführung eines rigorosen statistischen Analyseansatzes trägt zu einem besseren Verständnis von Phänomenen bei und unterstützt die Entwicklung wirksamer Handlungsstrategien in einer Vielzahl von Bereichen, sei es bei Umfragen zur Kundenzufriedenheit, der Bewertung von Marketingstrategien, der Vorhersage unerwünschter Ereignisse oder der Überprüfung der Wirksamkeit neu entwickelter Arzneimittel.