Von NATALIA AFEK (Predictive Solutions)
Bei der Datenanalyse berücksichtigen wir sowohl quantitative Informationen (z. B. Gehalt, Alter, Anzahl der bestellten Produkte) als auch qualitative Informationen (z. B. Geschlecht, Bildung, Grad der Zufriedenheit mit dem Service). Um die Arbeit mit den Daten zu erleichtern oder sie an eine bestimmte statistische Analyse anzupassen, müssen die numerischen Daten manchmal in qualitative Kategorien umgewandelt werden.
WAS IST DER ZWECK DER UMKODIERUNG?
Die Umkodierung quantitativer Variablen in qualitative Variablen ist aus mehreren Gründen weit verbreitet. Diese Umwandlung von Daten trägt zu einem besseren Verständnis der Daten bei. Qualitative Variablen sind in dieser Hinsicht in der Regel freundlicher als quantitative Variablen. Durch die Umkodierung lassen sich verschiedene Gruppen oder Kategorien leichter vergleichen, was die weitere Analyse vereinfacht. Auch die Phase der Datenvisualisierung wird dadurch erleichtert. Die Verwendung mehrerer Diagramme, wie z. B. Balken- oder Tortendiagramme, ist nur dann sinnvoll, wenn die Anzahl der dargestellten Kategorien nicht zu groß ist. Die Umwandlung quantitativer Variablen in qualitative kann daher die Lesbarkeit der Visualisierung verbessern. Dies ermöglicht ein besseres Verständnis von Mustern und Trends in den Daten und macht die Ergebnisse auch für Nicht-Experten auf dem Gebiet zugänglicher.
Ein weiterer Grund kann die Anonymisierung der Daten sein. In einigen Fällen, insbesondere bei der Analyse medizinischer oder persönlicher Daten, muss die Privatsphäre geschützt werden. Durch die Umkodierung quantitativer Variablen in qualitative können exakte Werte verborgen werden, wie z. B. die Einordnung exakter Einkommen oder medizinischer Testergebnisse in bestimmte Bereiche.
Durch die Umkodierung können die Daten auch auf eine bestimmte Methode der statistischen Analyse zugeschnitten werden. Beispiele hierfür sind der Chi-Quadrat-Test oder die logistische Regressionsanalyse, bei denen die vorhergesagte Variable eine qualitative Variable mit zwei Kategorien sein muss.
UMKODIERUNG IN BINS GLEICHER BREITE
Eine der einfachsten Möglichkeiten, quantitative Variablen in qualitative umzukodieren, besteht darin, den Wertebereich in bestimmte Intervalle oder Bins zu unterteilen. Die Breite der Bins kann vom Benutzer auf der Grundlage des angegebenen Wertes bestimmt werden, z. B. wird bei der Umkodierung der Variablen Alter festgelegt, dass jedes Bin einen Bereich von aufeinanderfolgenden 10 Jahren hat, oder durch Angabe der Anzahl von Teilungspunkten, z. B. 4 Punkte teilen die Menge in 5 gleiche Bins innerhalb der Variablen. In diesem Fall, wenn die Variable einen Wertebereich von 0 bis 100 hat, wird sie nach der Festlegung von 4 Teilungspunkten 5 gleiche Bins enthalten: 0-20, 21-40, 41-60, 61-80, 81-100.
Bei diesem Ansatz ist zu beachten, dass die erstellten Bins höchstwahrscheinlich nicht die gleiche Anzahl haben werden. Dies ist darauf zurückzuführen, dass die Einteilung nur auf der Grundlage des Wertebereichs der Variablen vorgenommen wurde (Abbildung 1). Dadurch bleiben jedoch bis zu einem gewissen Grad Informationen über die Verteilung der Variablen in der Stichprobe erhalten – so ist beispielsweise die Alterskategorie 78-97 Jahre deutlich kleiner als die früheren Altersbereiche.
Abbildung 1. Histogramm, das die Verteilung der Variablen Alter in der Studiengruppe zeigt. Die Farben zeigen aufeinander folgende Bereiche mit einer festen Breite von 20 Jahren an.
UMKODIERUNG IN BINS MIT GLEICHER ANZAHL
Ein anderer Ansatz besteht darin, quantitative Variablen auf der Grundlage der beobachteten Verteilung der Variablen neu zu kodieren. Eine solche Verteilung basiert auf berechneten Quantilen[1], d. h. den Werten eines Merkmals einer Stichprobe, die deren Umfang in n gleiche Teile teilt. Die für solche Transformationen am häufigsten verwendeten Quantile sind Quartile und Perzentile. Quartile unterteilen die Stichprobe in vier gleiche Teile, während Perzentile die Stichprobe in 100 unterteilen, was später viele verschiedene Unterteilungen sowohl in 4 als auch in 5 oder 10 gleiche Zahlenintervalle ermöglicht.
Diese Methode der Umkodierung ist nützlich, wenn wir einen Datensatz nach Gruppen mit gleicher Anzahl analysieren wollen, z. B. wenn wir Umfragen zur Arbeitszufriedenheit in Großstädten und ländlichen Gebieten auf einfache Weise darstellen wollen. Um die Analyse und die Darstellung der Ergebnisse zu vereinfachen, wollen wir eine der Variablen – den Verdienst – in vier Kategorien umkodieren: sehr gut, gut, schlecht und schlecht Verdienende. Wir wissen jedoch, dass die durchschnittliche Höhe des Verdienstes in städtischen und ländlichen Gebieten sehr unterschiedlich ist (Abbildung 2). So kann ein und derselbe Betrag die einen in die mittlere Einkommensgruppe und die anderen in die Spitzengruppe bringen. Aus Erfahrung wissen wir, dass die Zufriedenheit mit dem Gehalt vom breiteren Kontext abhängen kann, z. B. vom Vergleich mit anderen in der Gemeinschaft oder von den Lebenshaltungskosten.
Abbildung 2. PS IMAGO PRO Violinplot, der die Verteilung der Verdienste in der Untersuchungsstichprobe zeigt. Der Durchschnittsverdienst von 3040 PLN (markiert mit einer durchgezogenen Linie) im Verhältnis zum Median in jeder Gruppe (markiert mit roten Punkten) stellt den Wert des zweiten Quartils in der Gruppe der Großstadtbewohner und des dritten Quartils in der Gruppe der Landbewohner dar.
Abbildung 3. PS IMAGO PRO Marimekko Diagramm, das die Arbeitszufriedenheit in Gruppen mit schlechten, niedrigen, guten und sehr guten Gehältern zeigt.
UMKODIERUNG ZUM ZWECK DER ANALYSE
Manchmal kann die Umkodierung einer quantitativen Variable in eine qualitative Variable vom Zweck der Analyse abhängen. In der Marktforschung können beispielsweise quantitative Variablen wie das Einkommen auf der Grundlage einer für eine Werbekampagne relevanten Einkommensschwelle umkodiert werden. Eine andere Variable, die häufig auf diese Weise behandelt wird, ist das Alter: Es kann sinnvoll sein, einen Bereich für Minderjährige „0-18 Jahre“ einzuschließen und nur die Erwachsenendatensätze in engere, aber gleiche Bereiche von z. B. 10 Jahren zu unterteilen. Eine beliebte Unterteilung auf der Grundlage des Alters (oder vielmehr des Geburtsjahres) ist auch die in den Sozialwissenschaften bekannte Unterteilung in Generationen. Immer mehr soziologische Studien, aber auch Marketingbemühungen, basieren auf der Einteilung in die Generation X (Boomers, geboren in den 1960er und 1970er Jahren), die Generation Y (Millenials, geboren in den 1980er und 1990er Jahren) und die Generation Z (Zoomers, geboren im 21. Jahrhundert). Jahrhundert geboren wurden. Auch wenn die Trennungspunkte einer solchen Gruppierung von einer Quelle zur anderen etwas variieren können, veranschaulicht dies perfekt die Tatsache, dass es nicht immer notwendig ist, dass die gebildeten Gruppen die gleiche Breite oder Größe haben. Eine solche Entscheidung zu treffen, erfordert jedoch ein gewisses Maß an Sachkenntnis in Bezug auf den Zweck der Analyse.
UMKODIERUNG – SCHRITT FÜR SCHRITT
Die Umkodierung von quantitativen in qualitative Variablen ist ein wichtiges Instrument der Datenanalyse, das das Verständnis der Daten erleichtert, die Daten an die spezifischen Anforderungen der statistischen Verfahren anpasst und die Qualität der Analyse verbessern kann. Es gibt eine Vielzahl von Umkodierungsmethoden, wie z. B. die Einteilung in gleiche Intervalle, gleiche Zählungen oder die Umkodierung mit Blick auf den Zweck der Analyse, die auf eine bestimmte Forschungssituation zugeschnitten werden kann. Die Entscheidung, eine quantitative Variable in eine qualitative umzukodieren, und die Wahl der geeigneten Methode hängt also letztlich vom Forschungskontext und dem Zweck der Datenanalyse ab.
Die in diesem Artikel vorgestellte Analyse wurde mit Hilfe von PS IMAGO PRO durchgeführt.