Von RAFAŁ WAŚKO (Predictive Solutions)
Säulen- und Balkendiagramme gehören seit langem zu den beliebtesten Methoden der Datendarstellung. Bevor Sie sich für eines dieser Diagramme entscheiden, lohnt es sich, einen genaueren Blick auf sie zu werfen.
SÄULEN- UND BALKENDIAGRAMME
Säulen- und Balkendiagramme sind eine der grafischen Darstellungsformen für die Verteilung eines untersuchten Merkmals. Diese Arten von Diagrammen bestehen aus Rechtecken, die auf der x-Achse oder der y-Achse angeordnet sind. Die Rechtecke werden durch die analysierten Kategorien der Variablen bestimmt, und ihre Höhe wird durch die Anzahl der Elemente in der Kategorie bestimmt. Mit Hilfe dieser Art von Diagrammen ist es möglich, die Verteilung des untersuchten Merkmals bzw. der untersuchten Merkmale grafisch darzustellen, was folglich ein besseres Verständnis der zu analysierenden Variablen oder Phänomene ermöglicht.
Säulen- und Balkendiagramme sind eine der beliebtesten Arten der Datenvisualisierung. Sie können zum Beispiel verwendet werden, um die Anzahl der Befragten nach Bundesländern, die Beliebtheit von Filmen in Kinos oder die Anzahl der in einem Geschäft verkauften Produkte darzustellen. Obwohl Säulendiagramme und Balkendiagramme häufig synonym verwendet werden, lohnt es sich, zwischen ihnen zu unterscheiden. Ein Säulendiagramm ist ein Diagramm, das Daten in vertikaler Ausrichtung in Rechtecken darstellt, während ein Balkendiagramm Daten in horizontaler Ausrichtung darstellt.
Grafik 1. Säulendiagramm und Balkendiagramm
Diese Art von Diagramm wird am häufigsten für qualitative Daten verwendet, d. h. für nominale und ordinale Variablen, aber es sei auch daran erinnert, dass wir mit dieser Art von Diagramm auch Daten für eine quantitative und eine qualitative Variable darstellen können. Im Folgenden werden in einem Balkendiagramm die 10 Filme mit den höchsten Einnahmen im Jahr 2021 in den USA dargestellt.
Grafik 2. Top 10 der umsatzstärksten Filme in den USA im Jahr 2021. (Werte in $).
Quelle:https://www.boxofficemojo.com/year/2021/
Unabhängig davon, ob die Balken vertikal oder horizontal angeordnet sind, sollte auf die Reihenfolge geachtet werden, in der sie angeordnet sind. Bei nominalen Variablen ist der Analytiker in der Regel daran interessiert, die Kategorien nach den auf den Balken dargestellten Werten zu sortieren, so dass der Betrachter die zahlreichsten und die am wenigsten zahlreichsten Kategorien leicht finden kann. Bei Ordinalvariablen ist zu bedenken, dass die einzelnen Kategorien dieser Variablen bereits ihre natürliche Reihenfolge haben, und in diesem Fall werden die Daten ohne Sortierung dargestellt.
SÄULEN- UND BALKENDIAGRAMM – BEISPIELE
Sehen wir uns die Säulen- und Balkendiagramme genauer an. Diese Arten von Diagrammen sind leicht zu lesen. Durch den Vergleich der Spitzen der Balken oder Säulen können wir die größten und kleinsten Werte sehen, und es ist leicht festzustellen, wie sich der Unterschied zwischen den Kategorien darstellt.
Wenn die Beschriftungen der Kategorien zu lang sind und nicht unter die Balken auf der X-Achse passen, empfiehlt es sich, das Säulendiagramm durch ein Balkendiagramm zu ersetzen. Dieses Layout erleichtert das Ablesen der dargestellten Daten.
Grafik 3. Bei langen Kategoriebezeichnungen (category labels) ist es sinnvoll, die Daten in einem Balkendiagramm darzustellen.
Da unser Auge die Beziehungen zwischen Balken oder Säulen vergleicht, sollten Sie daran denken, ein solches Diagramm auf der Achse beim Punkt 0 zu beginnen, da es sonst für den Betrachter irreführend sein könnte. In den beiden folgenden Diagrammen werden die gleichen Daten für die durchschnittliche Lohnsumme eines Unternehmens über einen Zeitraum von drei Jahren dargestellt. Aus dem oberen Diagramm geht hervor, dass die Löhne jedes Jahr um bis zu 50 % steigen. Ein Blick auf die Skala zeigt, dass sie nicht bei 0 beginnt, sondern bei einem Wert von 2900. Außerdem werden in diesem Diagramm keine Beschriftungen angezeigt, was ebenfalls die Wahrnehmung der dargestellten Daten beeinträchtigt.
Grafik 4. Skalenmanipulationen können zu einer irreführenden Wahrnehmung der präsentierten Daten führen.
GRUPPIERTE UND GESTAPELTE DIAGRAMME
Bei Säulen- und Balkendiagrammen haben wir die Möglichkeit, eine, zwei oder mehrere Datenreihen darzustellen. Durch Hinzufügen einer weiteren Variable können wir gruppierte und tabellarische Diagramme erstellen. In einem gruppierten Balken- oder Säulendiagramm enthält jede Kategorie der hinzugefügten Variablen einen Balken bzw. eine Säule für jede Kategorie der Hauptvariablen.
Grafik 5. Beispiel für ein gruppiertes Säulendiagramm (Verkaufsvolumen nach Produkttyp und Land)
Bei einem tabellarischen Balkendiagramm besteht jede Aussage aus einem Balken, der in übereinander gestapelte Segmente unterteilt ist. Die Höhe jedes Segments entspricht dem jeweiligen Wert. Jede Ebene einer Kategorievariablen entspricht einem sortierten Balken.
Grafik 6. Tabellarisches Balkendiagramm der Stichprobe (Bildung der Befragten vs. Wohnort)
Wenn wir Prozentsätze in Zusammenfassungs- und Gruppierungsdiagrammen darstellen wollen, können wir angeben, nach welcher Variable die Prozentsätze berechnet werden sollen. Wir können eine Zusammenfassung für die Gesamtzahl, die Gesamtzahl für jede Kategorie der X-Achsen-Variable oder die Gesamtzahl für jede Kategorie der Gruppierungsvariable berechnen.
HISTOGRAM
Lassen Sie uns nun erörtern, was ein Histogramm ist und wie es sich von einem Balken- oder Säulendiagramm unterscheidet. Ein Histogramm ist ein Säulendiagramm, bei dem die Säulen (Rechtecke) nebeneinander liegen und deren Höhe die Häufigkeit des untersuchten Merkmals angibt, während an der Basis des Diagramms (x-Achse) die Klassenintervalle der Variablen dargestellt sind. Das Histogramm ist ein Diagramm, das zur Darstellung quantitativer Daten, wie Alter, Einkommen, Größe oder Gewicht, verwendet werden kann. Beachten Sie, dass jedes Histogramm ein Säulendiagramm ist, aber nicht jedes Säulendiagramm ist ein Histogramm. Ein Histogramm wird häufig in der Anfangsphase der Arbeit mit Daten verwendet, wenn ein Analytiker sehen möchte, wie die Verteilung einer quantitativen Variable aussieht. Anhand eines Histogramms können Sie schnell beurteilen, ob eine Variable eine Verteilung aufweist, die einer Normalverteilung[1] nahe kommt, ob die Verteilung schief, unimodal oder vielleicht multimodal ist usw.
Grafik 7. Beispielhistogramm mit Normalkurve
Zusammenfassend lässt sich sagen, dass Säulen- und Balkendiagramme sehr beliebte Diagrammtypen sind. Ihr großer Vorteil ist, dass sie leicht zu interpretieren sind. Für Daten mit langen Kategoriebezeichnungen kann ein Balkendiagramm die Lösung sein. Säulen- und Balkendiagramme können sowohl für qualitative Variablen als auch für Kombinationen aus qualitativen und quantitativen Variablen verwendet werden. Bei quantitativen Daten eignet sich ein Histogramm gut, nicht nur um die Verteilung der Variablen darzustellen, sondern auch um sie mit einer Normalkurve zu vergleichen.
[1] Um genau zu prüfen, ob die Verteilung einer Variablen nahe an einer Normalverteilung liegt, werden Normalitätstests wie der Shapiro-Wilk- oder der Kolmogorov-Smirnov-Test verwendet.