Von Przemyslaw Solecki (Predictive Solutions)

Die Analyse der Häufigkeit, Gruppenstruktur oder des prozentualen Anteils ist eine der ersten Aufgaben eines Analysten.

Die grundlegendste Form der statistischen Beschreibung ist die Tabelle (nützlich insbesondere für die Analyse qualitativer Variablen), die sowohl Zählungen als auch aggregierte Statistiken (Anteile, Summen, Durchschnittswerte usw.) enthält. Dennoch ist sie eine eher unattraktive Form der Ergebnisvisualisierung. Aus diesem Grund verwenden wir oft Plots, um die Ergebnisse zu präsentieren. Diese Form der Darstellung der variablen Verteilung ist viel übersichtlicher und hilft, schnell auf die analysierten Werte zuzugreifen.

Was aber, wenn eine Variable mehrere Dutzend oder mehrere hundert Kategorien hat? Wie kann man den Anteil der einzelnen Dörfer an der Struktur einer Region beurteilen oder die Fülle des Pressevokabulars darstellen? Eine weitere Herausforderung wäre eine Analyse der Phrasen, die von den Benutzern des Online-Shops in einer Suchmaschine verwendet werden, oder der Themen, über die Hotelgäste in Kommentaren schreiben.

Sind wir gezwungen, Kategorien zusammenzufassen oder traditionelle Plots zu verwenden, die oft kaum lesbar (oder sogar völlig unleserlich) sind? In solchen Fällen hilft eine sehr attraktive Technik der visuellen Darstellung der Gewichtung einzelner Kategorien: die Wortwolke, auch Tagcloud genannt. Ihre traditionelle Anwendung ist unten dargestellt.

Obwohl die Wordcloud hauptsächlich mit den neuesten Formen der Visualisierung in Verbindung gebracht werden kann, geht ihr Ursprung auf den Beginn des zwanzigsten Jahrhunderts zurück. Das ist richtig! Die Wordcloud ist fast ein Jahrhundert alt! Sie wurde zum ersten Mal von André Breton, einem Schriftsteller, Literaturkritiker und Surrealismustheoretiker, verwendet, um die Schlussfolgerungen seiner Forschungen zu untermauern, indem er den Einfluss einzelner Schriftsteller auf die Entstehung dieser Bewegung darlegte. In ihrer ursprünglichen Skizze verwendeten André Breton und Robert Desnos die Schriftgröße, um das Gewicht der einzelnen Autoren darzustellen, und die Farbcodierung lieferte eine zusätzliche Klassifizierung.

Die Wordcloud  die den Benutzern von PS IMAGO PRO zur Verfügung steht, bezieht sich auf diese klassischen Lösungen. Wir werden seine Möglichkeiten jetzt diskutieren. Unsere Analyse wird sich auf Eurostat-Daten über die Bevölkerungsgröße in ausgewählten europäischen Ländern stützen[1]. Die siebenunddreißig Staaten sind zu viele für eine Tabelle, ein Balken- oder Tortendiagramm, aber wir wollen nicht nur eine Standard-TOP 10 erstellen. Hier kommt die Wordcloud ins Spiel. Schauen Sie sich die folgende Visualisierung an.

Die Interpretation ist sehr einfach; je größer die Schrift, desto größer ist die Häufigkeit oder der Anteil in der analysierten Struktur. Diese Art der Visualisierung funktioniert perfekt, wenn es darum geht, die dominante Kategorie zu identifizieren. Sie können die Namen der Länder mit den grössten Bevölkerungszahlen leicht lesen. Sie hilft auch dabei, die gesamte Skala der Vielfalt der variablen Kategorieanzahl zu beurteilen. Ein weiterer Vorteil der Wordcloud ist ihre relativ prägnante Form: Sie nimmt in einem Bericht viel weniger Platz ein als die darin enthaltene Häufigkeitstabelle, und Sie brauchen nicht mehrere Tabellen oder die Kategorie „andere“ zu verwenden. Es ist auch einfach, die Länder optisch in grosse, mittlere und kleine Länder zu unterteilen. Trotz einer großen Anzahl analysierter Kategorien ist die Wordcloud eine relativ übersichtliche Visualisierung. Deshalb funktioniert sie gut, wenn eine große Anzahl von Kategorien, Wörtern oder Tags analysiert wird. Dies macht sie zu einem besonders attraktiven Werkzeug für die Analyse von Textdaten.

Die Wordcloud weist jedoch einige interpretative Fallen auf, die ich an einem einfachen Beispiel erläutern möchte. Die Wordcloud wird in erster Linie als eine attraktive Form der Visualisierung verwendet, so dass es sehr schwierig ist, das Größenverhältnis zu lesen, zumal die Wörter nicht maßstabsgetreu sind. Ein unerfahrener Rezipient kann die Oberfläche des Wortes statt seiner Höhe interpretieren, so dass längere Wörter wichtiger erscheinen können. Dies kann mit abgekürzten Namen von Kategorien oder Codes gelöst werden. Weitere Merkmale, die berücksichtigt werden müssen, sind Schriftart und Farbe. Es ist eine gute Idee, nur Groß- oder Kleinbuchstaben zu verwenden, ausgefallene Schriftarten zu vermeiden und eine einzige Farbe zu verwenden. Die Wahrnehmung des Gewichts eines Wortes kann von den Wörtern, die es umgeben, und von der Entfernung zum Zentrum der Wolke abhängen. Die oben erwähnten Vorbehalte beziehen sich auf die falsche Interpretation, die sich daraus ergibt, dass der Benutzer optischen Täuschungen nachgibt, und nicht aus Fehlern der Wolke selbst, die ein besonders attraktives Visualisierungsinstrument bleibt.

Schauen wir uns weitere Optionen des Wordcloud Algorithmus in PS IMAGO PRO genauer an. Wir werden wieder Eurostat-Daten verwenden[1]. Dieser Datensatz konzentriert sich auf das Bruttoinlandsprodukt in den EU-Mitgliedstaaten und Kandidatenländern. Wir werden zusätzlich Farben verwenden, um EU-12, Länder, die der Europäischen Union (nach 1995) beigetreten sind, und Länder, die der EU beitreten wollen oder anderweitig mit ihr assoziiert sind, zu unterscheiden.

Verwendung von zwei Visualisierungsmodi: Wörter, wie in Abbildung 2 dargestellt, und Sprechblasen, wie oben dargestellt. Im letzteren Fall wird die Oberfläche des Kreises bewertet. Die Verwendung von Blasen löst das Problem der schwierigen Interpretation von Wörtern unterschiedlicher Länge. Der Benutzer kann zwischen einer regulären Häufigkeitsanalyse, der Verwendung einer zusätzlichen aggregierten Variablen und der Auswahl einer Farbvariablen wählen, die die Farben der einzelnen Kategorien beeinflusst. Ein interessanter Effekt kann erreicht werden, indem die Reihenfolge der Kategorien verändert wird; sie werden wie ein Schneckenhaus vom Zentrum der Cloud/Wolke aus geordnet. Die verfügbaren Optionen sind: aufsteigende Reihenfolge (die kleinsten Kategorien in der Mitte), absteigende Reihenfolge (die größten Kategorien in der Mitte), zufällig, alphabetisch und nach der Farbvariablen. Luftblasen erleichtern auch die Verwendung von Etiketten mit dem Namen, der Anzahl, dem Wert und dem Anteil an der Summe oder Anzahl der Kategorie. Auf diese Weise wird die Visualisierung präziser.

Wie Sie sehen, ist die Wordcloud eine Methode zur attraktiven Visualisierung einer Häufigkeitstabelle oder einer Tabelle mit aggregierten Statistiken für einzelne Kategorien. Sie funktioniert besonders gut für Variablen mit einer großen Anzahl von Kategorien. Der Benutzer ist nicht auf die Anzahl und Summe beschränkt. Er kann auch andere Statistiken und Werte beliebiger Indizes verwenden. Die Wordcloud wird Ihrem Bericht ohne Zweifel Farbe verleihen. Sie kann auch interessante Schlussfolgerungen erleichtern, die in einer Tabelle oder einem traditionellen Plot nicht deutlich sichtbar sind.

[1] Quelle der Daten: Eurostat (https://ec.europa.eu/eurostat/data/database). Die Daten umfassen 37 Länder: Mitgliedstaaten der Europäischen Union, Kandidatenländer oder Staaten, die eine Mitgliedschaft anstreben, Norwegen, Island und die Schweiz. Bosnien und Herzegowina wurde aufgrund des Mangels an Daten ausgeschlossen.

Kontaktieren Sie uns, um mehr über diese und alle anderen großartigen Funktionen von PS IMAGO PRO zu erfahren! 

Pin It on Pinterest

Share This