Von PRZEMYSŁAW SOLECKI (Predictive Solutions)

Ein Streudiagramm, oder Scatterplot, ist ein beliebtes Diagnoseinstrument für Zusammenhänge zwischen quantitativen Variablen. Es ist von unschätzbarem Wert bei der Korrelationsanalyse, um die Art und Form der Beziehung zwischen zwei Variablen zu beurteilen.

 

ANWENDUNGEN DES MEHRDIMENSIONALEN SCATTERPLOTS

Das Scatterplot ist ein nützliches Instrument in anderen Bereichen der mehrdimensionalen Analyse, z. B. bei der linearen Regression, bei der Diagnose von Ausreißern oder zur Beurteilung der Qualität der abgeleiteten Gruppen, z. B. bei der Clusteranalyse.

Der Scatterplot erfüllt auch wichtige Präsentationsfunktionen. Mit diesem Werkzeug ist es möglich, Gruppen von Objekten mit ähnlichem Wert zu identifizieren, Segmente von Interesse zu unterscheiden und Regelmäßigkeiten (oder Unregelmäßigkeiten) in einem Datensatz zu beschreiben. Es kann zum Beispiel verwendet werden, um die Position einer Marke darzustellen (z. B. auf der Grundlage der Markenbekanntheit in einem Marktsegment), eine Visualisierung der Beziehung zwischen zwei Variablen zu erstellen oder Zielgruppen zu positionieren.

Es gibt zahlreiche Gründe, unser zweidimensionales Scatterplot mit zusätzlichen Informationen anzureichern. Eine schnelle und einfache Möglichkeit, dies zu erreichen, ist die Verwendung des großen Bruders des Scatterplots, des multidimensionalen Scatterplots, der in PS IMAGO PRO verfügbar ist.

Im mehrdimensionalen Scatterplot in Abb. 1 können wir unsere Produkte farblich von Konkurrenzprodukten unterscheiden, die im Rahmen der Clusteranalyse entwickelten Segmente durch die Form der Datenpunkte im Diagramm darstellen und den durchschnittlichen Produktpreis durch die relative Größe der Datenpunkte abbilden.

Figure 1. Sample multidimensional scatterplot

ZUSÄTZLICHE QUALITATIVE VARIABLE IM STREUDIAGRAMM / SCATTERPLOT

In einem unserer anderen Blogs haben wir das Streudiagramm und das Verteilungsdiagramm verwendet, um die günstigsten Angebote für Gebrauchtwagen zu ermitteln. Kehren wir nun zu diesem Beispiel zurück und analysieren die Angebote eines Beispiel-Autohändlers. Wir haben eine Datenbank mit Informationen über die Fahrzeugmarke, das Alter, den Kilometerstand, die Kraftstoffart und den Hubraum. Versuchen wir, die Abhängigkeiten zwischen dem Alter des Fahrzeugs, dem Preis und dem Kilometerstand zu analysieren.

Es ist nicht überraschend, dass das Alter des Fahrzeugs seinen Preis beeinflusst. Die Beziehung ist nicht überraschenderweise negativ (nachdem Oldtimer aus der Analyse ausgeschlossen wurden): Das Fahrzeug wird mit zunehmendem Alter billiger. Um die Art dieser Beziehung zu beurteilen, wählen wir das mehrdimensionale Streudiagramm, das sich unter Predictive Solutions-> Graphs befindet.

Figure 2. Relationship between vehicle age and price

Wie in der obigen Darstellung zu sehen ist, hat sich die ursprüngliche Hypothese bestätigt: Der Preis des Autos sinkt mit seinem Alter. Aus dem Diagramm geht jedoch hervor, dass der Preis nicht gleichmäßig sinkt, was durch die mit der LOESS-Anpassungsmethode im Menü „Diagrammbearbeitung“ eingefügte Linie der besten Anpassung erleichtert wird. Bei neueren Fahrzeugen ist der Preisrückgang jedes Jahr stärker als bei älteren Fahrzeugen. Kurz gesagt, Autos verlieren mit dem Alter langsamer an Wert. Schauen wir uns nun die Möglichkeiten dieser Visualisierung genauer an.

Figure 3. Multi-dimensional scatterplot wizard

Mit dem mehrdimensionalen Scatterplot in PS IMAGO PRO können Sie bis zu drei zusätzliche Dimensionen im Vergleich zum Standard-Scatterplot berücksichtigen (also insgesamt fünf Dimensionen). Es ist möglich, einen qualitativen Faktor zu berücksichtigen, indem man die Form oder die Farbe der Datenpunkte ändert (die Variable sollte in das Feld Form oder ihre Farben in das Feld Farbe verschoben werden). Das mehrdimensionale Scatterplo erlaubt auch die Verwendung einer zusätzlichen quantitativen Variable im Feld Größe. Schließlich ist noch zu erwähnen, dass im Menü Optionen die Farbpalette des Diagramms, die Benutzervorlage sowie die Option für den Diagrammtitel festgelegt werden können. Im folgenden Beispiel habe ich als Farbvariable die Region gewählt. Die Variable beschreibt das Herkunftsland des Fahrzeugmodells.

Figure 4. Relationship between age and price subject to the country of origin

Das Angebot umfasst europäische, asiatische und amerikanische Modelle (der tatsächliche Standort des Unternehmens und das tatsächliche Produktionsland werden hier nicht berücksichtigt). Wir stellen eine interessante Beziehung fest: Unabhängig vom Alter haben asiatische Autos im Allgemeinen höhere Preise als gleichaltrige Fahrzeuge aus anderen Teilen der Welt. Interessanterweise werden amerikanische Autos im Allgemeinen etwas niedriger bewertet. Wenn wir also „nur ein Auto“ suchen und nur auf den Preis und das Produktionsjahr achten, können wir durch die Wahl eines amerikanischen Autos etwas Geld sparen. Schauen wir uns nun die Gründe für eine solche Preisstrategie genauer an.

ZUSÄTZLICHE QUANTITATIVE VARIABLE IM STREUDIAGRAMM

Analysieren wir nun den Kilometerstand der Fahrzeuge. Dies ist eines der Schlüsselelemente bei der Bewertung des Abnutzungsgrads des zu kaufenden Fahrzeugs. Im Allgemeinen hängt der Kilometerstand vom Alter des Fahrzeugs ab, aber natürlich gibt es weitere Faktoren, die dieses Verhältnis beeinflussen können. Nehmen wir zum Beispiel den Verwendungszweck des Fahrzeugs: Firmenwagen werden intensiver genutzt als Privatwagen oder Autos, die als Zweitwagen in einem Haushalt dienen. In unserem Datensatz haben wir keine Informationen über die Nutzung des Fahrzeugs durch den Vorbesitzer. Wir verfügen jedoch über die Variable mit Informationen über den Hubraum, so dass wir versuchen, die Hypothese aufzustellen, dass der Hubraum des Fahrzeugs auch die Fahrleistung beeinflusst, unabhängig vom Alter. Fahrzeuge mit großen Motoren, die oft besser ausgestattet und einfach teurer sind, dienen häufiger als Erstwagen in einem Haushalt oder als Firmenwagen, was wiederum zu einer höheren Fahrleistung führt. Darüber hinaus werden Autos mit größeren Motoren häufiger von Autoliebhabern gekauft, die einfach mehr fahren. Fahrzeuge mit großen Motoren sind häufig auch große Autos, die sich besser für längere Fahrten eignen. All dies kann dazu führen, dass solche Autos mehr genutzt werden als kleine Stadtfahrzeuge. Analysieren wir die Beziehung zwischen diesen drei Variablen mit Hilfe des Matrix-Scatterplots, der in PS IMAGO PRO zur Verfügung steht (menu Graphs > Legacy Dialogs> Scatter/Dot).

Figure 5. Matrix graph: relationship between age, mileage and engine capacity

Während das Fahrzeugalter in unserem Datensatz nicht mit dem Hubraum zusammenhängt, besteht zwischen der Fahrleistung und dem Hubraum eine starke lineare Abhängigkeit (linearer Korrelationskoeffizient = 0,785). Die Fahrleistung hängt auch mit dem Alter des Fahrzeugs zusammen, aber interessanterweise ist die Korrelation zwischen diesen Variablen viel geringer (0,411). Der Grund für dieses Phänomen kann das Vorhandensein mehrerer relativ junger Fahrzeuge im Datensatz sein, die jedoch eine höhere Laufleistung aufweisen, als in der Matrixstreuung zu sehen ist. Zur Veranschaulichung der Beziehung zwischen den besprochenen Variablen anhand eines einzigen Diagramms verwenden wir erneut das mehrdimensionale Streudiagramm. Diesmal verschieben wir die Variable Kapazität in das Feld Größe, wobei die Variable Jahre auf der X-Achse und die Variable Fahrleistung auf der Y-Achse liegt.

Figure 6. Relationship between age, mileage and engine capacity

Auf dem Schaubild fällt eine Gruppe von Fahrzeugen mit einer relativ hohen Kilometerleistung auf, die jedoch weniger Jahre auf dem Buckel haben: Sie heben sich von der allgemeinen linearen Abhängigkeit zwischen Fahrzeugalter und Kilometerleistung ab, und wie wir sehen können, handelt es sich dabei um Fahrzeuge mit größerem Hubraum. Möglicherweise handelt es sich um Lieferfahrzeuge oder ehemalige Firmenwagen (z. B. von Handelsvertretern). Aus dem Diagramm geht auch hervor, dass Autos mit großem Hubraum im Vergleich zu gleichaltrigen Fahrzeugen eine deutlich höhere Fahrleistung aufweisen. Zusammengefasst: Die zusätzliche Visualisierung hat es uns ermöglicht, schnell weitere Merkmale zu finden, die den Fahrzeugpreis beeinflussen. Das in PS IMAGO PRO verfügbare [Multidimensionale Streudiagramm] ermöglicht die einfache Darstellung mehrdimensionaler Beziehungen zwischen Variablen. Es kann sowohl als interessante Form der Visualisierung als auch als nützliches Werkzeug zur Unterstützung eines Analysten, der mit mehrdimensionalen Techniken arbeitet, verwendet werden.

Pin It on Pinterest

Share This