Von PRZEMYSŁAW SOLECKI (Predictive Solutions)
Ein Streudiagramm, oder Scatterplot, ist ein beliebtes Diagnoseinstrument für Zusammenhänge zwischen quantitativen Variablen. Es ist von unschätzbarem Wert bei der Korrelationsanalyse, um die Art und Form der Beziehung zwischen zwei Variablen zu beurteilen.
ANWENDUNGEN DES MEHRDIMENSIONALEN SCATTERPLOTS
Das Scatterplot ist ein nützliches Instrument in anderen Bereichen der mehrdimensionalen Analyse, z. B. bei der linearen Regression, bei der Diagnose von Ausreißern oder zur Beurteilung der Qualität der abgeleiteten Gruppen, z. B. bei der Clusteranalyse.
Der Scatterplot erfüllt auch wichtige Präsentationsfunktionen. Mit diesem Werkzeug ist es möglich, Gruppen von Objekten mit ähnlichem Wert zu identifizieren, Segmente von Interesse zu unterscheiden und Regelmäßigkeiten (oder Unregelmäßigkeiten) in einem Datensatz zu beschreiben. Es kann zum Beispiel verwendet werden, um die Position einer Marke darzustellen (z. B. auf der Grundlage der Markenbekanntheit in einem Marktsegment), eine Visualisierung der Beziehung zwischen zwei Variablen zu erstellen oder Zielgruppen zu positionieren.
Es gibt zahlreiche Gründe, unser zweidimensionales Scatterplot mit zusätzlichen Informationen anzureichern. Eine schnelle und einfache Möglichkeit, dies zu erreichen, ist die Verwendung des großen Bruders des Scatterplots, des multidimensionalen Scatterplots, der in PS IMAGO PRO verfügbar ist.
Im mehrdimensionalen Scatterplot in Abb. 1 können wir unsere Produkte farblich von Konkurrenzprodukten unterscheiden, die im Rahmen der Clusteranalyse entwickelten Segmente durch die Form der Datenpunkte im Diagramm darstellen und den durchschnittlichen Produktpreis durch die relative Größe der Datenpunkte abbilden.
Figure 1. Sample multidimensional scatterplot
ZUSÄTZLICHE QUALITATIVE VARIABLE IM STREUDIAGRAMM / SCATTERPLOT
In einem unserer anderen Blogs haben wir das Streudiagramm und das Verteilungsdiagramm verwendet, um die günstigsten Angebote für Gebrauchtwagen zu ermitteln. Kehren wir nun zu diesem Beispiel zurück und analysieren die Angebote eines Beispiel-Autohändlers. Wir haben eine Datenbank mit Informationen über die Fahrzeugmarke, das Alter, den Kilometerstand, die Kraftstoffart und den Hubraum. Versuchen wir, die Abhängigkeiten zwischen dem Alter des Fahrzeugs, dem Preis und dem Kilometerstand zu analysieren.
Es ist nicht überraschend, dass das Alter des Fahrzeugs seinen Preis beeinflusst. Die Beziehung ist nicht überraschenderweise negativ (nachdem Oldtimer aus der Analyse ausgeschlossen wurden): Das Fahrzeug wird mit zunehmendem Alter billiger. Um die Art dieser Beziehung zu beurteilen, wählen wir das mehrdimensionale Streudiagramm, das sich unter Predictive Solutions-> Graphs befindet.
Figure 2. Relationship between vehicle age and price
Figure 3. Multi-dimensional scatterplot wizard
Figure 4. Relationship between age and price subject to the country of origin
Das Angebot umfasst europäische, asiatische und amerikanische Modelle (der tatsächliche Standort des Unternehmens und das tatsächliche Produktionsland werden hier nicht berücksichtigt). Wir stellen eine interessante Beziehung fest: Unabhängig vom Alter haben asiatische Autos im Allgemeinen höhere Preise als gleichaltrige Fahrzeuge aus anderen Teilen der Welt. Interessanterweise werden amerikanische Autos im Allgemeinen etwas niedriger bewertet. Wenn wir also „nur ein Auto“ suchen und nur auf den Preis und das Produktionsjahr achten, können wir durch die Wahl eines amerikanischen Autos etwas Geld sparen. Schauen wir uns nun die Gründe für eine solche Preisstrategie genauer an.
ZUSÄTZLICHE QUANTITATIVE VARIABLE IM STREUDIAGRAMM
Analysieren wir nun den Kilometerstand der Fahrzeuge. Dies ist eines der Schlüsselelemente bei der Bewertung des Abnutzungsgrads des zu kaufenden Fahrzeugs. Im Allgemeinen hängt der Kilometerstand vom Alter des Fahrzeugs ab, aber natürlich gibt es weitere Faktoren, die dieses Verhältnis beeinflussen können. Nehmen wir zum Beispiel den Verwendungszweck des Fahrzeugs: Firmenwagen werden intensiver genutzt als Privatwagen oder Autos, die als Zweitwagen in einem Haushalt dienen. In unserem Datensatz haben wir keine Informationen über die Nutzung des Fahrzeugs durch den Vorbesitzer. Wir verfügen jedoch über die Variable mit Informationen über den Hubraum, so dass wir versuchen, die Hypothese aufzustellen, dass der Hubraum des Fahrzeugs auch die Fahrleistung beeinflusst, unabhängig vom Alter. Fahrzeuge mit großen Motoren, die oft besser ausgestattet und einfach teurer sind, dienen häufiger als Erstwagen in einem Haushalt oder als Firmenwagen, was wiederum zu einer höheren Fahrleistung führt. Darüber hinaus werden Autos mit größeren Motoren häufiger von Autoliebhabern gekauft, die einfach mehr fahren. Fahrzeuge mit großen Motoren sind häufig auch große Autos, die sich besser für längere Fahrten eignen. All dies kann dazu führen, dass solche Autos mehr genutzt werden als kleine Stadtfahrzeuge. Analysieren wir die Beziehung zwischen diesen drei Variablen mit Hilfe des Matrix-Scatterplots, der in PS IMAGO PRO zur Verfügung steht (menu Graphs > Legacy Dialogs> Scatter/Dot).
Figure 5. Matrix graph: relationship between age, mileage and engine capacity
Figure 6. Relationship between age, mileage and engine capacity