Interaktive Datenanalyse mit Mondrian (Open Source)

11Mai09

Interactive Graphics for Data AnalysisIm Zuge meiner Erkundungen in R stoße ich des öfteren man Autoren, über die man zu an anderen interessanten Projekten gelangt. So auch im Fall von Simon Urbanek, Autor diverser R-Packages. Er ist zusammen mit Martin Theus Autor des Buches Interactive Graphics for Data Analysis. Dieses enthält eine Einführung in die graphische Datenanalyse, ein Thema, das an vielen Universitäten eher stiefmütterlich behandelt wird. Zwar wird regelmäßig in Statistik Veranstaltungen darauf hingeweisen, die Daten erst einmal anzuschauen, bevor gerechnet wird. Entsprechende Tools werden jedoch selten vorgestellt. So begnügt man sich in der Regel damit, dutzende von Plots zu erstellen und diese Schritt für Schritt zu modifizieren.

Theus und Urbanek stellen in ihrem Buch das Open Source und Freeware Programm Mondrian vor. In seiner Funktionalität ähnelt es nach Angaben der Autoren DataDesk®. Es ist sehr gut geeignet, um einen graphischen Eindruck der Struktur der Daten zu erhalten. Es können Boxplots, Barcharts, Mosaic Plots, Histogramme, Spineplots, Parallell Plots etc. angefertigt und in verschiedenen Fenstern gleichtzeitig geöffnet werden. Weiterhin stehen diverse Optionen zur interaktiven Auswahl von Datensubsets zur Verfügung. So sind einfache Selektionen als auch kombinierte Selektionensequenzen möglich. Die ausgewählten Bereiche werden in allen geöffneten Fenstern zugleich hervorgehoben (highlighting), so dass die Struktur des Teildatensatzes im Verhältnis zu den Gesamtdaten aus untzerschiedlichen Perspektiven betrachtet werden kann und so ggf. besser hervortritt. Unter http://www.rosuda.org/Mondrian/ finden sich eine Reihe von Beispielen. Auch kann das Tool hier runtergeladen werden. Ein Blick auf dieses Tools ist sicherlich lohnenswert.



%d Bloggern gefällt das: