Bearbeiter: H.-J. Mucha, R. Siegmund-Schultze (FG 7), G. Reinhardt, J. Fuhrmann (FG 3)
Kooperation: G. Nakhaeizadeh, U. Grimmer, H. Kauderer (Forschungszentrum Daimler Benz AG Ulm), K. Dübon (Mercedes Benz AG Stuttgart)
Förderung: Daimler Benz AG Ulm
Beschreibung der Forschungsarbeit:
Seit 1995 wird die Windows-Software ClusCorr zur Clusteranalyse, Klassifikation und multivariaten grafischen Darstellung umfangreicher und hochdimensionaler Datenmengen entwickelt. Das Verfahrensinventar wird ständig verbessert und erweitert. So wurden z. B. Verfahren zur nichtparametrischen Dichteschätzung für den ein- und zweidimensionalen Fall aufgenommen. Für umfangreiche Datenmengen wird die WARPing-Technik zur zeitlich effektiven Dichteschätzung als Standardvariante empfohlen.
ClusCorr unter Microsoft EXCEL wurde auf der CeBIT 96 in Hannover und auf der Innovationsmesse in Leipzig vorgestellt. Hierbei wurde einer größeren Anzahl von potentiellen Anwendern und Interessenten statistische Beratung gegeben. ClusCorr zielt auf einen breiten Anwenderkreis, der theoretisch und praktisch in Lehre, Ausbildung, Forschung und Wirtschaft mit statistischer Datenanalyse befaßt ist. Den Schwerpunkt dieser Software bilden Clusteranalyse-Methoden, die auf adaptiven Distanzen beruhen. In hochdimensionalen Merkmalsräumen können oft erst durch Benutzung adaptiver Distanzen Strukturen (Klassen, Hierarchien) erkannt und mit multivariaten Projektionsmethoden visualisiert werden.
Auf der Konferenz IFCS-96 (Fifth Conference of the International Federation of Classification Societies) wurde ein Vortrag über adaptive Klassifikation gehalten und eine Software-Demonstration zu ClusCorr durchgeführt. Im Juni 1996 wurde auf Einladung des Forschungszentrums der Daimler Benz AG ein Workshop zur Clusteranalyse veranstaltet. Über den aktuellen Entwicklungsstand von ClusCorr wurde auch auf der vom WIAS organisierten Herbsttagung der Gesellschaft für Klassifikation vorgetragen. Mit der Statistik-Software ClusCorr waren neben der Beratungstätigkeit auch Einnahmen aus Verkäufen verbunden.
Ausgangspunkt des Teilprojektes Data Mining Software Clementine war die erfolgreiche Anwendung adaptiver Clusteranalyse-Methoden zur Lösung von Klassifikationsproblemen und als vorbereitende statistische Datenanalyse für Machine Learning / Knowledge Discovery Verfahren aus dem Bereich Credit Scoring und Data Mining. Die Ergebnisse adaptiver distanzbasierter Modelle können z. B. in neuronale Netze eingespeist werden. Ein (sehr willkommener) Nebeneffekt ist hierbei die Zeitreduzierung in der Lernphase des neuronalen Netzes um ein Vielfaches. Der lokal adaptive Distanzzugang bietet zusätzlich die Möglichkeit, hochdimensionale alphanumerische und numerische Daten graphisch darzustellen.
Während des ersten Arbeitsaufenthalts im Forschungszentrum der Daimler
Benz AG in Ulm im September wurde mit der Realisierung des
Clusteranalyse-Projekts
für die Data Mining Software Clementine begonnen. Die Verarbeitung
von Massendaten erfordert jedoch sehr effiziente numerische Algorithmen
und eine aufwendige Grafik. Aus diesem Grunde begann eine intensive
abteilungsübergreifende Zusammenarbeit im WIAS. Erste vielbeachtete
Ergebnisse konnten auf der Herbsttagung der Gesellschaft
für Klassifikation,
die im WIAS stattfand, vorgestellt werden. Daraufhin entwickelte sich
eine breitere Kooperation
mit dem Forschungszentrum der Daimler Benz AG. Auf einem weiteren
Arbeitstreffen
in Ulm wurden Vorträge gehalten und eine erste Betaversion des
gesamten Projekts realisiert, das die Portierung der adaptiven
Clusteranalyse mit multivariater Grafik auf der Grundlage der
OpenGL-basierten Toolbox gltools
des WIAS, S.
,
in die Data Mining Software Clementine vorsieht.
Die wissenschaftliche Zusammenarbeit konzentriert sich insbesondere auf
die Anpassung
adaptiver Clusteranalyse-Modelle an die Erfordernisse der statistischen
Analyse von
Massendaten und auf die Implementierung und Nutzung effektiver
numerischer Algorithmen zur
Lösung von Approximations- und Optimierungsproblemen in
Klassifikationsmodellen und zur graphischen Ergebnisausgabe.
Das Teilprojekt Distanzbasiertes Kredit Scoring entstand 1995 auf Initiative von Herrn K. Dübon (Mercedes Benz AG Stuttgart, Abt. Finanzcontrolling). Ausgangspunkt war die Fragestellung, ob (adaptive) Clusteranalyse-Methoden für Klassifikationsaufgaben aus dem Bereich Kredit Scoring und Data Mining als Alternative zu Maschine Learning / Knowledge Discovery- Verfahren eingesetzt werden können oder/und als ,,sinnvolle`` vorbereitende Datenanalyseschritte für die obengenannten Verfahren geeignet sind.
Hierbei liegt der Untersuchungsschwerpunkt auf der Verarbeitung von qualitativen (kategorialen) und quantitativen (ordinalen, metrischen) Informationen mit dem Ziel, möglichst optimale Entscheidungsregeln hinsichtlich der Fehlerrate abzuleiten. Zum Beispiel ist über die Annahme oder Ablehnung beantragter Kredite mit minimaler Fehlerrate zu entscheiden. Die Aktivitäten werden in Zusammenarbeit mit der Gruppe Maschinelles Lernen (Daimler Benz AG) weitergeführt. Der Hauptschwerpunkt der wissenschaftlichen Zusammenarbeit verlagert sich zunehmend auf die Untersuchung und Berücksichtigung dynamischer Aspekte sowie auf Stabilitätsuntersuchungen durch Simulationsstudien.
Projektliteratur: