Goldschürfen in der Datenmine

Wie Kaufhäuser per Computer Kunden ködern. „Data Mining” – Datenschürfen – heißt das Zauberwort, mit dem Versandhäuser und Versicherungen den Konsumwünschen ihrer Kunden auf die Schliche kommen wollen. Computerprogramme filtern dabei aus Millionen von Kundendaten überraschende Zusammenhänge heraus. Dreißig Prozent der Kunden, die im Supermarkt Windeln kaufen, kaufen auch Bier. 55 Prozent, die Milch kaufen, nehmen noch ein weiteres Milchprodukt mit; 42 Prozent der Milchkäufer legen auch Brot in den Warenkorb. Zwei überraschende Erkenntnisse, die eines gemeinsam haben: Sie wurden mit einem neuen Verfahren zur Analyse elektronischer Daten gewonnen, dem sogenannten Data Mining. Die Kunst des Datenschürfens ist noch gar nicht so alt: 1990 bat der Kaufhauskonzern Marks and Spencer das Almaden-Forschungszentrum der IBM in San José, Kalifornien, um Hilfe. Jahrelang hatte das Unternehmen Daten über seine Kunden und deren Kaufverhalten gesammelt. Nun verfügte man über viele Gigabyte an Informationen, konnte aber nichts Sinnvolles damit anfangen. “Die Firma wollte einen Nutzen aus den Datenmengen ziehen, den traditionelle Analyse-Systeme nicht bieten konnten”, erinnert sich Rakesh Agrawal. Der IBM-Mann bekam den Auftrag, neue Verfahren zu entwickeln, die in einer vernünftigen Rechenzeit auch gigantische Datenmengen nach überraschenden und nützlichen Informationen durchforsten konnten. Marks and Spencer blieb kein Einzelfall. In Zeiten der elektronischen Datenverarbeitung haben sich die Archive von Banken, Versicherungen und Versandhäusern mit Massen von Daten gefüllt, die ungenutzt vor sich hin schlummern. Für das Sammeln der Daten wurde mehr Sorgfalt aufgewendet als für deren Auswertung. Ganze vier Prozent der Informationen, so schätzen die Manager von Marks and Spencer, habe man vor 1990 genutzt – zuwenig für eine erfolgreiche Unternehmensführung. Inzwischen haben viele Firmen erkannt, daß ihre Datenbestände wahre Goldminen sind – wenn sie effektiv ausgewertet werden. Software-Berater, die sich als Schatzsucher betätigen, bezeichnen sich deshalb gerne als “Miner” – Bergleute, die im Bergwerk der Daten nach Goldadern oder wenigstens Nuggets suchen. So wollten die Manager des Versandhauses Oppermann in Münster erfahren, welche Artikel oft zusammen gekauft werden. Die Analyse der Kundendaten ergab zum Beispiel, daß der Käufer einer Uhr häufig auch Kugelschreiber bestellt. “Data Mining legt Zusatzbedürfnisse offen”, sagt Abteilungsleiter Peter Lief. “Die Erkenntnisse nutzen wir bei der Gestaltung unserer Kataloge.” Logisch, daß im nächsten Katalog die Kugelschreiber neben den Uhren zu finden waren. In kaum einer anderen Branche gibt es so detaillierte Kundendaten wie im Versandhandel. Die Datenbanken von Quelle, Neckermann und Co. enthalten nicht nur Namen, Adressen, Bestelldatum und Ordervolumen der Kunden, sondern auch Angaben, wie häufig bestimmte Artikel geordert wurden. Richtig interpretiert, ergeben sich daraus typische Konsum-Muster. Günstigstenfalls lassen sich die Kunden bestimmten Gruppen zuordnen, deren Kaufverhalten mehr oder weniger gut vorhergesagt werden kann. Daraus ergeben sich nicht nur Hinweise für die Kataloggestaltung, sondern auch neue Strategien bei Werbung und Marketing. Auch die Analyse der elektronisch registrierten Kassenbons eines Supermarkts, eines Kaufhauses oder einer Einzelhandelskette gibt Aufschluß über Zusammenhänge, die selbst der erfahrenste Filialleiter mit gesundem Menschenverstand nicht erkennt. “Der Bon als Stimmzettel des Konsumenten”, sagt Edmund Michels, der in der Düsseldorfer IBM-Filiale Kunden aus Handel und Dienstleistung berät, “erhält durch Data Mining eine völlig neue Bedeutung.” Michels nennt ein Beispiel: “Kunden, die Margarine XY kaufen, kaufen zu 71,4 Prozent auch Obst und Gemüse. Beide Artikel- und Sortimente beeinflussen sich also positiv. Eine Streichung der Margarine XY aus dem Angebot ist deshalb nicht ratsam, auch wenn die Gewinnspanne im Vergleich zu anderen Margarinesorten vielleicht geringer ist.” Die Analyse geht noch weiter: “Wir fanden einen Kunden-Typ, der am Freitag zwischen 16 und 18 Uhr sehr hohe Bons erzeugt, bestimmte Abteilungen aufsucht und hochpreisige Ware bevorzugt”, erzählt Michels. Das Unternehmen kann sich durch besondere Aktionen, durch Besetzung der Kassen und besonders freundliche Bedienung darauf einstellen. Ein anderes Phänomen ist, daß sich bestimmte Artikel als Indikatoren für besonders hohe Kundenbons ausmachen lassen. Landet ein solcher Artikel im Einkaufskorb, kann man mit großer Wahrscheinlichkeit davon ausgehen, daß der Kunde relativ viel Geld ausgeben wird. Im Sinne eines erfolgreichen Mikromarketings wird der Einzelhändler derartige Waren an passenden Stellen plazieren. Auf den ersten Blick erscheint es leicht herauszufinden, wie viele Kunden eines Versandhandels sowohl Uhren als auch Kugelschreiber gekauft haben. Schwierig wird es, wenn man vorher nicht weiß, nach welchen Kombinationen man suchen soll. Schlimmer noch: Wenn Tausende von Artikeln analysiert werden müssen, steigt die Anzahl der möglichen Kombinationen ins Astronomische. Mit konventionellen Abfragemethoden ist das nicht zu bewältigen. Das mathematische Verfahren, das hinter der Einteilung in Kundengruppen steckt, heißt Clusteranalyse. Objekte mit gleichen oder ähnlichen Eigenschaften werden dabei in einen Topf (Cluster) geworfen, unähnliche Objekte kommen in verschiedene Töpfe. Das klingt trivial, wird aber durch die Menge der Daten schnell zum Alptraum. Schon bei drei Kunden gibt es fünf Möglichkeiten: Alle sind ähnlich, alle sind unähnlich, dreimal sind je zwei in einem Cluster. IBM-Mathematiker Grabmeier rechnet hoch: “Bei zehn Kunden gibt es schon 115975 Möglichkeiten, bei 71 Kunden liegt die Anzahl der möglichen Kombinationen bei 4 . 1074. Das ist etwa die Anzahl der Atome im Weltall.” Und man möchte ja nicht nur 71, sondern Tausende von Kunden analysieren. Einen Ausweg aus dem Dilemma bietet die sogenannte relationale Datenanalyse. Jedem Kunden werden Eigenschaften in Form von 1 oder 0 zugeordnet. Die Zahlen geben an, ob bestimmte Eigenschaften – zum Beispiel Alter, Wohnort oder Kaufgewohnheiten – gemeinsam auftreten oder nicht. Gruppiert man alle Daten nebeneinander, ergibt sich eine Datenmatrix aus Nullen und Einsen. Sie wird vom Rechner so umgeschichtet, daß sich möglichst viele Einsen und Nullen in Blöcken konzentrieren. Diese Blöcke stellen die Cluster dar. Zur Ermittlung der Ähnlichkeit zwischen den Clustern haben sich die Mathematiker komplizierte Rechenverfahren ausgedacht, die maximale Übereinstimmungen herausfiltern. Inzwischen sind die Algorithmen so ausgefeilt, daß sich die Rechenzeiten auch bei umfangreichen Analysen im erträglichen Rahmen halten. Edmund Michels berichtet von einer Untersuchung, bei der rund 300000 Kassenbons analysiert wurden, auf denen etwa 50000 unterschiedliche Artikel registriert waren. Es wurden rund 4000 signifikante Artikelverknüpfungen gefunden. “Die Rechenzeit betrug nur 15 Minuten”, sagt er stolz. Sind erst einmal die Cluster bekannt, lassen sich diesen neue Kunden zuordnen. Das erlaubt Aussagen über das wahrscheinliche Verhalten in der Zukunft. Käufer teurer Sportwagen werden in einer Marktanalyse als typischerweise junge, gut verdienende Städter klassifiziert, die Käufer luxuriöser Großraum-Limousinen gehören hingegen meist in die Klasse der älteren, wohlhabenden Männer. Eine Untersuchung in England ergab, daß Personen, die im Antragsformular keine Angabe über ihr Geschlecht gemacht hatten, die Verträge früher wieder kündigten als andere. Manche Erkenntnisse, die per Data Mining ausgegraben werden, erscheinen plausibel, andere wirken verwunderlich. Die wahre Kunst des Miners besteht deshalb darin, Gold von Katzengold zu unterscheiden, indem er Artefakte, die zufällig durch die Rechenverfahren entstanden sind, von echten Ergebnissen unterscheidet. Deshalb hat sich auch der Einsatz neuronaler Netze nicht bewährt, die nach dem Vorbild des Gehirns lernfähig sind. Diese Verfahren waren wegen ihrer Undurchschaubarkeit den Kunden kaum zu vermitteln. “Entscheidungen, die man aufgrund von Data Mining fällt, haben oft mit sehr viel Geld zu tun”, erklärt Beatriz de la Iglesia von der University of East Anglia, “und kein Kunde ist begeistert, wenn er Ideen akzeptieren soll, deren Entstehung er nicht nachvollziehen kann.” So mußte Konrad Feldman von der Londoner Beratungsfirma Searchspace passen, als er einer italienischen Auskunftsfirma eine Analyse anbot, die weit besser als herkömmliche Verfahren vorhersagte, ob eine Firma in Gefahr war, bankrott zu gehen. Trotz der hohen Erfolgsquote waren die Mitarbeiter der Auskunftsfirma nicht in der Lage, ihre Argumente den Banken zu vermitteln. “Diese wollten genau wissen, warum bestimmte Firmen ein hohes Risiko darstellten – und überhaupt:Was sind schon neuronale Netze?”, faßt Feldman die Bedenken zusammen. Die Darstellung der Analyse-Ergebnisse ist deshalb von zentraler Bedeutung. Immer häufiger werden dazu grafische Mittel eingesetzt. So haben Hans-Peter Kriegel und Daniel A. Keim am Institut für Informatik der Universität München ein Verfahren entwickelt, das Ähnlichkeiten zwischen Objekten so darstellt, daß das menschliche Auge sie intuitiv erfassen kann. “Unser Ziel ist es, den Mensch in das Data Mining mit einzubeziehen”, erläutern die beiden Forscher. So ist es ihnen gelungen, die Entwicklung der Aktienkurse von Januar 1974 bis April 1995 – das entspricht 532900 Datenwerten – farblich kodiert so anzuordnen, daß man auf den ersten Blick ähnliche Kursentwicklungen bei völlig unterschiedlichen Papieren erkennt. Nach Einschätzung wichtiger Marktforschungsinstitute ist das alles erst der Anfang: Die Gartner Group sieht im Data Mining zusammen mit den entsprechenden Höchstleistungsrechnern und parallelen Datenbanken einen der größten Wachstumsmärkte der kommenden Jahre. Victor Sanchez, Europa-Direktor für den Server-Bereich bei Silicon Graphics, wird konkreter: Seine Firma will im Jahr 2000 rund eine Milliarde Dollar mit Lösungen rund um das Data Mining umsetzen. 60 Prozent der Einnahmen erwartet er vom Verkauf der Hardware, je etwa 20 Prozent bei Software und Service. Vor allem im Bereich Visualisierung wolle Silicon Graphics noch einen Schritt weiter gehen als alle Konkurrenten und “die Ergebnisse quasi auf Knopfdruck für das Auge erfaßbar machen”, verspricht Sanchez. Zunehmend werden Data-Mining-Algorithmen auch für andere aufwendige Suchaufgaben, zum Beispiel für Bilder und Texte, entwickelt: So wurde an der Universität Bremen kürzlich ein intelligenter “Image-Miner” vorgestellt, der Bilder automatisch nach Inhalten analysiert und bei einer Anfrage selbständig passende Bilder aus großen Datenbanken auswählt. Eine Erweiterung auf Videoszenen ist in Vorbereitung. Die Universität Bremen arbeitet dabei mit dem Filmarchiv von Radio Bremen zusammen. Nicht nur dem Handel, auch der Wissenschaft verspricht Data Mining neue Impulse. In der digitalen Datenbank des Observatoriums auf dem Mount Palomar liegen beispielsweise Milliarden von Daten über Sterne. Zu gern hätten die Astronomen gewußt, welcher Lichtpunkt sich genauer zu betrachten lohnt. Data Mining brachte den entscheidenden Fortschritt: Die Wissenschaftler fanden 16 vorher unbekannte Quasare, die sich in den Datenmengen verbargen. Infos im Internet IBM-Data-Mining-Projekt: http://www.research.ibm.com/dssgrp Data-Mining-Links: http://www.cs.uah.edu/~infotech/mineproj.html. Brigitte Röthlein

Goldschürfen in der Datenmine

Mehr aus Allgemein

Wählen Sie mit!

Glatte Haut durch Trinken?

Quantität frisst Qualität

Wo ist das Ende der Welt?