Grosse Zahlen sind zur Gewohnheit geworden. Seit Politiker und Finanzexperten regelmäßig mit monströsen Beträgen hantieren, um Banken, Krisenländer oder den Euro zu retten, nehmen viele Menschen die Schlagzeilen über Millionen, Milliarden oder Billionen Euro mit Achselzucken hin. Doch die Dimensionen, um die es bei den weltweit kursierenden digitalen Daten geht, übertreffen bei Weitem selbst den Umfang der dicksten Euro-Rettungspakete. Und diese Datenfülle weckt Begehrlichkeiten.
1,8 Zettabyte (Trilliarden Byte) an Daten – eine Zahl mit 21 Stellen hinter dem Komma – wurden 2012 weltweit neu generiert, schätzen Forscher des Fraunhofer-Instituts für Intelligente Analyse- und Informationssys- teme (IAIS) in Sankt Augustin. Experten des IT-Beratungsunternehmens IDC gehen davon aus, dass sich die Datenmenge bis 2020 etwa alle zwei Jahre verdoppeln wird.
Beschleunigt wird das Wachsen des weltweiten Datenberges durch den Boom der mobilen Internet-Nutzung per Smartphone oder Tablet-Computer sowie durch das, was die Fachleute als „Internet der Dinge” bezeichnen: Abermillionen technische Geräte produzieren laufend unterschiedlichste Daten, die sie ohne menschliches Zutun sammeln und austauschen. Zum Beispiel Maschinen in modernen Fabriken, die ihren eigenen Zustand und Verschleiß überwachen, Sensoren in Satelliten, Robotern, Autos und intelligenten Stromzählern, die Temperaturen, Bewegungen, Verkehrsstaus oder den Stromverbrauch im Haushalt registrieren.
Dazu kommen unzählige Nachrichten, Anfragen und Tipps, die Menschen in sozialen Netzwerken, in Diskussionsforen, Internet-Stellenbörsen, auf Suchmaschinen und bei Online-Auktionen hinterlassen. Sie sind besonders kostbar für Händler und Hersteller von Produkten.
2,5 Milliarden Kommentare am tag
Allein die rund eine Milliarde Facebook-Nutzer häufen täglich über 500 Terabyte Daten an – pro Nutzer sind das 500 Millionen Byte. Sie summieren sich im Jahr auf eine Menge, die 40 DVDs füllen würde. Im täglichen Dauer-Tratsch auf dem weltweit größten sozialen Netzwerk stecken 2,5 Milliarden Kommentare und Was-ich-gerade-so-tue-Meldungen, 2,7 Milliarden Links zu anderen Internet-Seiten und 300 Millionen Fotos, die für „Freunde” ins Netz geladen werden. Auf den Servern von Facebook lagert die wohl größte elektronische Datensammlung der Welt.
Bei diesen schwindelerregenden Zahlen kann man verstehen, dass die IT-Experten inzwischen von „Big Data” sprechen: einem hünenhaften Daten-Haufen, der sich auf einer Armada von Rechnern und Speichersystemen türmt. Darin schlummert, davon sind nicht nur die Fraunhofer-Forscher aus Sankt Augustin überzeugt, ein unermesslicher Schatz an Wissen und neuen Erkenntnissen über Menschen und Gesellschaft, aus dem Wirtschaft und Wissenschaft immensen Profit schlagen können.
Bisher ruhen die virtuellen Juwelen weitgehend unbehelligt von digitalen Schatzgräbern. Denn die konventionellen Datenbanken sind mit der Fülle an Bits und Bytes hoffnungslos überfordert. Die meisten Computer waren bislang zu träge, um in dem mächtigen Datenstrom nach aufschlussreichen Informationen zu fischen – zum Glück, werden manche sagen. Doch das ändert sich gerade. Mit neuartigen Computertechnologien und findigen Analyse-Werkzeugen lässt sich der Datenberg schnell und clever ausbeuten.
„Bei Big Data spielt nicht allein die schiere Menge eine entscheidende Rolle”, sagt Udo Hertz, Direktor für Informationsmanagement am Forschungs- und Entwicklungszentrum von IBM in Böblingen. „Man hat es heute zudem mit einer vor Kurzem noch unvorstellbaren Vielfalt unterschiedlicher Arten von Daten zu tun.” Texte, Termine, Umsatzzahlen, rohe Messwerte, Fotos, Filme, Musik und gesprochene Kommentare, GPS-Koordinaten und Wettermeldungen – Mobiltelefone, Produktionsmaschinen und die Schar der Nutzer des World Wide Web liefern einen bunten Daten-Mix. „Der Großteil dieser Daten ist unstrukturiert”, sagt Hertz. Sie passen in kein Schema und verändern sich rasch. Während der Datenberg stetig wächst, schrumpft die Halbwertszeit seiner Inhalte. Der IBM-Experte definiert Big Data daher über vier englische Begriffe: Volume, Variety, Velocity and Veracity (Volumen, Diversität, Geschwindigkeit und Verlässlichkeit).
Die Computerprogramme, die Schlüsse aus dem vielgestaltigen und schnelllebigen Wust ziehen sollen, müssen in der Lage sein, ihn ohne Zeitverzug zu scannen und gründlich zu analysieren. Sie müssen zahlreiche Daten aus verschiedenen Quellen zusammenführen und miteinander kombinieren, um in dem verquirlten Gemenge Trends und Zusammenhänge zu erkennen.
Infos aus dem datenquirl
Forscher bei IBM haben dafür ein gewieftes Analyse-Tool geschaffen. Unternehmen können damit in Blogs, Web-Foren und soziale Netzwerke „hineinhören”, um zu ergründen, wo und wie im Internet über sie und ihre Produkte oder Dienstleistungen geredet wird – durchaus zum Vorteil für die Kunden.
Wie kommt eine neue Produktfunktion bei den Nutzern an? Gibt es Probleme bei der Handhabung eines Geräts? Sind die Kunden mit dem Service zufrieden? Welche Verbesserungen wünschen sie sich? Und wie ändert sich die Stimmung im Netz im Lauf der Zeit? „ Solche Fragen lassen sich durch die automatische Analyse von Statements und Diskussionsbeiträgen im Internet leicht beantworten”, sagt der IBM-Entwickler und Computerlinguist Alexander Lang. „Das liefert den Firmen ein zuverlässiges Feedback – viel schneller als allein aus E-Mail-Anfragen oder Beschwerden beim Kundendienst.” Der virtuelle Schwatz verrät den Unternehmen, was ihre Kunden wirklich wollen.
Getwitterte Probleme
Dazu scannt das System Millionen von Kommentaren, Meldungen und Foreneinträgen und durchsucht sie nach bestimmten Wörtern, Floskeln und grammatikalischen Konstruktionen. Diese geben Auskunft darüber, ob Äußerungen positiv, negativ oder neutral gemeint sind. Tauchen etwa auf Facebook, Twitter oder in Foren im Zusammenhang mit einer bestimmten Produktfunktion häufig Begriffe wie „schwierig”, „versagen” oder „mangelhaft” auf, schließt das System auf ein ernsthaftes Problem.
Die Forscher um Alexander Lang haben beispielsweise die Aussagen von Facebook-Nutzern zu zwei Mobiltelefonen unter die Lupe genommen. Ergebnis: Bei dem einem wurde im Web vor allem über die Kamera gesprochen – und das fast ausschließlich mit Lob und Begeisterung. In den Kommentaren zum anderen Smartphone ging es dagegen meist um das integrierte GPS-Modul – in wenig schmeichelhaftem Ton. Offenbar hatten viele Anwender Schwierigkeiten mit der Navigation des Geräts – ein Mangel, der dem Hersteller leicht ein schlechtes Image hätte bescheren können. Doch die Warnsignale aus dem sozialen Netz ermöglichten es dem Unternehmen, sofort zu reagieren – und das GPS-Modul zu überarbeiten.
Mitunter offenbart ein tiefer Blick ins Datengewusel auch, dass die Käufer erstaunlich kreativ mit einem Produkt umgehen. So stellte der Hersteller eines Haushaltsreinigers nach der Analyse von Einträgen auf Facebook & Co überrascht fest, dass sein Mittel als exzellent geeignet gilt, um Motorhauben von Autos zu säubern. Solche Beobachtungen können wichtige Impulse für Werbekampagnen liefern.
Auch bei Facebook hat man erkannt, welchen Wert eine gründliche Analyse der Datenflut bietet. Das Unternehmen aus dem kalifornischen Menlo Park wacht daher penibel über alles, was auf seinen Seiten geschieht und schließt aus Kommentaren, Links und Likes – den Klicks auf den Gefällt-mir-Button – auf die Bedürfnisse und Begehrlichkeiten seiner Nutzer.
Punktgenaue Werbung
Die Erkenntnisse werden in maßgeschneiderte Reklameangebote umgesetzt, die umgehend auf dem Monitor des Nutzers erscheinen. Den größten Teil der rund vier Milliarden Dollar Umsatz im Jahr 2012 erzielte Facebook durch den Verkauf solcher Anzeigen. Und das Unternehmen will künftig noch weit mehr aus dem herausholen, was ihm die Daten verraten. So soll es bald möglich sein, durch Big-Data-Analysen nicht nur zu ermitteln, wie häufig auf eine Werbeanzeige geklickt wird, sondern auch, wie oft das beworbene Produkt danach tatsächlich gekauft wird. Eine automatische Erkennung von Gesichtern auf Fotos soll dabei helfen, einzelne Nutzer zu identifizieren.
Rund ein Dutzend Wissenschaftler unterschiedlicher Fachrichtungen feilt bei Facebook an schlauer Software und mathematischen Verfahren, die den Daten im Netz ein immer tiefer gehendes Verständnis des menschlichen Verhaltens entlocken sollen. Das ruft Datenschützer wie Thilo Weichert auf den Plan. Der Leiter des Unabhängigen Landeszentrums für Datenschutz Schleswig Holstein kritisiert vor allem die mangelnde Transparenz der großen Internet-Konzerne wie Facebook, Google, Amazon & Co.
Diese gewährten kaum Einblicke in das, was sie mit dem bei ihnen angehäuften Datenberg tun. Niemand wisse, was die Mixtur aus Botschaften und Bildern im Netz über ihn verrate – und wofür dieses Wissen genutzt werde. „Big Data eröffnet Möglichkeiten des informellen Machtmissbrauchs – durch Manipulation, Diskriminierung und informationelle ökonomische Ausbeutung, verbunden mit der Verletzung der Grundrechte der Menschen”, moniert Weichert. Der bundesweit angesehene Datenschutz-Experte fordert mehr Offenheit beim Umgang mit Big Data und den Einsatz von Werkzeugen, um die eigenen Daten wirkungsvoll zu anonymisieren.
Single, Raucher, religiös
Wie treffsicher findige Algorithmen selbst intime persönliche Merkmale aus Datenspuren im Internet herauslesen können, belegen die Ergebnisse einer Studie von Michael Kosinski, David Stillwell und Thore Graepel. Die drei britischen Wissenschaftler vom psychometrischen Zentrum der University of Cambridge werteten Kommentare, Fanseiten, Fotos, Videoclips, Links und Likes aus, die rund 60 000 Facebook-Nutzer ihnen freiwillig zur Verfügung gestellt hatten. Daraus konnten sie zielgenau eine breite Palette von Persönlichkeitsmerkmalen erschließen.
So gelang es den Forschern mit fast 100-prozentiger Sicherheit, Geschlecht und Hautfarbe der Nutzer zu ermitteln. Auch bei der Religionszugehörigkeit und der hetero- oder homosexuellen Orientierung lagen sie zu rund 80 Prozent richtig. Ob jemand raucht oder gerne ein paar Gläser über den Durst trinkt, ließ sich aus Aktivitäten und Aussagen im Netz mit einer ebenso hohen Treffsicherheit folgern wie die Frage, ob der Facebook-Nutzer Single oder in festen Händen ist. Die Grenze zwischen Big Data und Big Brother ist fließend.
Doch der Big-Data-Zug hat längst Fahrt aufgenommen und wird sich auch von Datenschützern kaum mehr bremsen lassen – zumal das Spektrum der Anwendungsmöglichkeiten enorm breit ist. So setzt die Karlsruher Drogeriemarkt-Kette dm bei der Planung der Arbeitszeiten ihrer Mitarbeiter auf die Macht der Daten: In ein zentrales Rechensystem fließen unter anderem die täglichen Umsätze der Filialen, Prognosen für die Warenanlieferung, Öffnungszeiten, die individuellen Wünsche der Mitarbeiter – und künftig auch Wettervorhersagen – ein. Auf dieser Basis erstellt eine Software für mehrere Wochen im Voraus eine Personaleinsatzplanung, die bestmöglich auf den zu erwartenden Bedarf abgestimmt sein soll.
Turbinen schlagen Alarm
Banken, Versicherungen und Finanzdienstleister verwenden Analysesysteme, die noch während einer Transaktion die Daten daraufhin prüft, ob etwa ein Verdacht auf einen Kreditkartenmissbrauch besteht. Und der britische Turbinenhersteller Rolls Royce wertet die Betriebsdaten seiner Flugzeugtriebwerke permanent aus, wobei er sie auf Unregelmäßigkeiten hin prüft. Weisen die Werte auf einen technischen Mangel hin, machen sich umgehend Servicemitarbeiter auf den Weg zum nächsten Zielflughafen des Jets.
Der dänische Hersteller von Windkraftanlagen Vestas kann mithilfe eines Big-Data-Programms exakt vorausberechnen, wie viel Energie sich an einem bestimmten Standort aus Wind ernten lässt. Dazu bringt das Unternehmen rund 160 verschiedene Parameter in einem ausgefeilten Datenmodell zusammen, darunter diverse Wetterdaten der vergangenen Jahre, Höhe und Beschaffenheit des Geländes, Bebauung und Wälder in der Umgebung, Naturschutzbestimmungen, die Anbindung ans Stromnetz sowie Erfahrungswerte zur bisherigen Leistung und zu bekannten Ausfallzeiten verschiedener Typen von Windanlagen.
Die Daten werden zusammengeführt und analysiert – und liefern am Ende einen verlässlichen Wert für den Ertrag eines Windrads an dem durchleuchteten Standort. Dank Big-Data-Technologie ist die aufwendige Analyse in weniger als einer Stunde erstellt. „Big Data führt zu einem völlig neuen Umgang mit Daten”, sagt IBM-Direktor Udo Hertz.
Statt einer streng strukturierten Verarbeitung rücken die neuen Systeme den Bits und Bytes mit großem Entdeckerdrang auf die Pelle: So lassen sich nicht nur gezielte Fragen an die Daten beantworten, bisweilen erscheinen aus dem Dickicht des Datendschungels auch Antworten auf Fragen, die gar niemand gestellt hat – und deren Nutzen oft nicht unmittelbar ersichtlich ist.
lila autos halten länger
Ein Beispiel ist das Resultat einer Datenanalyse in den USA, die – statistisch signifikant – belegte, dass Gebrauchtwagen umso länger halten, je exotischer die Farbe ihrer Lackierung ist. Das ist ein Befund, der Experten rätseln lässt. Chris Anderson, Chefredakteur des US- amerikanischen IT-Magazins „Wired”, rief daher bereits „das Ende der Theorie” aus. Künftig, meint Chris Anderson, werden Wissenschaft und Wirtschaft nicht mehr auf logisch nachvollziehbare Hypothesen setzen, sondern auf den digitalen Rohstoff der Daten und das, was sich mithilfe von Mathematik und Statistik daraus schöpfen lässt.
Fest steht, dass viele Unternehmen große Hoffnungen in die neue Datenwelt setzen. Aus Big Data soll Big Business werden. Der große Datenhaufen soll es dem Handel ermöglichen, genau vorherzusagen, wann welche Produkte verkauft werden und was daher bald nachbestellt werden muss. Er soll Sicherheitssysteme in die Lage versetzen, Angriffe im Cyberspace frühzeitig zu erahnen und selbstständig Lösung zu entwickeln, um sie abzuwehren. Er soll die Basis für Produkte legen, die auf jeden Kunden individuell zugeschnitten sind. Er soll den Energieverbrauch von Gebäuden minutiös vorherberechnen und künftige autonom fahrende Autos sicher und auf dem schnellsten Weg ans gewünschte Ziel leiten. Das US-Marktforschungs- und Beratungsunternehmen IDC erwartet, dass die Umsätze mit Big-Data-Technologien in den nächsten drei Jahren im Schnitt um 32 Prozent pro Jahr wachsen werden – um ein Vielfaches schneller als der Rest der IT-Branche.
Auch in der großen Politik ist Big Data inzwischen angekommen. Das zeigte sich vor der Wiederwahl von US-Präsident Barack Obama im November 2012. Obamas Wahlkampfhelfer hatten Hunderte Datenbanken nach den persönlichen Profilen der fast 200 Millionen Wahlberechtigten durchkämmt und Milliarden von Kommentaren und Suchanfragen im Internet unter die Lupe genommen. Daraus konnten sie die politische Einstellung der Amerikaner ergründen – und ihre Wahlkampfkampagne zielgerichtet daran orientieren. Bei überzeugten Anhängern der Republikaner brauchten sie gar nicht erst zu versuchen, um Stimmen für Obama zu werben. Dagegen wurden Wähler, die dem demokratischen Kandidaten zugeneigt waren, durch E-Mails, Anrufe und Hausbesuche bis zum Wahltag gezielt umworben und ersucht, zur Wahlurne zu gehen. Am Ende siegte Barack Obama – vermutlich auch mit Unterstützung von Big Data. ■
RALF BUTSCHER, Redakteur bei bild der wissenschaft, behält so manches lieber für sich, statt es im Internet kundzutun.
von Ralf Butscher




