Big-Data Analytics

Was ist Big Data?

Der erste bekannte Gebrauch des Ausdrucks „Big Data“ findet sich in einer Veröffentlichung aus dem Jahr 1997. NASA-Wissenschaftler beschreiben „quite large Data-Sets“, die die vorhandenen Computer vor interessante Probleme stellten, da sie an die Grenzen von Hauptspeicher, lokalem Plattenspeicher und sogar externem Speicher stoßen würden.

Diese Grenzen von Hauptspeicher, lokalem Speicher und externem Speicher haben sich seit 1997 natürlich erheblich verschoben. Dennoch bietet die Formulierung von damals nach wie vor eine gute Grundlage für eine Charakterisierung von Big-Data:

Die englischsprachige Wikipedia beschreibt Big-Data als:

„Umfassender Begriff für jede Sammlung von Daten, die so groß und komplex ist, dass sie nur schwer mit den traditionellen Methoden der Datenverarbeitung verarbeitet werden kann.“ (eigene Übersetzung)

Besser als diese rein negative Definition, lässt sich Big-Data beschreiben, wenn man sich stattdessen auf die besonderen Herausforderungen des Themas bezieht. Etliche populäre Beschreibungen nutzen dazu griffige Formulierungen mit drei oder mehr „V“s. Die folgenden drei „V“s werden am häufigsten genannt:Big-Data Analytics

  • Volume: Die schiere Datenmenge macht es schwierig oder unmöglich, die Daten mit traditionellen Methoden zu verarbeiten.
  • Velocity: Hier ist es die Geschwindigkeit mit der die Daten anfallen oder ausgewertet werden müssen, die die wesentliche Herausforderung bildet.
  • Big-Data AnalyticsVariance: Bezieht sich darauf, dass (Big-Data-) Quellen anders als traditionelle Daten häufig nicht in einem einheitlichen, definierten Format vorliegen. Eventuell ist das auszuwertende Format nicht einmal für die Auswertung durch Computer entworfen worden (z.B. bei der Verarbeitung von Texten). Die Auswertung kann abweichende Datenformate nicht einfach verwerfen, sondern muss Wege finden, sie zu verarbeiten.

Zusätzlich werden häufig auch die beiden folgenden Herausforderungen ergänzt:Big-Data Analytics

  • Veracity: Die Frage nach der Zuverlässigkeit der auszuwertenden Daten. Datenquellen können zufällige und systematische Fehler enthalten.
  • Value: Nicht alle vorhandenen Daten leisten zwingend einen Beitrag zur Lösung der gestellten Aufgabe. Big-Data muss also Methoden entwickeln, um die relevanten Daten herauszufiltern.
    Big-Data Analytics

Diese Charakterisierung von Big-Data über die wichtigsten Herausforderungen darf keineswegs als abschließende Definition verstanden werden. Nicht jedes Big-Data-Projekt muss alle genannten Herausforderungen bewältigen.

Maschinelles Lernen

Big-Data Analytics

Maschinelles Lernen erlaubt es, aus großen, wenig strukturierten Datenmengen Modelle zu extrahieren und auf der Grundlage dieser Modelle Vorhersagen oder Entscheidungen zu generieren. Dabei wird das Verfahren zur Bestimmung der Vorhersagen oder Entscheidungen nicht vom Entwickler definiert; stattdessen wird das Verfahren durch Analyse der Ausgangsdaten gelernt. Aus diesen Gründen wird diese Technik häufig im Big-Data Umfeld benutzt.

Typische Fragestellungen, die mit maschinellem Lernen adressiert werden, sind:

  • Regression: Die Vorhersage eines Wertes, z.B. eines Aktienkurses oder der Mittagstemperatur auf der Basis von Werten aus der Vergangenheit.
  • Binäre Klassifikation: Die Vorhersage eines einfachen Ja oder Nein – etwa danach ob ein Kunde ein gekauftes Produkt zurücksenden wird oder danach ob ein Geschäftspartner kreditwürdig ist, oder nicht.
  • Mehrklassen Klassifikation: Hier ist einem Fall eine von mehreren Klassen zuzuordnen. Beispiele sind z.B. die Ermittlung der Sprache eines Textes oder die Bestimmung des Themas eines Textes.
  • Ranking: Hier soll eine Anordnung von Fällen ermittelt werden. Typische Anwendungsfälle betreffen die anwenderspezifische Anordnung von Suchergebnissen oder Produktangeboten.

Einige Lernverfahren liefern neben der bloßen Entscheidung oder Vorhersage weitere Informationen. Der Zugriff auf vom Lernverfahren generierte Regeln erlaubt es, die Ergebnisse des Lernens zu plausibilisieren. Andere Lernverfahren liefern zusätzliche Informationen zur Zuverlässigkeit der gelernten Ergebnisse.

Big-Data-Entwicklung bei S&N

Mit Big-Data und der Verfügbarkeit großer Datenmengen haben sich die Möglichkeiten der IT grundlegend erweitert. Daten werden nicht länger nur für einen Zweck genutzt. Der übergreifende Zugriff auf unternehmensinterne und externe Daten erlaubt es, vorhandene Daten aus vielen verschiedenen Blickwinkeln auszuwerten. Auch die nutzbaren Formate werden vielfältiger. Der Fokus liegt nicht länger zuerst auf Zahlen (Beträge, Stückzahlen, Kennzahlen, Kundennummern, etc.) daneben tritt auch die Auswertung anderer Formate (Töne, Texte, Bilder, menschliche Äußerungen).

Damit rückt Big-Data völlig neue Fragestellungen in die Reichweite automatisierter Analysen – und bietet die Chance, auf alte Fragestellungen völlig neue Antwortmöglichkeiten zu finden.

So etwa bei der Einschätzung der Reputation eigener Marken oder des eigenen Unternehmens, bei der Einschätzung des zukünftigen Kursverlaufs eines Wertpapiers oder bei der Einschätzung der Kreditwürdigkeit eines Geschäftspartners. Grundlage für diese Bewertungsentscheidungen sind traditionell historische Daten oder aber zugekaufte Einschätzungen von Meinungsforschungsinstituten, Auskunfteien oder ähnlichem.

Textbasierte Analysen

Eine Alternative zu den traditionellen Antworten bietet die Recherche und Analyse von Textquellen aus dem Internet. In den letzten Jahren ist die Verfügbarkeit solcher Texte geradezu explodiert. Dies erhöht zwar einerseits die Chancen der Recherche, da mehr Daten zur Verfügung stehen – andererseits ist es kaum noch möglich, alle relevanten Quellen zu akquirieren, zu filtern und zu analysieren, da sich die schiere Datenmenge manuell kaum mehr bewältigen lässt.

Ein Ausweg besteht in der Verwendung von Big-Data-Verfahren. Diese Verfahren sind zu einem wesentlichen Innovationstreiber geworden – ihre technischen Grundlagen sind inzwischen weit fortgeschritten. Diese Verfahren bieten insbesondere Vorteile, wenn immer wieder große Zahlen ähnlicher Bewertungen durchgeführt werden müssen. Bislang in dieser Hinsicht verfügbare Software ist jedoch entweder auf sehr enge Anwendungsfälle eingeschränkt (z.B. eine Einschätzung der Reputation) oder ist so komplex, dass sich zur Verfügung stehende Verfahren nur unter hohem Aufwand und nicht ohne detaillierte Expertenkenntnisse umsetzen lassen.

ZIMS&N hat sich daher entschlossen, in einer Kooperation mit der Universität Paderborn ein Software-Werkzeug zu entwickeln, mit dem sich den jeweiligen Anwendungsfällen angepasste Smart-Data-Verfahren zur Textdaten gestützten Bewertung erstellen und anwenden lassen. Das Vorhaben wird aus dem Zentralen Innovationsprogramm Mittelstand (ZIM) des Bundeswirtschaftsministeriums gefördert.

Kernstück des Werkzeugs sind Lösungen für die vier identifizierten wesentlichen Arbeitsschritte bei der Erstellung solcher textbasierter Verfahren:

  • Die Akquise von Internetquellen
  • Die Filterung auf relevante Quellen
  • Die Extraktion der relevanten Texteigenschaften
  • Die Ermittlung der eigentlichen Bewertungsfunktion durch maschinelles Lernen

Zielgruppe des Werkzeugs sind Unternehmen, die Fragestellungen mit Big-Data-Verfahren untersuchen wollen, aber keine Experten in der Datenanalyse sind. Eine wesentliche Herausforderung besteht daher in der Gestaltung der Benutzeroberfläche des Werkzeugs. Dazu sollen auch Ansätze zur Nachprüfbarkeit und Visualisierung untersucht werden.

Reputationsanalyse

Big-Data AnalyticsZiel einer Reputationsanalyse ist es, Aussagen zum Ruf von Firmen, Produkten oder Marken zu treffen. Dazu werden Quellen aus dem sozialen Internet ausgewertet. Insbesondere werden die bekannten Netzwerke Facebook und Twitter berücksichtigt. Darüber hinaus werden auch Diskussionsforen und Newsgroups sowie Presseveröffentlichungen einbezogen. Die Bestimmung der relevanten Quellen ist in diesen Fällen vergleichsweise einfach: relevant sind alle Quellen, in denen der betrachtete Firmen-, Marken- oder Produktname auftaucht.

Die Grundlage der Reputationsanalyse sind zunächst einfache Kollokationsanalysen, bei denen festgestellt wird, welche wertenden Begriffe im Zusammenhang mit Firma oder Marke genannt werden, etwa „Ich finde Beispielprodukt ziemlich lahm.“ oder „Beispiel-AG ist ein attraktiver Arbeitgeber.“ Die wertenden Begriffe („lahm“, „attraktiv“) werden mit ihrer Wertung in einfachen Wortlisten gehalten. Diese Wortlisten können auch die flektierten Begriffe enthalten (nicht nur „attraktiv, sondern auch „attraktiver“); alternativ wird vor der Zuordnung zur Wortliste der Wortstamm ermittelt.

Ergänzt wird dieses einfache Verfahren dann häufig um Trendanalysen, die etwa zeigen können, dass die Konnotation „lahm“ in den letzten Wochen stark zugenommen hat und so Hinweise auf sich abzeichnende Probleme liefern können. Vertiefte Analysen können auch die Autoren der Texte in den Blick nehmen und etwa Meinungsmacher identifizieren, deren Äußerungen eine besonders hohe Reichweite erzielen.

Insgesamt ist die Reputationsanalyse eines der bekanntesten Big-Data-Verfahren und wird entsprechend auch schon häufig eingesetzt, da es eine wichtige Frage in nachvollziehbarer Weise beantwortet. Gleichzeitig ist es auf Gegenstände beschränkt, die öffentlich mit ihrer Bezeichnung angesprochen werden. Für komplexere Sachverhalte stehen entsprechende Verfahren noch aus.

Ansprechpartner: Dr. Klaus Schröder; Turn on Javascript!