Datenlawinen allerorten Big Data richtig verstehen

Autor / Redakteur: Matthias Zacher / Katrin Hofmann

Big Data besetzt seit vergangenem Jahr als neues Schlagwort einen wesentlichen Platz in der Diskussion um aktuelle IT-Trends. Im Wesentlichen geht es um die Beherrschung und Nutzung des immer stärker anschwellenden Datenstroms. Auf technischer Seite sollten dabei mehrere Layer Beachtung finden.

Anbieter zum Thema

Matthias Zacher, Senior Consultant bei IDC in Frankfurt
Matthias Zacher, Senior Consultant bei IDC in Frankfurt

Nach Einschätzung von IDC belief sich das globale Datenvolumen im Jahr 2011 auf 1,8 Millionen Zetabytes (eine Zahl mit 21 Nullen) und wird sich alle zwei Jahre verdoppeln. Dieses wachsende Datenvolumen ist jedoch lediglich ein Aspekt von Big Data. Neben großen Datenmengen geht es auch um viele kleine Datenmengen, die aber innerhalb komplexer Anwendungsfälle ver- und bearbeitet werden müssen.

Ein weiterer Punkt ist die Vielfalt der Datenquellen (z.B. interne und externe Quellen) und die unterschiedlichen Datenformate (strukturiert, semistrukturiert und unstrukturiert). Der Big-Data-Ansatz verspricht zudem, die Daten mit Standard-Komponenten in einer ähnlichen Geschwindigkeit verarbeiten zu können, wie dies bisher nur im High Performance Computing möglich ist. Unter dem Gesichtspunkt des Business sollen die Technologiekosten durch die Nutzung von Standard-Komponenten gesenkt, Personalkosten verringert und mit neuen oder verbesserten Geschäftsszenarien ein höherer Wertbeitrag erzielt werden.

Um diese Ziele zu erreichen ist es erforderlich, sowohl die Sichtweise auf das Thema Daten zu verändern also auch auf der technischen Seite die notwendigen Voraussetzungen zu schaffen.

Anwender nutzen heute überwiegend die Datenmengen aus den klassischen Transaktionssystemen, die vorhandenen verteilten Datenmengen und neue Datenquellen unterschiedlichster Herkunft. Diese klassischen Konzepte und Tools sind sicher für viele Anwendungsfälle geeignet, eine umfassende Analyse aller Datenquellen ermöglichen sie aber nur teilweise.

Auf der technischen Seite müssen folgende Layer in eine Big-Data-Betrachtung einbezogen werden:

  • Decision Support und Entscheidungsautomatisierung: Daten und Modelle für spezifische und abgegrenzte Problemlösungsszenarien
  • Analytics und Discovery: Ansätze für Offline-, Ad hoc-, Dateneinsicht (Discovery)- und Deep-Analytics, Echtzeitanalysen, automatisierte Lösungen, regelwerk-basierte Systeme etc.
  • Datenorganisation und Datenmanagement: Parallele und verteilte Filesysteme mit globalen Namespaces, hochskalierbare (Volumen und Struktur) relationale Datenbanken, Data Stores im Key/Value Pair-Design, Graphen-Datenbanken, dynamische Application Data Stores und Caches
  • Infrastruktur: Server auf Basis von Industriestandards (x86) und weiteren standardisierten Komponenten (Netzwerk, Storage, Hypervisor, Cluster Software) sowie ausreichend Bandbreite (10 GbE)

Daten kristallisieren sich mehr und mehr als eine Schlüsselressource für Unternehmen heraus. Um diese Daten jedoch sinnvoll auswerten und als Basis für bessere Geschäfte und neue Geschäftsmodelle nutzen zu können, müssen einige technische und organisatorische Schritte gegangen werden.

(ID:32204590)