Eine Einführung in Big Data-Konzepte und -Terminologie

Einführung

Big data ist ein Sammelbegriff für die nicht traditionellen Strategien und Technologien, die zum Sammeln, Organisieren, Verarbeiten und Sammeln von Erkenntnissen aus großen Datenmengen erforderlich sind. Während das Problem der Arbeit mit Daten, die die Rechenleistung oder den Speicherplatz eines einzelnen Computers überschreiten, nicht neu ist, haben sich die Verbreitung, der Umfang und der Wert dieser Art von Datenverarbeitung in den letzten Jahren erheblich erweitert.

In diesem Artikel werden wir auf einer grundlegenden Ebene über Big Data sprechen und allgemeine Konzepte definieren, auf die Sie bei der Erforschung des Themas stoßen könnten. Wir werden auch einige der derzeit in diesem Bereich verwendeten Prozesse und Technologien auf hoher Ebene betrachten.

Was ist Big Data?

Eine genaue Definition von „Big Data“ ist schwer zu fassen, da Projekte, Anbieter, Praktiker und Geschäftsleute sie ganz unterschiedlich verwenden. In diesem Sinne istbig data im Allgemeinen:

  • große Datensätze

  • Die Kategorie der Computerstrategien und -technologien, die für den Umgang mit großen Datenmengen verwendet werden

In diesem Zusammenhang bedeutet „großer Datensatz“ einen Datensatz, der zu groß ist, um mit herkömmlichen Werkzeugen oder auf einem einzelnen Computer verarbeitet oder gespeichert zu werden. Dies bedeutet, dass sich der gemeinsame Maßstab für große Datensätze ständig ändert und von Organisation zu Organisation erheblich variieren kann.

Warum unterscheiden sich Big Data-Systeme?

Die Grundvoraussetzungen für das Arbeiten mit Big Data sind die gleichen wie für das Arbeiten mit Datensätzen beliebiger Größe. Der enorme Umfang, die Geschwindigkeit der Aufnahme und Verarbeitung sowie die Merkmale der Daten, die in jeder Phase des Prozesses verarbeitet werden müssen, stellen die Entwicklung von Lösungen jedoch vor erhebliche neue Herausforderungen. Das Ziel der meisten Big-Data-Systeme ist es, Einblicke und Zusammenhänge aus großen Mengen heterogener Daten zu gewinnen, die mit herkömmlichen Methoden nicht möglich wären.

Im Jahr 2001 präsentierte Doug Laney von Gartner erstmals die so genannten "drei Vs von Big Data", um einige der Merkmale zu beschreiben, die Big Data von anderen Datenverarbeitungsverfahren unterscheiden:

Volumen

Der Umfang der verarbeiteten Informationen hilft bei der Definition von Big-Data-Systemen. Diese Datensätze können um Größenordnungen größer sein als herkömmliche Datensätze, was in jeder Phase des Verarbeitungs- und Speicherlebenszyklus mehr Bedacht erfordert.

Da die Arbeitsanforderungen die Fähigkeiten eines einzelnen Computers überschreiten, wird dies häufig zu einer Herausforderung beim Poolen, Zuweisen und Koordinieren von Ressourcen aus Computergruppen. Cluster-Management und Algorithmen, die Aufgaben in kleinere Teile aufteilen können, gewinnen zunehmend an Bedeutung.

Geschwindigkeit

Eine andere Art und Weise, in der sich Big Data erheblich von anderen Datensystemen unterscheidet, ist die Geschwindigkeit, mit der sich Informationen durch das System bewegen. Daten fließen häufig aus mehreren Quellen in das System und werden häufig in Echtzeit verarbeitet, um Erkenntnisse zu gewinnen und das aktuelle Systemverständnis zu aktualisieren.

Dieser Fokus auf nahezu sofortiges Feedback hat viele Big-Data-Experten von einem chargenorientierten Ansatz und einem Echtzeit-Streaming-System abgehalten. Daten werden ständig hinzugefügt, massiert, verarbeitet und analysiert, um dem Zustrom neuer Informationen Rechnung zu tragen und wertvolle Informationen frühzeitig zu finden, wenn sie am relevantesten sind. Diese Ideen erfordern robuste Systeme mit hochverfügbaren Komponenten, um Ausfälle entlang der Datenpipeline zu vermeiden.

Vielfalt

Big-Data-Probleme sind häufig einzigartig, da sowohl die zu verarbeitenden Quellen als auch ihre relative Qualität sehr unterschiedlich sind.

Daten können von internen Systemen wie Anwendungs- und Serverprotokollen, von Social Media-Feeds und anderen externen APIs, von Sensoren für physische Geräte und von anderen Anbietern erfasst werden. Big Data versucht, potenziell nützliche Daten unabhängig von ihrer Herkunft zu verarbeiten, indem alle Informationen in einem einzigen System zusammengefasst werden.

Die Formate und Medientypen können ebenfalls erheblich variieren. Rich Media-Medien wie Bilder, Videodateien und Audioaufnahmen werden zusammen mit Textdateien, strukturierten Protokollen usw. aufgenommen. Während herkömmliche Datenverarbeitungssysteme möglicherweise erwarten, dass Daten in die Pipeline gelangen, die bereits gekennzeichnet, formatiert und organisiert ist, akzeptieren und speichern Big-Data-Systeme Daten normalerweise näher an ihrem Rohzustand. Im Idealfall werden alle Transformationen oder Änderungen an den Rohdaten zum Zeitpunkt der Verarbeitung gespeichert.

Andere Eigenschaften

Verschiedene Einzelpersonen und Organisationen haben vorgeschlagen, die ursprünglichen drei V zu erweitern, obwohl diese Vorschläge eher Herausforderungen als Qualitäten von Big Data beschreiben. Einige häufige Ergänzungen sind:

  • Veracity: Die Vielfalt der Quellen und die Komplexität der Verarbeitung können zu Herausforderungen bei der Bewertung der Qualität der Daten (und folglich der Qualität der resultierenden Analyse) führen.

  • Variability: Abweichungen in den Daten führen zu starken Qualitätsschwankungen. Möglicherweise sind zusätzliche Ressourcen erforderlich, um Daten mit geringer Qualität zu identifizieren, zu verarbeiten oder zu filtern, um sie nützlicher zu machen.

  • Value: Die ultimative Herausforderung von Big Data besteht darin, Wert zu liefern. Manchmal sind die vorhandenen Systeme und Prozesse so komplex, dass es schwierig werden kann, die Daten zu verwenden und den tatsächlichen Wert zu ermitteln.

Wie sieht ein Big Data-Lebenszyklus aus?

Wie werden Daten tatsächlich verarbeitet, wenn es sich um ein Big-Data-System handelt? Obwohl die Ansätze zur Implementierung unterschiedlich sind, gibt es einige Gemeinsamkeiten bei den Strategien und der Software, über die wir allgemein sprechen können. Die nachfolgend aufgeführten Schritte sind möglicherweise nicht in allen Fällen zutreffend, werden jedoch häufig verwendet.

Die allgemeinen Kategorien von Aktivitäten, die mit der Verarbeitung großer Datenmengen verbunden sind, sind:

  • Daten in das System einlesen

  • Behalten Sie die Daten im Speicher

  • Daten berechnen und analysieren

  • Visualisierung der Ergebnisse

Bevor wir uns diese vier Workflow-Kategorien im Detail ansehen, werden wir uns einen Moment Zeit nehmen, um überclustered computing zu sprechen, eine wichtige Strategie, die von den meisten Big-Data-Lösungen angewendet wird. Die Einrichtung eines Computerclusters ist häufig die Grundlage für die in den einzelnen Lebenszyklusphasen verwendete Technologie.

Clustered Computing

Aufgrund der Qualität von Big Data sind einzelne Computer häufig nicht in der Lage, die Daten in den meisten Phasen zu verarbeiten. Um den hohen Speicher- und Rechenanforderungen von Big Data besser gerecht zu werden, eignen sich Computercluster besser.

Die Big-Data-Clustering-Software kombiniert die Ressourcen vieler kleinerer Maschinen und möchte eine Reihe von Vorteilen bieten:

  • Resource Pooling: Die Kombination des verfügbaren Speicherplatzes für Daten ist ein klarer Vorteil, aber auch das Pooling von CPU und Speicher ist äußerst wichtig. Für die Verarbeitung großer Datenmengen sind große Mengen dieser drei Ressourcen erforderlich.

  • High Availability: Cluster können unterschiedliche Fehlertoleranz- und Verfügbarkeitsgarantien bieten, um zu verhindern, dass Hardware- oder Softwarefehler den Zugriff auf Daten und die Verarbeitung beeinträchtigen. Dies wird immer wichtiger, da wir weiterhin die Bedeutung der Echtzeitanalyse betonen.

  • Easy Scalability: Cluster erleichtern das horizontale Skalieren, indem der Gruppe zusätzliche Maschinen hinzugefügt werden. Dies bedeutet, dass das System auf Änderungen der Ressourcenanforderungen reagieren kann, ohne die physischen Ressourcen auf einer Maschine zu erweitern.

Für die Verwendung von Clustern ist eine Lösung zum Verwalten der Clustermitgliedschaft, zum Koordinieren der Ressourcenfreigabe und zum Planen der tatsächlichen Arbeit auf einzelnen Knoten erforderlich. Die Clustermitgliedschaft und Ressourcenzuweisung kann von Software wieHadoop’s YARN (was für Yet Another Resource Negotiator steht) oderApache Mesos verwaltet werden.

Der zusammengesetzte Computercluster fungiert häufig als Grundlage, auf der andere Software die Daten verarbeitet. Die am Computing-Cluster beteiligten Maschinen sind in der Regel auch an der Verwaltung eines verteilten Speichersystems beteiligt, auf die wir bei der Erörterung der Datenpersistenz eingehen werden.

Daten in das System einlesen

Bei der Datenaufnahme werden Rohdaten erfasst und dem System hinzugefügt. Die Komplexität dieses Vorgangs hängt stark vom Format und der Qualität der Datenquellen ab und davon, wie weit die Daten vor der Verarbeitung vom gewünschten Zustand entfernt sind.

Eine Möglichkeit, Daten zu einem Big-Data-System hinzuzufügen, sind dedizierte Aufnahme-Tools. Technologien wieApache Sqoop können vorhandene Daten aus relationalen Datenbanken übernehmen und einem Big-Data-System hinzufügen. In ähnlicher Weise sindApache Flume undApache Chukwa Projekte zum Aggregieren und Importieren von Anwendungs- und Serverprotokollen. Warteschlangensysteme wieApache Kafka können auch als Schnittstelle zwischen verschiedenen Datengeneratoren und einem Big-Data-System verwendet werden. Ingestion-Frameworks wieGobblin können dazu beitragen, die Ausgabe dieser Tools am Ende der Ingestion-Pipeline zu aggregieren und zu normalisieren.

Während des Einnahmeprozesses findet normalerweise ein gewisses Maß an Analyse, Sortierung und Kennzeichnung statt. Dieser Prozess wird manchmal als ETL bezeichnet und steht für Extrahieren, Transformieren und Laden. Während sich dieser Begriff herkömmlicherweise auf ältere Data-Warehousing-Prozesse bezieht, gelten einige der gleichen Konzepte für Daten, die in das Big-Data-System eingegeben werden. Typische Vorgänge können das Ändern der eingehenden Daten zum Formatieren, das Kategorisieren und Kennzeichnen von Daten, das Herausfiltern nicht benötigter oder fehlerhafter Daten oder das potenzielle Überprüfen der Einhaltung bestimmter Anforderungen umfassen.

Unter Berücksichtigung dieser Fähigkeiten sollten die erfassten Daten im Idealfall so roh wie möglich gehalten werden, um eine größere Flexibilität in der gesamten Pipeline zu gewährleisten.

Behalten Sie die Daten im Speicher

Bei den Aufnahmeprozessen werden die Daten in der Regel an die Komponenten übergeben, die den Speicher verwalten, damit sie zuverlässig auf der Festplatte gespeichert werden können. Dies scheint ein einfacher Vorgang zu sein, doch das eingehende Datenvolumen, die Verfügbarkeitsanforderungen und die verteilte Rechenschicht machen komplexere Speichersysteme erforderlich.

Dies bedeutet normalerweise die Nutzung eines verteilten Dateisystems für die Speicherung von Rohdaten. Lösungen wie das Dateisystem vonApache Hadoop’s HDFSermöglichen das Schreiben großer Datenmengen über mehrere Knoten im Cluster. Dies stellt sicher, dass auf die Daten von Rechenressourcen zugegriffen werden kann, dass sie für speicherinterne Vorgänge in den RAM des Clusters geladen werden können und dass Komponentenfehler ordnungsgemäß behandelt werden können. Anstelle von HDFS können auch andere verteilte Dateisysteme verwendet werden, einschließlichCeph undGlusterFS.

Daten können für einen strukturierteren Zugriff auch in andere verteilte Systeme importiert werden. Verteilte Datenbanken, insbesondere NoSQL-Datenbanken, eignen sich gut für diese Rolle, da sie häufig mit denselben fehlertoleranten Überlegungen entworfen wurden und heterogene Daten verarbeiten können. Abhängig davon, wie Sie die Daten organisieren und darstellen möchten, stehen viele verschiedene Arten verteilter Datenbanken zur Auswahl. Lesen Sie unsereNoSQL comparison guide, um mehr über einige der Optionen und deren Zweck zu erfahren.

Berechnen und Analysieren von Daten

Sobald die Daten verfügbar sind, kann das System mit der Verarbeitung der Daten beginnen, um tatsächliche Informationen anzuzeigen. Die Rechenschicht ist möglicherweise der vielfältigste Teil des Systems, da die Anforderungen und der beste Ansatz je nach Art der gewünschten Erkenntnisse erheblich variieren können. Daten werden häufig wiederholt verarbeitet, entweder iterativ mit einem einzigen Tool oder mit einer Reihe von Tools, um verschiedene Arten von Erkenntnissen zu ermitteln.

Batch processing ist eine Methode zum Berechnen eines großen Datensatzes. Der Prozess umfasst das Aufteilen der Arbeit in kleinere Teile, das Planen jedes Teils auf einer einzelnen Maschine, das erneute Mischen der Daten basierend auf den Zwischenergebnissen und das anschließende Berechnen und Zusammenstellen des Endergebnisses. Diese Schritte werden häufig einzeln als Aufteilen, Zuordnen, Mischen, Reduzieren und Zusammensetzen oder gemeinsam als Algorithmus zur Reduzierung verteilter Zuordnungen bezeichnet. Dies ist die Strategie vonApache Hadoop’s MapReduce. Die Stapelverarbeitung ist am nützlichsten, wenn Sie mit sehr großen Datenmengen arbeiten, die viel Rechenaufwand erfordern.

Während die Stapelverarbeitung für bestimmte Arten von Daten und Berechnungen gut geeignet ist, erfordern andere Workloads mehrreal-time processing. Die Echtzeitverarbeitung erfordert, dass Informationen sofort verarbeitet und bereitgestellt werden, und das System muss reagieren, sobald neue Informationen verfügbar werden. Ein Weg, dies zu erreichen, iststream processing, das mit einem kontinuierlichen Datenstrom arbeitet, der aus einzelnen Elementen besteht. Ein weiteres gemeinsames Merkmal von Echtzeitprozessoren ist das In-Memory-Computing, das mit Darstellungen der Daten im Cluster-Speicher arbeitet, um ein Zurückschreiben auf die Festplatte zu vermeiden.

Apache Storm,Apache Flink undApache Spark bieten verschiedene Möglichkeiten, um eine Echtzeit- oder nahezu Echtzeitverarbeitung zu erreichen. Bei jeder dieser Technologien gibt es Kompromisse, die sich darauf auswirken können, welcher Ansatz für jedes einzelne Problem am besten geeignet ist. Im Allgemeinen ist die Echtzeitverarbeitung am besten geeignet, um kleinere Datenblöcke zu analysieren, die sich ändern oder dem System schnell hinzugefügt werden.

Die obigen Beispiele stellen Rechenrahmen dar. Es gibt jedoch viele andere Möglichkeiten, Daten in einem Big-Data-System zu verarbeiten oder zu analysieren. Diese Tools werden häufig in die oben genannten Frameworks eingebunden und bieten zusätzliche Schnittstellen für die Interaktion mit den zugrunde liegenden Ebenen. Beispielsweise bietetApache Hive eine Data-Warehouse-Schnittstelle für Hadoop,Apache Pig eine Abfrage-Schnittstelle auf hoher Ebene, während SQL-ähnliche Interaktionen mit Daten mit Projekten wieApache Drill,Apache Impalaerzielt werden können ) s,Apache Spark SQL undPresto. Für maschinelles Lernen können Projekte wieApache SystemML,Apache Mahout undApache Spark’s MLlib nützlich sein. Für die reine Analyseprogrammierung, die im Big-Data-Ökosystem breite Unterstützung bietet, sind sowohlRals auchPython beliebte Optionen.

Visualisierung der Ergebnisse

Aufgrund der Art der Informationen, die in Big-Data-Systemen verarbeitet werden, ist das Erkennen von Trends oder Änderungen der Daten im Zeitverlauf häufig wichtiger als die Werte selbst. Die Visualisierung von Daten ist eine der nützlichsten Methoden, um Trends zu erkennen und eine große Anzahl von Datenpunkten zu erfassen.

Die Echtzeitverarbeitung wird häufig zur Visualisierung von Anwendungs- und Servermetriken verwendet. Die Daten ändern sich häufig und große Deltas in den Metriken weisen in der Regel auf erhebliche Auswirkungen auf den Zustand der Systeme oder der Organisation hin. In diesen Fällen können Projekte wiePrometheus nützlich sein, um die Datenströme als Zeitreihendatenbank zu verarbeiten und diese Informationen zu visualisieren.

Eine beliebte Methode zur Visualisierung von Daten ist dasElastic Stack, das früher als ELK-Stack bezeichnet wurde. Der aus Logstash für die Datenerfassung, Elasticsearch für die Datenindizierung und Kibana für die Visualisierung bestehende Elastic-Stack kann mit Big-Data-Systemen verwendet werden, um eine visuelle Schnittstelle mit den Ergebnissen von Berechnungen oder Rohdaten zu bilden. Ein ähnlicher Stapel kann mitApache Solr für die Indizierung und einer Kibana-Gabel namensBanana zur Visualisierung erreicht werden. Der von diesen erstellte Stapel heißtSilk.

Eine andere Visualisierungstechnologie, die normalerweise für interaktive datenwissenschaftliche Arbeiten verwendet wird, ist ein Daten- „Notizbuch“. Diese Projekte ermöglichen die interaktive Erkundung und Visualisierung der Daten in einem Format, das das Teilen, Präsentieren oder Zusammenarbeiten erleichtert. Beliebte Beispiele für diese Art von Visualisierungsschnittstelle sindJupyter Notebook undApache Zeppelin.

Big Data Glossar

Während wir versucht haben, Konzepte so zu definieren, wie wir sie im gesamten Handbuch verwendet haben, ist es manchmal hilfreich, eine spezielle Terminologie an einem einzigen Ort zur Verfügung zu haben:

  • Big data: Big Data ist ein Überbegriff für Datensätze, die von herkömmlichen Computern oder Tools aufgrund ihres Volumens, ihrer Geschwindigkeit und ihrer Vielfalt nicht angemessen verarbeitet werden können. Dieser Begriff wird normalerweise auch für Technologien und Strategien zum Arbeiten mit dieser Art von Daten verwendet.

  • Batch processing: Die Stapelverarbeitung ist eine Rechenstrategie, bei der Daten in großen Mengen verarbeitet werden. Dies ist in der Regel ideal für nicht zeitkritische Arbeiten, bei denen sehr große Datenmengen verarbeitet werden. Der Prozess wird gestartet und zu einem späteren Zeitpunkt werden die Ergebnisse vom System zurückgegeben.

  • Cluster computing: Clustered Computing ist die Praxis, die Ressourcen mehrerer Maschinen zu bündeln und ihre kollektiven Fähigkeiten zu verwalten, um Aufgaben zu erledigen. Computercluster erfordern eine Cluster-Management-Schicht, die die Kommunikation zwischen den einzelnen Knoten verwaltet und die Arbeitszuweisung koordiniert.

  • Data lake: Data Lake ist ein Begriff für ein großes Repository gesammelter Daten in einem relativ rohen Zustand. Dies wird häufig verwendet, um auf die in einem Big-Data-System gesammelten Daten zu verweisen, die möglicherweise unstrukturiert sind und sich häufig ändern. Dies unterscheidet sich im Wesentlichen von Data Warehouses (unten definiert).

  • Data mining: Data Mining ist ein weit gefasster Begriff für die Praxis, Muster in großen Datenmengen zu finden. Es ist der Prozess des Versuchs, eine Masse von Daten in einen verständlicheren und zusammenhängenderen Satz von Informationen zu verfeinern.

  • Data warehouse: Data Warehouses sind große, geordnete Datenrepositorys, die für Analysen und Berichte verwendet werden können. Im Gegensatz zu adata lake besteht ein Data Warehouse aus Daten, die bereinigt, in andere Quellen integriert und im Allgemeinen gut geordnet sind. Über Data Warehouses wird häufig im Zusammenhang mit Big Data gesprochen, sie sind jedoch in der Regel Komponenten herkömmlicherer Systeme.

  • ETL: ETL steht für Extrahieren, Transformieren und Laden. Es bezieht sich auf den Prozess der Erfassung von Rohdaten und deren Aufbereitung für die Verwendung durch das System. Dies ist traditionell ein Prozess, der mit Data Warehouses verbunden ist. Charakteristika dieses Prozesses sind jedoch auch in den Aufnahme-Pipelines von Big-Data-Systemen zu finden.

  • Hadoop: Hadoop ist ein Apache-Projekt, das der frühe Open-Source-Erfolg bei Big Data war. Es besteht aus einem verteilten Dateisystem namens HDFS mit einem Cluster-Management und einem Ressourcen-Scheduler namens YARN (Yet Another Resource Negotiator). Stapelverarbeitungsfunktionen werden von der MapReduce-Berechnungsengine bereitgestellt. In modernen Hadoop-Bereitstellungen können neben MapReduce auch andere Computer- und Analysesysteme ausgeführt werden.

  • In-memory computing: In-Memory-Computing ist eine Strategie, bei der die Arbeitsdatensätze vollständig im kollektiven Speicher eines Clusters verschoben werden. Zwischenberechnungen werden nicht auf die Festplatte geschrieben, sondern im Speicher abgelegt. Dadurch haben In-Memory-Computing-Systeme wie Apache Spark einen enormen Geschwindigkeitsvorteil gegenüber I / O-gebundenen Systemen wie MapReduce von Hadoop.

  • Machine learning: Maschinelles Lernen ist das Studium und die Praxis des Entwurfs von Systemen, die auf der Grundlage der ihnen zugeführten Daten lernen, anpassen und verbessern können. Dies umfasst in der Regel die Implementierung von prädiktiven und statistischen Algorithmen, mit denen kontinuierlich „korrektes“ Verhalten und Erkenntnisse ermittelt werden können, wenn mehr Daten durch das System fließen.

  • Map reduce (big data algorithm): Map Reduce (der Big-Data-Algorithmus, nicht die MapReduce-Berechnungs-Engine von Hadoop) ist ein Algorithmus zum Planen der Arbeit an einem Computercluster. Der Prozess umfasst das Aufteilen des eingerichteten Problems (Zuordnen zu verschiedenen Knoten) und das Berechnen über diesen, um Zwischenergebnisse zu erzeugen, das Mischen der Ergebnisse, um gleiche Mengen auszurichten, und das anschließende Reduzieren der Ergebnisse durch Ausgeben eines einzelnen Werts für jede Menge.

  • NoSQL: NoSQL ist ein weit gefasster Begriff, der sich auf Datenbanken bezieht, die außerhalb des traditionellen relationalen Modells entworfen wurden. NoSQL-Datenbanken haben andere Nachteile als relationale Datenbanken, sind jedoch aufgrund ihrer Flexibilität und häufigen Distributed-First-Architektur häufig gut für Big-Data-Systeme geeignet.

  • Stream processing: Bei der Stream-Verarbeitung werden einzelne Datenelemente beim Durchlaufen eines Systems berechnet. Dies ermöglicht eine Echtzeitanalyse der dem System zugeführten Daten und ist nützlich für zeitkritische Vorgänge unter Verwendung von Hochgeschwindigkeitsmetriken.

Fazit

Big Data ist ein breites, sich schnell entwickelndes Thema. Obwohl es nicht für alle Arten von Computern geeignet ist, greifen viele Unternehmen für bestimmte Arten von Arbeitslasten auf Big Data zurück und ergänzen damit ihre vorhandenen Analyse- und Geschäftstools. Big-Data-Systeme eignen sich in einzigartiger Weise zur Aufdeckung schwer erkennbarer Muster und bieten Einblicke in Verhaltensweisen, die mit herkömmlichen Mitteln nicht zu finden sind. Durch die korrekte Implementierung von Systemen, die mit Big Data umgehen, können Unternehmen einen unglaublichen Nutzen aus bereits verfügbaren Daten ziehen.