BigData Architektur fürs Business Warehouse

Eine Cloud-Native Daten-Architektur auf Basis von Open-Source Technologien macht dem SAP BW Beine.

SparrowBI ist eine Speicher Engine für SAP Business Warehouse entwickelt für moderne Business Intelligence und BigData. Es nutzt die besten OpenSource Technologien wie Apache Hadoop und Spark. Verwaltung und Betrieb übernehmen wir für Sie.

SparrowBI bietet In-Memory Performance zum Preis einer Archivierungslösung. Eine tiefe Integration in SAP-BW auf Basis von Standardschnittstellen erfordert keine Umstellung oder Einführung neuer Technologien. Die Ausführungs-Schicht basiert auf moderner, massiv paralleler In-Memory Technologie auf Basis von Apache Spark. Durch gehosteten Betrieb skaliert SparrowBI nach Bedarf. Zur Speicherung setzt SparrowBI auf Datei-basierte Spalten-Datenbanken die in einer performanten und redundaten IO-Architektur vorgehalten werden. Dabei bietet SparrowBI Daten-Sicherheit und Governance um Unternehmensdaten sicher vorzuhalten und auszuwerten.

Übersicht der SparrowBI Komponenten

Integration ins SAP Business Warehouse

SparrowBI bringt BigData ins Unternehmen, ohne Ihre Infrastruktur order Architektur neu überdenken zu müssen. Dies geschieht durch nahtlose Integration ins vorhandene SAP Business Warehouse. Wir setzen hierbei auf Standardschnittstellen, die BW Experten schon lange kennen und verwenden.

NLS Interface

Archivieren von BW Cubes über das Nearline Interface. Das spart Speicherkosten in lokalen Speichersystemen bei deutlicher Steigerung der Queryperformance.

Mehr erfahren

Virtual Cubes

Während beim Reporten aus archivierten Cubes Navigations-Attribute durch SAP BW nachgelesen werden übernimmt diese Aufgabe bei virtuellen Cubes SparrowBI. Dadurch wird bei Navigationsattributen die selbe Performance wie bei Merkmalen erreicht.

Dank an Apache Spark

Spark ist eine leistungsstarke Open-Source-Processing-Engine mit Fokus auf Geschwindigkeit, Benutzerfreundlichkeit und der Möglichkeit zu komplexen Analysen.

Dank Apache Spark ist SparrowBI rasend schnell und bietet endlose Möglichkeiten.

Spark ist das größte Open-Source-Projekt in der Datenverarbeitung mit Unterstützern wie Amazon, eBay, IBM, Netflix, Baidu und vielen anderen.

Massiv-Parallele In-Memory Verarbeitung

Parallele Verarbeitung komplexer Analysen in Apache Spark

Spark parallelisiert die Verarbeitung einer Abfrage. Dies geschieht indem ein Ablaufplan passend zur Abfrage erstellt wird. Die einzelnen Schritte dieses Ablaufplans werden dann auf Rechenknoten verteilt, so dass Datenaustausch minimal gehalten und Ressourcen optimal genutzt werden.

Zu Beginn der Abfrage laden die Konten nur die benötigten Daten direkt aus den Spalten-orientierten Daten-Dateien. Der I/O Durchsatz der Knoten summiert sich hierbei. Die Zwischenergebnisse hingegen werden für den Zeitraum der Abfrage, also gerade so lange Filterungen, Aggregationen und Berechnungen stattfinden im Speicher gehalten. Hierdurch wird zu einem Bruchteil der Kosten einer kompletten In-Memory Datenbank eine ebenbürtige Performance erreicht.

Datei-basierte Spalten-Datenbank

Einsparungspotential durch Query Performance

Für analytische Workloads ist es vorteilhaft, die Daten in einem Layout zu speichern, das am besten für Selektion und Aggregation der Daten geeignet ist. Gleichzeitig soll bedingt durch die große und stetig steigende Datenmenge die Speicherung kosteneffizient und die Verwaltung einfach sein.

Spaltenorientierte Datenbanken bieten diese Vorteile. Sie erhöhen den I/O Durchsatz, da nur die Spalten geladen werden, auf die zugegriffen wird. In Spalten organisierte Daten können besser komprimiert werden, was den Speicherbedarf senkt. Weiter werden die Vektor-Einheiten moderner CPUs und Arbeitsspeicher besser ausgenutzt.

SparrowBI verwendet das offene Parquet Format der Apache Software Foundation. Hierbei werden die Zeilen zu Blöcken zusammen gefasst. Diese Blöcke werden dann spalten-orientiert und komprimiert abgelegt. Dies ist eine Vorgehensweise, die auch Google für BigQuery verwendet. Parquet verbindet die Zugriffsperformance einer Datenbank mit den Vorteilen Datei-basierter Datenhaltung.