Design Pattern
für die Datenintegration
Im Kontext des Data Warehousing, Data Engineering oder angrenzenden Disziplinen sieht jeder Datenintegrationsprozess zunächst einzigartig aus. Spezifische Datenstrukturen in Quellen und Zielen werden über eine Folge von Transformationen miteinander verbunden, alles sieht zunächst individuell aus.
Betrachtet man eine größere Menge solcher Datenintegrationsprozesse mit etwas Distanz, so werden oft wenige Muster (eng. Pattern) sichtbar. Diese Beobachtung haben sicher viele Projekte bereits gemacht. Wie kann man aber hieraus Nutzen ziehen?
Betrachtet man eine größere Menge solcher Datenintegrationsprozesse mit etwas Distanz, so werden oft wenige Muster (eng. Pattern) sichtbar. Diese Beobachtung haben sicher viele Projekte bereits gemacht. Wie kann man aber hieraus Nutzen ziehen?
Im Kontext des Data Warehousing, Data Engineering oder angrenzenden Disziplinen sieht jeder Datenintegrationsprozess zunächst einzigartig aus. Spezifische Datenstrukturen in Quellen und Zielen werden über eine Folge von Transformationen miteinander verbunden, alles sieht zunächst individuell aus.
Betrachtet man eine größere Menge solcher Datenintegrationsprozesse mit etwas Distanz, so werden oft wenige Muster (eng. Pattern) sichtbar. Diese Beobachtung haben sicher viele Projekte bereits gemacht. Wie kann man aber hieraus Nutzen ziehen?
Betrachtet man eine größere Menge solcher Datenintegrationsprozesse mit etwas Distanz, so werden oft wenige Muster (eng. Pattern) sichtbar. Diese Beobachtung haben sicher viele Projekte bereits gemacht. Wie kann man aber hieraus Nutzen ziehen?
Metadaten-Normalisierung
Untersucht man die Datenintegrationsprozesse genauer, so fällt auf, dass sie einige Gemeinsamkeiten haben. Grundlegende Logiken sind gleich, genauso die verwendete Datenmodellierung (z.B. Data Vault, Dimensional Modelling). Andererseits sind manche Teile sehr spezifisch, insbesondere die verarbeiteten Datenstrukturen unterscheiden sich zwischen jedem Prozess.
Bei einer Metadaten-Normalisierung trennt man zwischen dem Gemeinsamen und dem Spezifischen der Prozesse. Das Gemeinsame wird in einem Design Pattern implementiert. Die spezifischen Anteile werden aus jedem Prozess als sogenannte Instanz-Metadaten extrahiert.
Bei einer Metadaten-Normalisierung trennt man zwischen dem Gemeinsamen und dem Spezifischen der Prozesse. Das Gemeinsame wird in einem Design Pattern implementiert. Die spezifischen Anteile werden aus jedem Prozess als sogenannte Instanz-Metadaten extrahiert.
Design Pattern
Ein Pattern wird zunächst als abstrakter Prototyp entworfen, implementiert und getestet. Das geschieht entweder in einem Datenintegrationstool oder als SQL-/Spark-Template. Danach wird der Prototyp in MetaKraftwerk importiert und um dynamische Regeln ergänzt, die festlegen, an welchen Stellen später Instanz-Metadaten eingesetzt werden sollen. Das Pattern definiert zudem Namensregeln und weitere dynamische Komponenten, wie z.B. DDL-Templates. Bei der Entwicklung eines Patterns sind der Kreativität keine Grenzen gesetzt, die Funktionalität richtet sich vollständig nach den Bedürfnissen des Kundenprojektes.
Instanzmetadaten
Instanzmetadaten
Instanz-Metadaten speisen sich aus Datenmodellen, Quellsystemen, Spezifikationen und anderen Metadaten. Anders als in einfachen Datenmodellen, werden Instanz-Metadaten um sogenannte funktionale Rollen ergänzt, die ihnen eine Funktion im Pattern zuweisen. Das Schema der Instanz-Metadaten ist flexibel definierbar, sodass es auf die technischen Anforderung des Patterns zugeschnitten werden kann.
Entwicklungsautomatisierung
Aus dem Pattern und den Instanz-Metadaten erstellt MetaKraftwerk direkt deploybare und ablauffähige Prozesse. Dabei wird die bereits im Pattern getestete Funktionalität automatisiert auf konkrete Prozess-Instanzen übertragen. Automatisierung beschleunigt die Entwicklung enorm und führt zu einer standardisierten Qualität der erstellten Prozesse.
Erfahren Sie, wie sich ein Pattern- und Metadaten-basierter Entwicklungsansatz für Ihr Datenmanagement-Projekt auszahlt
Design Pattern-Bibliothek
{
MetaKraftwerk besitzt eine umfangreiche Bibliothek an erprobten Design Pattern für verschiedenste Anwendungsbereiche. Profitieren Sie direkt von der Qualität und Standardisierung dieser Pattern, oder passen Sie diese an ihre eigenen Bedürfnisse an
}
Big Data
Pattern für poly- oder unstrukturierte Daten, welche auf die hoch-performante Verarbeitung von großen Datenmengen ausgelegt sind. Die Überprüfung der Datenqualität kann dabei beispielsweise direkt bei der Verarbeitung erfolgen, um Massendaten nicht unnötig mehrfach zu bewegen. Die Integration der Daten in die verschiedenen Schichten der Big Data-Plattformen wird über spezifische Pattern realisiert. Auch existieren Pattern für Realtime Big Data-Architekturen wie z.B. Lambda und Kappa.
Realtime-
Data Warehousing
Pattern für die Echtzeitdatenverarbeitung von Streaming- oder Messaging-Quellsystemen. Die Realtime-Verarbeitung erfordert dabei spezialisierte Verarbeitungslogiken für technische und fachliche Integritätsprüfungen sowie die unmittelbare Integration der Daten in das Core-Layer des Data Warehouse. Dies findet auch Anwendung bei Pattern für Realtime Big Data-Architekturen.
Mass Data Ingestion
Pattern für die Anlandung bzw. Bewegung von großen Mengen an Quelldaten in die entsprechende Datenplattform. Dies dient insbesondere der schnellen Migration von Daten. Damit kann der Umzug in die Cloud, auf eine On-Premise oder auch hybride Datenplattform effizient erfolgen. Die Daten stehen schnellstmöglich für Data Science und Data Analytics zur Verfügung.
Data Quality
Verschiedenste Pattern, die die Überprüfung von Datenbereichen, Namenskonventionen, Wertebereichen, Mindest- und/oder Maximalanforderungen an Measures oder Querreferenzen zu anderen Entitäten sicherstellen.
Big Data
Pattern für poly- oder unstrukturierte Daten, welche auf die hoch-performante Verarbeitung von großen Datenmengen ausgelegt sind. Die Überprüfung der Datenqualität kann dabei beispielsweise direkt bei der Verarbeitung erfolgen, um Massendaten nicht unnötig mehrfach zu bewegen. Die Integration der Daten in die verschiedenen Schichten der Big Data-Plattformen wird über spezifische Pattern realisiert. Auch existieren Pattern für Realtime Big Data-Architekturen wie z.B. Lambda und Kappa.
Realtime-
Data Warehousing
Pattern für die Echtzeitdatenverarbeitung von Streaming- oder Messaging-Quellsystemen. Die Realtime-Verarbeitung erfordert dabei spezialisierte Verarbeitungslogiken für technische und fachliche Integritätsprüfungen sowie die unmittelbare Integration der Daten in das Core-Layer des Data Warehouse. Dies findet auch Anwendung bei Pattern für Realtime Big Data-Architekturen.
Mass Data Ingestion
Pattern für die Anlandung bzw. Bewegung von großen Mengen an Quelldaten in die entsprechende Datenplattform. Dies dient insbesondere der schnellen Migration von Daten. Damit kann der Umzug in die Cloud, auf eine On-Premise oder auch hybride Datenplattform effizient erfolgen. Die Daten stehen schnellstmöglich für Data Science und Data Analytics zur Verfügung.
Data Quality
Verschiedenste Pattern, die die Überprüfung von Datenbereichen, Namenskonventionen, Wertebereichen, Mindest- und/oder Maximalanforderungen an Measures oder Querreferenzen zu anderen Entitäten sicherstellen.
Data Vault-Modellierung
Pattern für die technische Umsetzung der Datenmodellierung nach Data Vault, als kompakte historische Datenspeicherung mit Modellbausteinen wie Hubs, Links und Satelliten. Insbesondere geeignet für die Verwendung auf hybriden und föderierten Datenplattformen, die Flexibilität in Hinsicht auf Erweiterungen und Multi-Source-Szenarios erfordern.
Anker-Modellierung
Pattern für die Datenintegration entsprechend der Anker-Modellierung, mit dem Ziel der speicher- und zugriffsorientierten Historisierung der Daten im Core Layer des Data Warehouse. Die Speicherung für Stammdaten erfolgt dabei in einer Objekt- State-Datenstruktur, mit einem festen Objektkern und den veränderlichen Attributen in State-Tabellen. Zeitpunktbezogenen Daten werden direkt in Faktentabellen gespeichert.
Multidimensionale Modellierung
Pattern für Bereitstellung der Daten mit dem Schwerpunkt der Datenanalyse in Data Marts bzw. im weiteren Sinne des Online Analytical Processing (OLAP). Dabei werden multidimensionale Datenräume anhand von Measures und Dimensionen erzeugt. Die Modellierung kann u.a. anhand von Star-, Snowflake- und Galaxy-Schemas erfolgen. Die Überführung dieser Modellierungsarten in die konkreten technischen Artefakte wird über verschiedene Pattern realisiert.
Schichtenarchitekturen in Datenplattformen
Pattern für die Transformation und Integration in die verschiedenen Schichten der unterschiedlichen Architekturen von Datenplattformen. Schichten können dabei Landing, Staging, Cleaning, Core, Reporting und Analyse sein. In Data Lake Plattformen lassen sich Raw, Landing, Enrichment und Consumption Layer finden. Für die Überführung in die Schichten dienen Pattern. Dies kann auch die Transformation zwischen Modellierungsmethoden beinhalten, z.B. aus der Data Vault- in die multidimensional Modellierung.
Data Vault-Modellierung
Pattern für die technische Umsetzung der Datenmodellierung nach Data Vault, als kompakte historische Datenspeicherung mit Modellbausteinen wie Hubs, Links und Satelliten. Insbesondere geeignet für die Verwendung auf hybriden und föderierten Datenplattformen, die Flexibilität in Hinsicht auf Erweiterungen und Multi-Source-Szenarios erfordern.
Anker-Modellierung
Pattern für die Datenintegration entsprechend der Anker-Modellierung, mit dem Ziel der speicher- und zugriffsorientierten Historisierung der Daten im Core Layer des Data Warehouse. Die Speicherung für Stammdaten erfolgt dabei in einer Objekt- State-Datenstruktur, mit einem festen Objektkern und den veränderlichen Attributen in State-Tabellen. Zeitpunktbezogenen Daten werden direkt in Faktentabellen gespeichert.
Multidimensionale Modellierung
Pattern für Bereitstellung der Daten mit dem Schwerpunkt der Datenanalyse in Data Marts bzw. im weiteren Sinne des Online Analytical Processing (OLAP). Dabei werden multidimensionale Datenräume anhand von Measures und Dimensionen erzeugt. Die Modellierung kann u.a. anhand von Star-, Snowflake- und Galaxy-Schemas erfolgen. Die Überführung dieser Modellierungsarten in die konkreten technischen Artefakte wird über verschiedene Pattern realisiert.
Schichtenarchitekturen in Datenplattformen
Pattern für die Transformation und Integration in die verschiedenen Schichten der unterschiedlichen Architekturen von Datenplattformen. Schichten können dabei Landing, Staging, Cleaning, Core, Reporting und Analyse sein. In Data Lake Plattformen lassen sich Raw, Landing, Enrichment und Consumption Layer finden. Für die Überführung in die Schichten dienen Pattern. Dies kann auch die Transformation zwischen Modellierungsmethoden beinhalten, z.B. aus der Data Vault- in die multidimensional Modellierung.
Setzen Sie auf Design Pattern!
Wir helfen Ihnen gerne dabei individuelle Lösungen für Ihr Projektvorhaben zu finden und optimale Design Pattern nach Ihren Bedürfnissen zu entwickeln