Data Mesh – der Schlüssel zum Datenschatz im Unternehmen
von Bernd Reder, Artikel aus dem Archiv vom
Daten zu erfassen, zu konsolidieren und in verwertbare Erkenntnisse umzusetzen oder sie gar für neue Geschäftsmodelle zu nutzen, stellt Unternehmen vor große Herausforderungen. Als Antwort darauf, etabliert sich ein dezentraler Ansatz für den Umgang mit Daten und Analysen: Data Mesh.
Zugegeben, Schlagworte wie „Unternehmen sitzen auf einem Datenschatz“ wurden in den vergangenen Jahren überstrapaziert. Doch in der Tat nehmen die Datenbestände in Firmen und öffentlichen Einrichtungen rapide zu. Das zeigt die Studie „Worldwide Global Datasphere Data Forecast 2021-2026“ des Marktforschungsunternehmens IDC. Sie prognostiziert, dass allein das Volumen der unstrukturierten Daten, die weltweit vorhanden sind, zwischen 2023 und 2026 von 115 auf über 200 Zettabyte anwächst. Die Menge der strukturierten Daten soll sich in dieser Zeitspanne fast verdreifachen, von 7,6 auf 21 Zettabyte.
Anzeige
Ein Großteil der Unternehmen hat erkannt, welches geschäftliche Potenzial in diesen Informationsbeständen steckt. So nutzen beispielsweise in Deutschland rund 80 Prozent Daten für die Wertschöpfung. Fast alle (90 Prozent) stufen sich als „datenorientiert“ ein. Das ergab die Analyse „Data-Driven Enterprise 2023“ von IDG Research Services.
Doch die Realität sieht häufig anders aus. Daten zu erfassen, zu konsolidieren und in verwertbare Erkenntnisse umzusetzen (Insights), oder sie gar für neue Geschäftsmodelle zu nutzen, stellt Unternehmen vor große Herausforderungen. So bewertet die Hälfte der Unternehmen, die IDG befragte, das Management und die Qualität der vorhandenen Daten als unzureichend. Und das Beratungshaus Bearingpoint hat auf Basis der Erkenntnisse aus Tausenden von Projekten ermittelt, dass mehrere Faktoren nötig sind, damit Unternehmen ihren „Datenschatz“ heben können. Dazu zählen Kenntnisse der eigenen Datenwelt und die Vorbereitung der Mitarbeiter auf datenorientierte Prozesse, und dies in Verbindung mit dem Einsatz von neuen Technologien.
„Ein Verständnis über die zielgerichtete Datennutzung ist unabdingbar, um neue Datenprodukte anbieten zu können. Dies setzt allerdings eine klare Datenstrategie und umfangreiche Data Governance voraus“, unterstreicht Tomas Chroust, der als Partner bei Bearingpoint für die Schweiz zuständig ist.
(Bild: Cloudera)„Data Mesh ist ein Ansatz für den dezentralen Umgang mit Daten und Analysen, um Agilität und Flexibilität für Unternehmen als Ganzes zu erreichen.“
Benjamin Bohne, Group VP Sales CEMEA bei Cloudera
Neuer Ansatz: Data Mesh
Um Daten zu „mobilisieren“ und nutzbar zu machen, etabliert sich neben Datenplattformen, Datenmanagementlösungen, Data Fabrices und DataOps ein weiterer Ansatz: Data Mesh. Die Grundidee hat die IT-Spezialistin Zhamak Dehghani vor einigen Jahren beim Technologieberatungshaus Thoughtworks entwickelt. Heute ist sie CEO von Nextdata, das mit Nextdata OS ein Toolset entwickelt hat, mit dem Anwender ein Data Mesh einrichten können.
Doch was verbirgt sich hinter diesem Begriff? Jedenfalls keine Lösung von der Stange, so Benjamin Bohne, Group Vice President Sales CEMEA bei Cloudera: „Data Mesh ist ein Ansatz für den dezentralen Umgang mit Daten und Analysen, um Agilität und Flexibilität für Unternehmen als Ganzes zu erreichen.“
Ein domänenorientiertes Design überträgt den Datenbesitz von einer zentralen Instanz im Unternehmen auf einzelne Teams oder Geschäftsbereiche. „Diese sind nicht nur für ihre Daten verantwortlich, sondern auch dafür, wie diese Daten im Unternehmen genutzt werden können“, ergänzt Genevieve Broadhead, Principal for Retail EMEA im Industry Solutions Team bei MongoDB.
Vier Grundelemente
Ein Data Mesh setzt gemäß der Definition von Zhamak Dehghani auf vier Säulen auf. Die erste ist die domänenbasierte Data Ownership. Das heißt, die Kontrolle über die Daten wird von zentralen Datenteams auf Domänen verlagert, die mit bestimmten Daten am besten vertraut sind, etwa Fachbereiche wie Vertrieb, Produktentwicklung oder Finanzwesen.
„Die Fachbereiche wissen schließlich am besten, wie diese Informationen verwaltet und bereitgestellt werden sollen und welche Zugriffsparameter sinnvoll sind“, betont Marc Kleff, Director Solutions Engineering bei NetApp Deutschland. „Das ist das Mesh-Prinzip: Wer die Daten erzeugt, trägt Mitverantwortung.“
Diese Verantwortung umfasst auch die IT-Ressourcen der Domäne. Deshalb bestehen Domain-Teams aus Mitarbeitern der Fachabteilungen und IT-Fachleuten.
Das zweite Element sind Datenprodukte, Stichwort „Data as a Product“. Das heißt, Daten werden über die Grenzen von Domänen hinweg anderen Nutzern („Kunden“) zur Verfügung gestellt, etwa Fachleuten in anderen Abteilungen oder Data Scientists. Diese Datenprodukte müssen mehrere Anforderungen erfüllen, etwa in Bezug auf die Vertrauenswürdigkeit, Interoperabilität, Sicherheit und Ausstattung mit Schnittstellen. Wichtig, ist zudem, dass Kunden solche Datenprodukte auf einfache Weise finden können. Dies lässt sich mithilfe von Metadaten erreichen.
Damit Teams über die Grenzen von Abteilungen und Domänen hinweg Datenprodukte bereitstellen, pflegen und nutzen können, ist außerdem eine Datenplattform erforderlich, die nach dem Selbstbedienungsmodell funktioniert. Diese Plattform stellt Services und APIs (Application Programming Interfaces) zur Verfügung.
Die vierte Säule ist eine „Federated Computational Governance“. Das bedeutet, die Domänen-Teams entwickeln gemeinsam ein übergreifendes Data-Governance-Modell für die Datenprodukte. Dieses berücksichtigt beispielsweise Datenschutzregelungen und lässt sich an geänderte Vorgaben anpassen. Zusätzlich definieren die Data Owner Richtlinien für ihre Datenprodukte.
Vorteile von Data Meshs
Bereits diese Basiselemente machen deutlich, dass die Implementierung eines Data-Mesh-Ansatzes mit einem nicht zu unterschätzenden Aufwand verbunden ist. So müssen Organisationsstrukturen umgebaut und Aufgaben neu verteilt werden. Daher gilt es abzuwägen, ob sich der Aufwand lohnt. Für Genevieve Broadhead steht das außer Frage: „Data Mesh hat zwei Vorteile. Erstens ist dasjenige Geschäftsteam Dateneigentümer, das die Daten am besten versteht und somit die Möglichkeit hat, sie zu ändern und zu erneuern. Zweitens sind die Daten im gesamten Unternehmen zuverlässig verfügbar, so dass sie für viele andere betriebliche und analytische Anwendungsfälle genutzt werden können“, etwa um Innovationen und die Digitalisierung voranzutreiben.
Ein weiterer Pluspunkt ist, dass das dezentrale Konzept Flaschenhälse beseitigt: „Es entstehen keine Engpässe durch die Zentralisierung von Betrieb, Eigentum und Verwaltung von Daten und Analysen“, unterstreicht Benjamin Bohne von Cloudera. Hinzu kommt, dass Fachleute die Aufgabe übernehmen, Daten und Erkenntnisse zu erstellen und als Produkte bereitzustellen. „Daher werden sie nicht als Daten wahrgenommen, sondern als Projekt. Das führt zu eine verbesserten Langlebigkeit und Qualität sowie einem höheren Wert.“
(Bild: MongoDB)„Data Mesh hat zwei Vorteile. Erstens ist das Geschäftsteam Dateneigentümer, das die Daten am besten versteht (…). Zweitens sind die Daten im gesamten Unternehmen zuverlässig verfügbar (…).“
Genevieve Broadhead, Principal for Retail EMEA, Industry Solutions Team bei MongoDB
Mit einem Data Mesh soll zudem ein Nachteil herkömmlicher Dateninfrastrukturen überwunden werden: dass Daten in separaten Silos abgelegt werden. Dies führt sonst oft zu einem höheren Bedarf an Storage-Ressourcen und verhindert eine übergreifende Sicht auf Informationen. Dadurch wiederum ist es schwieriger, Daten aus unterschiedlichen Silos zu kombinieren und zu analysieren. Dies kann zu Lasten der Reaktionsfähigkeit und Time-to-Market-Zeiten von Unternehmen und deren Entwicklungsabteilungen gehen.
Allerdings weisen Kritiker darauf hin, dass auch das Domänen-Modell eines Data Mesh dazu führen kann, dass abgeschottete Bereiche entstehen. Hinzu kommt, dass es möglicherweise zu einem Wildwuchs in Bereichen wie der Datenspeicherung und dem Data Management kommt. Dies ist dann der Fall, wenn viele Data Stores und APIs zum Einsatz kommen. Dann steigt der Aufwand für die Verwaltung und damit die Belastung der zuständigen IT- und Datenspezialisten. Und dies ist angesichts des Mangels an solchen Fachleuten etwa in Deutschland und der Schweiz problematisch.
„Um Data Mesh im Unternehmen einzusetzen, muss das bisher zentral vorhandene technische Spezialwissen auf die Business Units verteilt werden. Diese Anpassung stellt für kleinere Unternehmen, die hier teilweise unterbesetzt sind, eine große Herausforderung dar“, bestätigt Till Sander, Chief Technology Officer beim Business-Intelligence-Beratungshaus Areto Consulting in Köln. Dezentralisierte Datenbestände stellen zudem nach seinen Erfahrungen erhöhte Anforderungen an die Auffindbarkeit und Dokumentation von Informationen. „In diesem Zusammenhang ist der Einsatz eines Data Catalog unerlässlich.“
Die Rolle von Data Fabrics
Im Zusammenhang mit der Debatte über Data Meshs drängst sich vielen Unternehmen unweigerlich eine weitere Frage: Was soll eine Firma tun, die bereits viel Geld und Ressourcen in Lösungen wie Data Fabrics und Data Lakes investiert hat? Die gute Nachrichtig lautet: Storage- und Datenspezialisten sind sich darin einig, dass sich diese Technologien mit einem Data Mesh verbinden lassen.
„Technisch gesehen verfolgt Data Mesh einen dezentralen Ansatz, bei dem die Umsetzung einzelnen Teams überlassen bleibt. Data Fabric orientiert sich an der Idee des klassischen zentralen Data Warehouse, ergänzt diese aber durch ‚moderne‘ Building Blocks, etwa Data Pipelines und Data Lakes“, erläutert Till Sander. Daher könne ein Data Mesh durchaus als „Governed Mesh“ auf Basis einer zentralen Plattform entwickelt werden, bei der die Teams auf einer Data Fabric mit dem gleichen Technologieportfolio arbeiten.
Technische Basis und Storage-Ressourcen
Auch Cloudera plädiert für ein „Sowohl als auch“ von Mesh und Fabric. Bei beiden Ansätzen sei das Datenmanagement das Herzstück. Es gibt jedoch nach Einschätzung von Benjamin Bohne auch Unterschiede: „Eine Data Fabric erschließt Daten in großem Umfang, stellt sie in einen geschäftlichen Kontext und macht sie auf sichere und konforme Weise als Self-Service verfügbar. Data Mesh baut dagegen auf dem Wissen auf, das aus allen Datenquellen gesammelt wurde, um die Daten entlang der Domänen bereitzustellen und jeden Datensatz auffindbar zu machen“. Data Mesh sei ohne ein tiefes Datenverständnis und angemessene Data Governance, also eine Data Fabric, nicht möglich.
Zum selben Ergebnis kommt NetApp-Fachmann Marc Kleff, insbesondere vor dem Hintergrund, dass Daten sowohl im Unternehmens-Datacenter als auch in Cloud-Umgebungen gespeichert werden. „Eine Data Fabric ist ein Architekturkonzept für die hybride Multi-Cloud-Welt. Das heißt, sie optimiert Anwendungsfälle wie Data Protection, Daten-Tiering, Produktivdatenbereitstellung, Security und Compliance sowie die Multi-Cloud-Nutzung. Damit bildet die Data Fabric das Fundament für Data-Mesh-Ansätze.“
(Bild: NetApp)„Letztlich funktioniert ein Data Mesh nur, wenn die Product Owner die entsprechenden Kenntnisse mitbringen.“
Marc Kleff, Director Solutions Engineering bei NetApp Deutschland
Apropos Fundament: Wer Data Fabrics oder Meshs einsetzen möchte, sollte bei der Planung prüfen, ob die Storage-Ressourcen für solche Konzepte ausgelegt sind. „Entscheidend ist, dass Daten genau dort abgerufen, analysiert und verarbeitet werden können, wo sie benötigt werden. Dies erfordert Datenmobilität, etwa die Fähigkeit, Anwendungen mit ihren Daten von einem Cloud-Anbieter zu einem anderen zu verschieben“, sagt Remko Deenik, Technical Director Europe beim Storage-Anbieter Pure Storage.
Zudem muss es möglich sein, auf alle Daten zuzugreifen, gleich, ob diese in einer Cloud, Unternehmensrechenzentren oder am Edge vorliegen. Das erfordert laut Deenik Speichersysteme und eine Systemsoftware, dies es ermöglicht, die Datenverwaltung zu vereinfachen und Silos aufzubrechen.
(Bild: Pure Storage)„Entscheidend ist, dass Daten genau dort abgerufen, analysiert und verarbeitet werden können, wo sie benötigt werden.“
Remko Deenik, Technical Director Europe bei Pure Storage
Anwendungsbeispiel: Roche Diagnostics
Da es sich bei Data Mesh um ein neues Konzept handelt, hält sich die Zahl der Unternehmen in Grenzen, die bereits entsprechende Konzepte umgesetzt haben. Ein Anwender ist der schweizerische Pharmakonzern Roche. Dessen Sparte Roche Diagnostics startete 2020 ein auf zwei Jahre ausgelegtes Migrationsprojekt, um die bestehende IT-Umgebung in Richtung Cloud-Services und eines modernen Data Stack weiterzuentwickeln. Ein Grund war, dass die Entwicklung von daten- und analysebasierten Produkten für Kunden und Patienten zu langsam ablief. Neue Releases wurden nur alle drei Monate zur Verfügung gestellt.
Ein Kernelement der neuen Strategie war die Einführung eines Data Mesh. Parallel dazu implementierte Roche Diagnostics ein agiles Warehouse auf Basis der Modellierungstechnik Data Vault 2.0. Das Data Mesh besteht aus drei Ebenen. Die erste ist eine Plattform, die das Erstellen von Datenprodukten durch Domänen unterstützt. Das entsprechende Team prüft beispielsweise, mit welchen Methoden sich Datenprodukte auffinden lassen und welche Data Products benötigt werden, um bestimmte Geschäftsanforderungen zu erfüllen.
Die zweite Ebene beschäftigt sich mit der „Mesh Experience“. Es wird beispielsweise erfasst, welche Domains vorhanden sind, welche Datenprodukte sie erzeugen und für welche Use Case sie tauglich sind. Dies erfolgt mithilfe von Lösungen von Anbietern wie Monte Carlo, Collibra und Immuta.
Die erforderliche Infrastruktur stellt eine dritte Ebene bereit. Sie umfasst (Cloud-)Storage- und Compute-Ressourcen von AWS, Google und Microsoft Azure, zudem eine Data-Cloud-Plattform von Snowflake und ein API-Management. Hinzu kommen Lösungen für die Data Ingestion, also das Importieren von großen Datenmengen aus unterschiedlichen Quellen in ein zentrales Speichermedium.
Ein Effekt des Data Mesh ist, dass sich bei Roche Diagnostics die Entwicklungszeiten verkürzt haben, bis ein MVP (Minimum Viable Product) bereitsteht – von etwa sechs Monaten auf sechs bis acht Wochen. Die Zahl der Releases von Anwendungen stieg zudem auf mehr als 120 pro Monat. Außerdem gelang es Roche Diagnostics, sein Datenökosystem auszubauen, etwa durch Einbindung von externen Partnern.
Voraussetzungen und Anforderungen
Basierend auf den eigenen Erfahrungen haben Fachleute von Roche und der Lösungslieferanten einige Punkte zusammengestellt, die für den Erfolg von Data-Mesh-Projekten wichtig sind. Ein zentraler Faktor ist demnach: Ein Unternehmen muss willens sein, Änderungen auf der organisatorischen Ebene vorzunehmen. Das Konzept von Domänen, Datenprodukten und Product Owners verlangt sowohl von IT- und Datenspezialisten als auch den Fachabteilungen ein Umdenken und eine Anpassung bestehender Abläufe – keine einfache Aufgabe.
Ebenso wie bei anderen Technologien, etwa KI und Machine Learning, sollten außerdem stimmige Use Case erarbeitet werden. Mal eben schnell Data Meshs und Data Fabrics einzuführen, funktioniert nicht. Es muss klar definiert sein, auf welche Weise ein Mesh dazu beitragen kann, Geschäftsanforderungen zu erfüllen. Hilfreich ist zudem, wenn der Anwender bereits Erfahrungen mit einem dezentralen Business-Intelligence- und Analytics-Ansatz hat.
Hinzu kommt, dass es keine schlüsselfertigen Data-Mesh-Lösungen gibt. Ein Anwender muss daher mit Anbietern aus unterschiedlichen Sparten zusammenarbeiten. Dazu zählen Spezialisten für das Einspeisen (Ingestion), Modellieren und Virtualisieren von Daten. Hinzu kommen Unternehmen, die Lösungen für Data Discovery und Observability, für das Bereitstellen von Datenprodukten sowie für Storage- und Rechenkapazitäten. Dies stellt hohe Anforderungen an die Projektkoordination, in fachlicher und personeller Beziehung.
Zwei weitere Faktoren dürften sich für viele Unternehmen als besonders hohe Hürden erweisen: Es sind gut qualifizierte Data Engineers erforderlich. Außerdem sollte das Unternehmen bereits einen Gutteil des Weges zu einem Data-Driven Enterprise absolviert haben, also die technischen, organisatorischen und betriebskulturellen Grundlagen geschaffen haben.
Die erste Anforderung zu erfüllen, dürfte wegen des notorischen Mangels an Datenspezialisten schwerfallen. „Letztlich funktioniert ein Data Mesh nur, wenn die Product Owner die entsprechenden Kenntnisse mitbringen. Hier liegen die größten Herausforderungen“, betont Marc Kleff von NetApp. Es gehe allerdings nicht darum, sämtliche Kompetenzen auf niedrigerer Ebene zu duplizieren, sondern Dezentralisierung intelligent aufzusetzen. „Die Teams verwenden ihre Daten als Produkt, aber sie kümmern sich nicht um sämtliche datenrelevante Belange. Sonst wird Data Mesh zum Komplexitätstreiber und Ressourcenfresser.“
Doch auch der zweite Punkt, also die Voraussetzungen für eine datenbasierte Strategie und Wertschöpfung zu schaffen, stellt eine Herausforderung dar. Denn laut der Studie „Data-Driven Enterprise 2023“ von IDG haben nur 36 Prozent der Unternehmen in Deutschland eine Datenstrategie entwickelt. Und ganze 29 Prozent verfügen über ein Datenmanagement. In der Schweiz dürften die Lage ähnlich sein. Somit müssen zunächst solche Defizite beseitigt werden.
Fazit, Anbieter & Ausblick
Dass ein Data Mesh einen geschäftlichen Nutzen bringen kann, zeigen etliche Projekte, etwa beim Pharmakonzern Roche, dem Online-Bekleidungshändler Zalando, dem Sportartikelunternehmen Adidas und der Streaming-Plattform Netflix. Allerdings handelt es dabei um Firmen, in denen das Erfassen und Analysieren von Daten aus unterschiedlichen Quellen generell eine zentrale Rolle spielt, seien es Informationen über das Nutzungs- und Kaufverhalten, Forschungsdaten, das Feedback von Kunden und Rückmeldungen aus den Lieferketten.
Dagegen muss ein Großteil der Unternehmen zunächst einmal die technischen und organisatorischen Grundlagen legen, um ihren „Datenschatz“ heben zu können. Ganz zu schweigen davon, dass auch den Mitarbeitern vermittelt werden sollte, welche Bedeutung datenbasierte Prozesse und Services haben und welche Rolle sie selbst in einem Data-Driven Enterprise spielen. Daher dürfte ein beträchtlicher Teil der Unternehmen ein Data Mesh derzeit eher als „Nice to Have“ einstufen, nicht als Notwendigkeit.
„Data Mesh ist als Konzept in allen Unternehmen angekommen, die sich mit modernen Daten-Konzepten auseinandersetzen“, betont dagegen Till Sander von Areto Consulting. „Die Umsetzung stellt jedoch Unternehmen unabhängig von der Größe vor Herausforderungen, da hier primär ein organisatorischer Wandel vollzogen werden muss“, räumt der Fachmann ein. Außerdem seien in den Business Units weder das technische Know-how noch die Projektstrukturen vorhanden, um ein solches Vorhaben erfolgreich umzusetzen. Daher empfiehlt er, auch vor dem Hintergrund der Schwierigkeiten, Datenspezialisten zu finden, gegebenenfalls auf das Fachwissen von externen Fachleuten zurückzugreifen.
Glossar
Von Data Mesh bis Data Intelligence – die wichtigsten Technologien, Architekturen und Vorgehensweisen im Bereich Data sind:
Data Mesh: Domaingesteuerte, analytische Datenarchitektur, in der Daten als Produkt behandelt werden. In dieser dezentralisierten Architektur werden Daten einzelner Business Units, also Domains, nicht in einer großen Plattform zusammengefügt, sondern von den zugehörigen Business Units betreut, aufbereitet und gespeichert.
Data Warehouse: Zentrale Datenbank für gefilterte, strukturierte Daten, die für bestimmte Anwendungsfälle vorgesehen sind. Im Vergleich zu Data Lakes sollen sie einen höheren Strukturierungsgrad aufweisen.
Data Lake: Ein Data Lake ist ein zentrales Auffangbecken für unbearbeitete Daten aller Art, auch für unstrukturierte Informationsbestände. Ein Nachteil ist, dass viele Data Lakes große Speicherkapazitäten erfordern, Stichwort Storage-Kosten. Hinzu kommt das Risiko, dass sich Data Lakes in „Datensümpfe“ (Data Swamps) verwandeln.
Data Fabric: Eine Data Fabric zielt darauf auf ab, eine einzelne, virtuelle Schicht für die Verwaltung verteilter Daten einzurichten. Eine Data Fabric ist technologiezentriert, während sich ein Data Mesh auf organisatorische Prozesse konzentriert. Dem Beratungsunternehmen BARC zufolge zeichnet sich eine Data Fabric durch zwei weitere Eigenschaften aus: die Verbindung von verteilten Plattformen, Anwendungen, Daten und Nutzergruppen sowie Funktionen, welche die Anwender entlasten, etwa das Optimieren von Prozessen durch KI-basierte Analysen, ein automatisiertes Monitoring und Management sowie Sicherheits- und Governance-Maßnahmen.
Data Intelligence: Das Erfassen, Extrahieren und Verknüpfen von Metadaten sowie deren Analyse, etwa mittels maschinellem Lernen. Dies können Data-Intelligence-Plattformen übernehmen, die wiederum Teil einer Datenplattform sind.
Anbieter von Data-Mesh-Lösungen
Unternehmen, die sich Data Mesh interessieren, stehen vor der Herausforderung, dass es keine schlüsselfertigen Lösungen dafür gibt. Vielmehr müssen Nutzer Produkte aus unterschiedlichen Sparten zu einem Ganzen zusammenfügen: aus Lösungen für das Einspeisen, Modellieren und Virtualisieren von Daten, für Data Discovery und Observability, außerdem für das Bereitstellen von Datenprodukten sowie Storage- und Rechenkapazitäten. Data Mesh ist daher ein klassischer Fall für Beratungsunternehmen, die sich auf Datenstrategien und deren Umsetzung spezialisiert haben. com! professional hat deshalb eine Anbieterübersicht zusammengestellt, die aus einer Vielzahl von Lösungen und Lieferanten aus diversen Bereichen besteht. Sie ist abrufbar auf unserer Website unter www.com-professional.de/data-mesh
Nach der Zentralisierung von Datenbeständen in Data Lakes und Data Warehouses stehen die Zeichen nun auf Dezentralisierung beziehungsweise der “Demokratisierung” von Daten. Dies spiegelt sich im Konzept von Data Meshs wider.
Data-Mesh-Lösungen verlagern die Verantwortung für „Datenprodukte“ und die dazugehörige Infrastruktur in Domänen, sprich Fachabteilungen wie Vertrieb, Marketing, Produktentwicklung und Human Resources. Davon versprechen sich Nutzer von Data Mesh eine höhere Agilität durch einen schnelleren Zugriff auf Daten sowie eine höhere Datenqualität. Denn das Fachwissen der Mitarbeitern in diesen Domänen fließt in diese Data Products mit ein. Zudem entfallen aufwendige Aktivitäten wie der Ex- und Import von Daten sowie ein Teil der Storage-Ressourcen.
Eine Herausforderung ist jedoch, dass es keine schlüsselfertigen Data-Mesh-Lösungen gibt. Vielmehr müssen Nutzer Produkte aus unterschiedlichen Sparten zu einem Ganzen zusammenfügen: Lösungen für das Einspeisen (Ingestion), Modellieren und Virtualisieren von Daten, für Data Discovery und Observability, außerdem für das Bereitstellen von Datenprodukten sowie Storage- und Rechenkapazitäten.
Daher findet sich in der Anbieterübersicht eine Vielzahl von Lösungen und Lieferanten aus diversen Bereichen. Für potenzielle Anwender ist es folglich keine einfache Aufgabe, die den passenden „Mix“ von Produkten und Services zusammenzustellen und zu implementieren. Data Mesh ist daher ein klassischer Fall für Beratungsunternehmen, die sich auf Datenstrategien und deren Umsetzung spezialisiert haben. Sie können Nutzer dabei unterstützen, die passenden Lösungen zu finden. Mindestens wichtig ist ein weiterer Faktor: Externe Fachleute sollten im Vorfeld zusammen mit dem Interessenten prüfen, ob überhaupt die Voraussetzungen für den Einsatz eines Data Mesh gegeben sind.
Denn es ist nicht zielführend, das „Pferd von hinten aufzuzäumen“, also ein Data Mesh in Angriff zu nehmen, wenn die Grundlagen dafür fehlen. Dazu zählen eine Datenstrategie, ein Data Management und Data Fabrics, über die sich Informationsbestände dort bereitstellen lassen, wo sie verarbeitet werden. Ein unverstellter Blick darauf, welche Datenservices und Lösungen ein Unternehmen überhaupt benötigt, kann daher Fehlinvestitionen und Zeitverluste vermeiden.
Die folgende Übersicht enthält fast 50 Unternehmen, die Software und Dienstleistungen für den Aufbau eines Data Mesh anbieten.
Daten- und Analytics-Services, u. a. für Aufbau und Betrieb von Data Meshs
Kooperation bei Data Mesh u. a. mit Collibra; Kombination von Services in Bereichen wie Datentransformation, Anreicherung und Management von Daten mit Data & Analytics mit Cloud-Services, Machine Learning und Ki
Lake Formation für Aufbau von Data-Mesh-Mustern, inklusive Steuerung mithilfe von Tags; Data Exchange mit Importfunktion für Daten von Externen in Data Mesh; Glue als Tools für Freigabe, das Hosting und das Katalogisieren von Datenprodukten
Areto Framework; Beratung und Services im Bereich Datenplattformen, Cloud und Data Mesh
Unternehmen aus Köln; Unterstützung im strategischen und organisatorischen Umfeld von zentralen und dezentralen Datenplattformen; Areto Framework als Basis für Umsetzung von Projekten im Bereich Data Mesh und Datenplattformen
Portfolio von Dienstleistungen für Transformation von Unternehmen zu Data-Driven Enterprises
u. a. Mobilisierung von Daten; Analytics-Lösungen; Implementierung von KI und Machine Learning; “Demokratisierung” von Daten; Modernisierung der Bereitstellung und des Managements von Daten; Monitoring, Governance etc.
Hybride Datenplattform und Datenstruktur; Unterstützung von Data Fabrics, Data Warehouses, Lakehouses und Data Meshs; auch in Hybrid- und Multi-Cloud-Umgebungen einsetzbar; umfassende Security- und Governance-Funktionen; Optimierung der Datenqualität, bezogen auf geschäftlichen Kontext
Cloud-Plattform für Erstellen und Pflege von Enterprise Data Cataloges; Kooperation mit IT- und Cloud-Unternehmen wie Accenture und Google; Basis: aktive Metadaten von Datenquellen unterschiedlicher Art und Herkunft; Datenmarktplatz; Data-Lineage-Funktion für automatisches Mapping von Datenflüssen; automatisches Monitoring von Regelwerken, Daten-Pipelines, der Datenqualität und Governance-Aspekten
Data-Streaming-Plattform auf Basis von Apache Kafka und Apache Flink; optional als Managed Service verfügbar; als Cloud-Services und On-Premises-Angebot verfügbar; für Implementierung von Echtzeit-Data-Pipelines, auch in Verbindung mit Data Meshs; Anbindung von Data Warehouses und Datenbanken
Kombination von Data-Lake- und Data-Warehouse-Funktionen und Möglichkeit, Data Meshs einzurichten; Domain-basiertes Design; zentraler Katalog für Daten und KI-Funktionen; sicheres Sharing von Datenprodukten zwischen Domains; Tools für Data Lineage (Lifecycle-Management) und Einrichtung von Daten-Pipelines nach Selbstbedienungsprinzip
Positionierung als Komplettlösung für Data Science, Machine Learning und Ki; Aufbereitung von Daten für Analysen und Machine-Learning-Projekte; Konnektoren für Datenquellen wie Datenbanken und Cloud-Storage; Datenvisualisierung; DataOps-Funktionen; Basis für Data Meshs
SaaS-Cloud-Plattform für Management von Snowflake-Umgebungen; Funktionen für Orchestrierung, automatisierte Tests, Observability, Code-Management sowie Continuous Integration / Continuous Delivery
Als Cloud-service oder On-Premises-Version verfügbar; Plattform für Datenvirtualisierung; Funktionen u. a. ETL/ELT, Daten-Streaming, CDC (Change Data Capture); für agiles Management von Daten und Sicherstellung der Data Compliance
Schwerpunkt auf Datenvirtualisierung; Basis: Datenmanagementplattform; Integration von Daten und Meta-Daten aus unterschiedlichen Quellen, inklusive Hybrid- und Multi-Cloud-Umgebungen; zentrales Datenmanagement; Data-Governance-Funktionen
Anbieter von Data-Mesh-Tools, speziell im Bereich Echtzeit-DataOps; Aufbau skalierbarer Data Pipelines auf Basis von Data Streaming; Konnektoren für Vielzahl von Datenbanken, Data Warehouses, Filestores, SaaS-Anwendungen
Beratungsdienste im Bereich Daten, Data Science, Machine Learning
Sitz in Bad Homburg; Schwerpunkt auf Finanzservices; Analyse, Beratung, Erstellen von Proof of Concept, Implementierung von datenbasierten Ansätzen, inklusive Data Meshs
Services für Aufbau und Umsetzung von Datenstrategien
IT-Haus aus Walldorf mit Schwerpunkt auf Data Science, Datenstrategien, Analytics und Cloud Engineering; Beratung und Implementierung von Datenlösungen und Datenkatalogen, inklusive Data Meshs; Kooperation mit AWS, SAP und Databricks
Tools für ; Referenzimplementierung eines Data Mesh auf Google Cloud über Github verfügbar; Google BigQuery als zentraler Speicherort von Analytics-Daten; Zugang zu Infrastrukturservices wie Storage und Computer
Datenplattform als Managed Service; Data Fabric mit Containern auf Grundlage von Kubernetes; Datensynchronisierung über mehrere Fabrics hinweg; Kombination von Dateien, Objekten, Tabellen und Streaming-Daten in einer einheitlichen Datenebene; Basis für Data Meshs
Implementierung von Data Meshs mit IBM Data Fabric on Cloud Pak for Data; Data Fabric als zentrale Lösung für Erstellen und Nutzung von Datenprodukten sowie die Zugriffssteuerung; Unterstützung von Data Lake in Firmenrechenzentren sowie von Cloud Data Warehouses
Plugin für führende Public-Cloud-Plattformen, Datensicherheits- und Compliance-Tools, Datenkataloge und Business-Intelligence-Software; Einsatzfeld: Absicherung von Daten
Schwerpunkt auf cloudbasiertem Datenmanagement, inklusive KI-Funktionen; für Aufbau von Data Meshs; mit API- und App-Integration, Datenkatalogen, Datenintegration und Oberservability- und Governance-Funktionen; Zugang zu Datenmarktplatz
Analyse bestehender Datenplattformen, der Datenbestände, der Geschäftsanforderungen etc.; Erarbeitung von Data-Mesh-Konzepten und Implementierung entsprechender Lösungen; inklusive Change-Management
Einrichten von Enterprise Data Fabrics; mit Integration von Datenexploration, Business Intelligence, Verarbeitung natürlicher Sprache und Machine Learning; IRS als Datenplattform mit “Cloud-First”-Ansatz, Datenbankmanagement, Analysefunktionen und KI
Plattform für das Erstellen, Managen und Bereitstellen von Datenprodukten; Basis: Mikrodatenbanken (Micro-DB), vergleichbar mit Miniatur-Data-Lakes; Einbindung von Daten aus unterschiedlichen Quellen in Micro-DBs
Plattform für Data Observability im Zusammenspiel mit Daten-Stacks; Tools für Monitoring und Fehlerbehebung, um Sicherheit und Qualität von Daten zu erhöhen; Basis für Erstellen von Datenprodukten
u. a. Azure Data Lake Storage Gen2, Data Factory, Data Catalog, Synapse Analytics
Cloud-Services für Implementierung und Betrieb von Data Meshs; Data Factory für Datenintegration und Data Pipelines; Data Catalog für Metadaten; Data Lake Storage als Speicherlösung für Rohdaten
MACH (Microservices, API-First, Cloud-Native SaaS, Headless) als Framework für gemeinsame Nutzung von Daten in Unternehmen und Verknüpfung von Systemen; Vorlage für Aufbau eines Data Mesh; MongoDB für Bereitstellung der Datenarchitektur und Datenmodelle
Schwerpunkt Data Observability; ein Einsatzfeld Aufbau von Data Meshs; Inklusive Einrichten von Domänen, Aufspüren von Fehlern und Anomalien sowie Einrichten von Service-Level-Zielen und -Indikatoren
u. a. Cloud Volumes Ontap; Ontap Data Management; Keystone; BlueX Classification; NetApp Data Fabric;
Ontap Data Management für übergreifendes Datenmanagement (Cloud, On-Premises, Hybrid-Cloud); Keystone als Storage-as-a-Service-Angebot für Speichern und Bereitstellen von Daten, auch in Meshs; Cloud Volumes Ontap als cloudbasierte Datenmanagement-Lösung; BlueX Classification für Klassifizierung und Analyse von Daten unter Aspekten Sicherheit, Governance etc.; NetApp Data Fabric für zentrales Datenmanagement
Toolset für Aufbau und Betrieb von Data Meshs; Container und APIs für Datenprodukte; dynamische Suche nach Datenprodukten; in Code integrierte Governance-Regeln für Lifecycle-Management von Containern; bislang vor allem auf größere Unternehmen ausgerichtet, etwa aus Finanz- und Telekommunikationsbranche
Deutsches Unternehmen; automatische Aufbereitung, Klassifizierung und Suche von Daten mit KI; systemübergreifende Verknüpfung von Daten; Qualitätschecks in Echtzeit; Erstellen von Datenprodukten für Marktplätze und Systeme von Drittanbietern
u. a. Oracle Goldengate; OCI Data Catalog; Oracle Stream Analytics; Oracle Analytics Cloud;
Goldengate-Microservices für Datensynchronisierung; Erstellen von Datenprodukten mit Data Catalog und Cloud-Datenplattform von Oracle for Data Lakehouses; Stream Analytics für Verknüpfung und Aufbereitung von Daten; Analytics Cloud für KI-basierte Analysen
Beratung mit Schwerpunkt auf Daten und Data-Driven Enterprise
IT-Haus aus Meerbusch; Fokussierung auf Analyse, Beratung, Implementierung und Betrieb von datenbasierten Lösungen; Erfassung, Aufbereitung, Visualisierung von Daten; Erstellen von Datenstrategien; Unterstützung bei Einsatz von KI, Machine Learning, IoT, Business Intelligence
Talend Data Catalog; Qlik Cloud Data Integration; Talend Data Fabric
Erstellen eines zentralen Datenkatalogs, inklusive Sicherheits- und Managementfunktionen für Daten und Data Pipelines; Compliance- und Data-Governance; automatisierte Aktualisierung von Daten; Aufbau von Echtzeitdaten-Strukturen mit Qlik Cloud Data Integration; inklusive automatisierten Datenbewegungen und Transformationen
Anbieter aus den USA; Suite mit sieben Services für Aufbau eines konsistenten, hochwertigen und vertrauenswürdigen Datenbestands; Überprüfung auf Risiken und Compliance; Funktionen u. a. Integration, Observability, Governance, Anreicherung von Daten
Flash-Speichersysteme; Software und Plattformen für Datenservices; Portworx
Storage-Basis für Data Meshs; Portworx als Kubernetes-Plattform für Bereitstellung von Datenservices, etwa Datenmigration und cloudübergreifenden Datenzugriff; AIOps-Funktionen
u. a. Openshift Data Foundation, AMQ Streams, Ansible Automation Platform, Openshift Datascience;
Grundlagen für Aufbau von Data Meshs; Openshift Data Foundation als verteilte Datenplattform; AMQ Streams für Daten-Streaming; Ansible mit Schwerpunkt auf Verarbeitung und Analyse großer Datenbestände; Openshift Data Science als Managed Cloudservices für Datenwissenschaftlicher und Anwendungsentwickler; zentrale Integration und Verwaltung von Daten mit Talend Data Fabric
Services für Aufbau und Umsetzung von Datenstrategien und Data Meshs
Zusammenarbeit mit Cloud-Serviceprovidern wie AWS, Google, Microsoft; Fokus auf Services in Bereichen wie Data Engineering Data Science und Analytics; Umsetzung von Data-Mesh-Projekten, inklusive Beratung, Entwicklung von Lösungsdesigns und Implementierung von Data-Mesh-Plattformen
u. a. Salesforce Mulesoft; Data Fabric, Data Lakes; Einstein; Data Cloud
Date Lakes, Warehouses und Data Marts für Speichern von Daten; Mulesoft als Plattform für Integration von Datenquellen; Data Fabric für Datenmanagement und Verknüpfung von Informationen; Salesforce Einstein als KI- und Machine-Learning-Service für Analysen
SAP Data Hub; SAP Data Intelligence; Data Marketplace
Data Hub für Aufbau von Daten-Pipelines; Nutzung von ERP-Systemen, Data Lakes und Data Warehouses; Data Intelligence für Verarbeitung verteilter Daten; Schwerunkt: Datenmanagement; Unterstützung von Data Fabrics; Datenorchestrierung der SAP Business Technology Platform; Data Marketplace für Kauf von Datenprodukten
Umfassendes Portfolio von Services für Aufbau und Betrieb von Meshs; Self-Service-Infrastruktur für Domänen-Teams, die Datenprodukte erstellen wollen; Metadatenschicht für vereinfachtes Teilen von Datenprodukten; Collaboration- und Data-Sharing-Funktionen; automatisiertes Datenmanagement; Date Lineage für Monitoring von Datenbewegungen
Deutsches Unternehmen; Plattform seit Ende Juli 2023 verfügbar; Datenplattform auf Basis von Open-Source-Software, etwa Apache Kafka und Spark, Trino, Apache Druid; Basis: Kubernetes; für Aufbau von Datenarchitekturen; Support von Data Warehouses, Data Lakes, Event Streaming, Data Meshs; mit KI- und Machine-Learning-Funktionen; Service-Provider Ionos hat sich an Stackable beteiligt
Galaxy ist gemanagte Plattform für Verwaltung und gemeinsame Nutzung von Daten in Cloud-Data-Lakes; inklusive Erfassen, Modellieren, Transformieren und Analysieren von Daten; Enterprise-Version für Betrieb durch Nutzer; technische Basis: Open-Source-Software Trino
Haupteinsatzfeld Datenintegration über mehrere Cloud-Plattformen hinweg; Unterstützung von AWS, Google Cloud Platform, Microsoft Azure; Synchronisierung von Daten mit Plattformen von Databricks, Cloudera und Snowflake; Control Hub für Erstellen und Managen von Data Pipelines
Data Fabric; Analysefunktionen auf Basis von KI und Machine Learning; ModelOps-Funktion; für Cloud- und hausinterne IT-Umgebungen; Kooperation mit AWS, Microsoft (Azure) und Google (Google Cloud Platform)
Services rund um Entwicklung und Implementierung von Datenarchitekturen und Data Meshs;
US-Unternehmen; Kooperation mit Cloud-Serviceprovidern wie AWS, Microsoft und Google; Unterstützung bei Umsetzung von Strategien in Bereichen wie Data Governance, Datenstrategie und Data Mesh; Entwicklung und Implementierung von Datenplattformen
Aufnahme von Informationen aus Datenbanken, Streams wie Kafka und Dateien; Ziele: Data Warehouses, Lake Query Engins wie Dremio, Starburst, Athena; Funktionen für Observability und Sicherstellung der Datenzuverlässigkeit; Konfiguration mit No-Code-Tool; Unterstützung von AWS-Cloud-Services wie Glue und EMR