arrow arrow--cut calendar callback check chevron chevron--large cross cross--large download filter kununu linkedin magnifier mail marker menu minus Flieger phone play plus quote share

Data Catalog

Das Fundament der Data Governance

In der heutigen Zeit können viele physische Objekte der realen Welt in digitaler Form mithilfe von Daten dargestellt werden. Die Datenmenge wächst exponentiell und immer mehr Unternehmen streben nach dem Zielbild der Data Driven Company. Doch was ist eine Data Driven Company? Ein datengetriebenes Unternehmen verwendet seine Datenbestände, um neue Chancen und Möglichkeiten für sein Geschäft, seine Kunden sowie seine Mitarbeiter zu erschließen. Einen tieferen Einblick findest du hier im Blog.

Foto von Przemyslaw Kasperski
Przemyslaw Kasperski

Data Engineer

Wenn ein Unternehmen Daten als Vermögenswert betrachtet, muss es sie entsprechend effektiv verwalten. Hierzu benötigt es eine koordinierte Datenlandschaft. Vor diesem Hintergrund erlangt Data Governance als Grundvoraussetzung für eine Data Driven Company zunehmend große Bedeutung. 

Data Driven Governance Catalog

Richtlinien, Rollen, Vorgehensweisen

Data Governance setzt Standards für den Umgang mit Daten für das Unternehmen und definiert die Verantwortlichkeiten für die Identifikation und Qualität der einzelnen Datenbestände. Zudem legt sie fest, wie datengetriebene Prozesse gesteuert, überwacht und ausgeführt werden. Das Data Governance Institute definiert den Begriff Data Governance wie folgt:

Data Governance is a system of decision rights and accountabilities for information-related processes, executed according to agreed-upon models which describe who can take what actions with what information, and when, under what circumstances, using what methods.

The Data Governance Institute, 2022

Data Governance beschreibt somit ein System aus Entscheidungsrechten und Verantwortlichkeiten für informationsbezogene Prozesse, die nach vereinbarten Modellen ausgeführt werden. Es steuert die Verwaltung und Nutzung der Daten im Unternehmen mit dem Ziel, Prozesse und Entscheidungen effektiver zu gestalten. Das zahlt auf die Erreichung der Unternehmensziele ein und erleichtert den Arbeitsalltag. 

Grundbestandteile eines Data-Governance-Systems sind Datentransparenz, Datenqualität, Datendemokratisierung, Datenschutz, Datensicherheit, Datenethik sowie Datenmonetarisierung. Diese Bereiche könnten mit der Zeit abweichen. Zu beachten ist, dass die Data-Governance-Bereiche nicht losgelöst sind von der Unternehmensstrategie. Das Erfüllen der Data-Governance-Ziele führt zur Maximierung des Datenwertes und trägt zur Wertschöpfung eines Unternehmens bei.

Ziele und Fundament Data Goveranance

Data Catalog – Funktionen und Möglichkeiten

Ein Fundament zur Umsetzung der Data Governance kann ein Data Catalog sein. Er erfasst die Datenbestände des Unternehmens und kann sowohl Abgänge als auch Zugänge von Datenquellen, integrierte Datenbestände und Kennzahlen registrieren. Als Inventar von Datenbeständen enthält er die Metadaten des Unternehmens, nicht jedoch den Dateninhalt. Außerdem ermöglicht er, die Metadaten zu katalogisieren und zu verknüpfen, um diese für die Anwender*innen auffindbar zu machen.

Der Data Catalog unterstütz mit seinen Funktionalitäten die Handlungsfelder der Data Governance. Die strukturierte Aufbereitung der werthaltigen Unternehmensdaten macht Wissen des Unternehmens transparent und verfügbar für die Mitarbeiter*innen. 

Aufbau eines Data Catalog

Die technischen Metadaten werden üblicherweise aus den Datenhaltungen der jeweiligen Systeme extrahiert, durch Transformationen aufbereitet und anschließend in den Data Catalog importiert. Der Data Catalog bietet Schnittstellen für den Import der Metadaten an. Dieser erfolgt dann automatisiert in einer angepassten Frequenz. Um zu verhindern, dass die automatisierte Anlieferung den Datenbestand beschädigt, können zusätzlich Datenqualitätsregeln auf den Importprozessen definiert werden.

Da ein Teil der fachlichen Metadaten in der Regel noch nicht in einer strukturierten Form verfügbar ist, müssen diese über eine Eingabemaske des Data Catalogs manuell erfassbar und editierbar sein. Diese Eingabemaske kann verwendet werden, um das fachliche Wissen der Anwender zu erfassen. Die manuelle Erfassung ist zusätzlich von Bedeutung, weil bestimmte Informationen, z. B. Datendomänen, sich im Laufe der Zeit ändern können oder erst im Rahmen der Durchführung erarbeitet werden. Idealerweise passen sich die manuellen Erfassungen dynamisch an das Metadatenmodell des Data Catalogs an, sodass das händisch Eingepflegte bei der nächsten automatischen Beladung des Data Catalogs nicht überschrieben oder gelöscht wird.

Kernkompetenz: die Suche

Das auffälligste Merkmal eines Data Catalogs ist die Suchfunktion, die einen schnelleren Zugriff auf die Informationen ermöglicht und das Verständnis für die Anwender*innen verbessert. Grundsätzlich verbringen Datenwissenschaftler*innen sowie Datenanalyst*innen die meiste Zeit mit der Suche sowie dem Versuch zu entschlüsseln, welche Daten für die weitere Bearbeitung geeignet sind. Die Suchfunktion gewährt dem User einen Einblick auf die Beschreibung der Datenobjekte und der Beziehungen untereinander, ohne dass die Daten physisch integriert werden müssen. Zudem sind keine vorverarbeitenden Schritte notwendig. Die Suchergebnisse können zusätzlich gefiltert werden, zum Beispiel nach Schemas, Datenplattformen, Benutzern usw. 

Eine weitere wesentliche Funktionalität ist die Abbildung der Data Lineage. Das Data Lineage unterstützt die Anwender bei den Fragestellungen bezüglich der Datenherkunft und Datenverarbeitung. Um sich in den verzweigten und unübersichtlichen Lineages zurechtzufinden, bieten viele Data Catalogs eine interaktive Visualisierung. So können die Nutzer*innen filtern und die Pfade nachverfolgen, die für die jeweilige Fragestellung relevant ist.   

Die letzte Funktionalität ist das Kuratieren. Der Data Catalog vereinfacht die Verwaltung von Datenbeständen und so den Zeitaufwand. Bei einigen Daten gelten Regeln für die gemeinsame Nutzung, die bei der Verwendung in einem Projekt beachtet werden müssen. Einige Daten können Vorschriften wie der allgemeinen Datenschutzverordnung unterliegen. Die Person, die für die Verwaltung von Datenbeständen verantwortlich ist, wird als Data Owner bezeichnet. Der Data Catalog enthält die Information über den Speicherort der Daten, welche sich im Informationstechnologieökosystem des Unternehmens befinden, sodass dieser sowohl von Datenanalyst*innen als auch vom Data Owner gefunden werden kann. Data Catalogs unterstützen Data Owner beim Auffinden, Verwalten und Verfolgen des Status von Datenbeständen. Tritt beispielsweise bei einem Ladevorgang oder einer Qualitätsprüfung ein Fehler auf, kann der Data Owner den Status des Assets ändern, um die Benutzer über ein potenzielles Problem zu informieren, was wiederum die Entscheidung der Analyst*innen beeinflussen kann, ob das Asset in eine weitere Bearbeitung aufgenommen werden soll. Mithilfe eines Data Catalogs lassen sich viele Aufgaben der Datenaufnahme und Verwaltung automatisieren, wodurch sich die Bearbeitungszeit verkürzt und das Vertrauen in die Daten gestärkt wird.
 

Tools

Wir haben uns im Rahmen verschiedener Projekte mit dem Tool DataHub zur Implementierung von Data Catalogs beschäftigt. Das Tool hat uns positiv überrascht und erfüllt alle oben beschriebenen Funktionalitäten. Die freie Demoversion lädt zum Experimentieren ein.

Bedeutung des Data Catalog für die Data Governance

Der Data Catalog speichert die Metadaten ab und unterstützt so Handlungsfelder der Data-Governance-Initiative. Er ist ein unverzichtbares Arbeitsmittel für eine Vielzahl von Aufgaben und Prozessen der Data Governance. Data Governance sorgt für Datentransparenz, fachliche Relevanz, Herkunft und Verarbeitung. Sie etabliert und steuert die fachliche und technische Datenverantwortung und verbindet Daten mit Rollen und Organisationen. Im Data Catalog werden die Arbeitsergebnisse der Initiative strukturiert und unternehmensweit nutzbar abgelegt. 

Die Dokumentation der Data Owner fördert Nutzbarkeit und der Schutz der Daten zusätzlich. Die Data Owner sind leicht auffindbar und können fachliche Hinweise zur Nutzung der Daten geben. Gleichzeitig können die Data Owner bei entsprechenden Regelungen die Freigabe der Daten für Benutzer*innen erteilen. Des Weiteren ermöglicht der Data Catalog den Benutzer*innen, alle verfügbaren Datenquellen zu entdecken und ihr Verständnis zu verbessern. Das zahlt auf die Datendemokratisierung sowie die Datentransparenz in der Data Governance ein. 

Ein weiteres wichtiges Handlungsfeld ist der Datenschutz. Bei der Entwicklung eines Data Catalogs sollten die Datenschutzbeauftragten herangezogen werden. Die Datenschutzbeauftragten sind für eine Vielzahl der Aufgaben auf Metadaten angewiesen, welche innerhalb eines Data Catalogs bereitgestellt werden. Die Datenschutzbeauftragten stellen die Einhaltung der DSGVO sicher. Das betrifft insbesondere die Verwaltung von personenbezogenen Daten. Die Beachtung der DSGVO betrifft jedes Unternehmen. Informationen über die Speicherorte personenbezogener Daten, den Zweck der Speicherung sowie die Nutzung können aus dem Data Catalog entnommen werden. Zudem kann der Data Catalog genutzt werden, um das Handlungsfeld Datensicherheit zu unterstützen. Zur Unterstützung der Datensicherheit werden im Data Catalog Fragen beantwortet, wie z. B.: Welche Daten sind zu schützen? Wer trägt die Verantwortung, um die Berechtigungen für den Zugriff auf Daten zu gewähren? Wer hat Zugriff auf die Daten? Zusätzlich können die Zugriffe gesteuert werden.

Ein weiteres Handlungsfeld der Data Governance, welches der Data Catalog unterstützt, ist die Datenqualität. Durch die Aufnahme von Qualitätsregeln in das Modell des Kataloges können der Wert sowie die Verwendungstauglichkeit der Daten besser eingeschätzt werden. Die Erfassung von Maßnahmen sowie der Verweis auf Prüfungen im Data Catalog können Lücken im Datenqualitätsmanagement aufdecken. Außerdem ermöglicht der Data Catalog die Zusammen­arbeit mit anderen Benutzer*innen, um die Qualität der Datenbestände zu verbessern und mehr Wert aus den Daten des Unternehmens zu ziehen.

Fazit

Abschließend ist zu erwähnen, dass ein Data Catalog ein Fundament sein kann, um die Data Governance Ziele und Themen zu unterstützen. Jedoch erfordert es viel manuelle Pflege und Fachwissen der Mitarbeiter*innen. Möglichst viele Mitarbeiter*innen aus einem Unternehmen müssen an einem Data Catalog gemeinsam arbeiten, damit dieser einen hohen Wert erreicht und die alltägliche Arbeit unterstützt.