arrow arrow--cut calendar callback check chevron chevron--large cross cross--large download filter kununu linkedin magnifier mail marker media-audio media-blog media-video menu minus Flieger phone play plus quote share youtube

Migration von Informatica Powercenter zu Databricks mit Lakebridge und KI

Ein strukturierter Ansatz zur Modernisierung von ETL-Prozessen

Die Migration von Legacy Systemen in moderne Umgebungen stellt für viele Unternehmen eine aktuelle und kostenintensive Herausforderung dar. Es genügt nicht, lediglich eine neue Infrastruktur zu entwerfen; vielmehr müssen bestehende Prozesse übertragen und je nach Zielsystem in die passende Syntax übersetzt werden. Unsere Erfahrung aus zahlreichen erfolgreichen Migrationsprojekten zeigt, wie komplex und detailreich diese Aufgaben sein können.

In unserer Projektreferenz zeigen wir, wie wir das Konten- und Berichtswesen einer Versicherung auf einen modernen Tech Stack migriert haben.

Foto von Benedikt Schröter
Benedikt Schröter

Lead Consultant - Data Engineering

Rolle von Sprachmodellen bei Cologne Intelligence (CI)

Wir haben bei CI früh erkannt, dass Sprachmodelle, unabhängig vom aktuellen Hype, eine zentrale Rolle in unserer Arbeit spielen. Dies gilt nicht nur für die Entwicklung von Software, Datenstrecken und Wissensmanagement, sondern auch für die Migration und das Refactoring von Bestandsystemen. Unser Anspruch ist ein innovativer, aber zugleich reflektierter Einsatz von KI in unserem Arbeitsalltag.

Bausteine für die Informatica-Migration

Bei der Migration von Informatica setzen wir auf reproduzierbare Bausteine, die durch KI unterstützt und mit einem eigenen Validierungsframework abgesichert werden.

Migration mit Databricks Lakebridge

Quelle: https://www.databricks.com/blog/introducing-lakebridge-free-open-data-migration-databricks-sql

Mit dem Erwerb des Migrationstools Bladebridge durch Databricks wurde das Produkt in das neue Lakebridge-Angebot integriert. Lakebridge strukturiert den Migrationsprozess in drei Phasen:

Assessment

In der Assessment-Phase analysieren wir die Altsysteme, Datenbanken und ETL-Tools, identifizieren Abhängigkeiten und führen eine Komplexitätsbewertung durch. So erhalten wir die notwendigen Informationen für eine realistische Aufwandsschätzung und die Planung der Migration.

Conversion

Während der Conversion werden die Komponenten aus den Altsystemen nach Databricks übersetzt. Über individuelle Einstellungen lassen sich Präferenzen definieren und die Übersetzung anpassen. Die Zielartefakte bestehen je nach Konfiguration aus Pyspark- oder SQL-Code sowie Lakeflow-Jobs.

Reconciliation

Nach der Migration erfolgen eine Auswertung und ein Vergleich der Ergebnisse. Lakebridge bietet hierfür grundlegende Validierungswerkzeuge, mit denen die migrierten Tabellen den ursprünglichen Versionen gegenübergestellt werden.

Herausforderungen bei der Umsetzung mit Lakebridge

Durch die Anwendung von Lakebridge auf Informatica-Workflows erzeugen wir Pyspark-Notebooks zur Abbildung der ETL-Strecken. Spezielle Informatica-Funktionen und Syntaxanpassungen werden über die Einstellungen kontrolliert übertragen. Beim Aufbau moderner Datenplattformen kommen jedoch neue Ansätze und Technologien zum Einsatz, die von klassischen Strukturen abweichen. In den Altsystemen finden sich zudem oft technische Schulden wie nicht mehr genutzte Spalten oder Parameter.

Dadurch entsteht eine Lücke zwischen den Möglichkeiten von Lakebridge und den Anforderungen an die Zielarchitektur.

Konkrete Herausforderungen

  • Neue Namenskonventionen und Strukturen
  • Technische Schulden, die nicht mehr notwendig sind
  • Neue Technologien, welche alte Workarounds ersetzen
  • Ganz neue Ansätze zur Umsetzung verschiedener Workloads

Genau hier kommt KI zum Einsatz: Anforderungen, die nicht durch klassische Transformationen abgedeckt werden können, lassen sich mithilfe von Sprachmodellen abstrakt lösen und anwenden.

Context Engineering als Game Changer

„Es ist nicht nur wichtig, was im Kontext steht, sondern auch das, was nicht drinsteht.“ Durch Context Engineering können wir die relevanten Informationen für die Migration gezielt bereitstellen und steuern, welche je nach Aufgabe von Bedeutung sind. So vermeiden wir Halluzinationen und erhalten hochwertige Ergebnisse mit minimalem Nachbesserungsbedarf.

Migration Framework

Wir gestalten den Kontext für die Migration durch eigens entwickelte Skripte, die den Informatica-Workflow auswerten. Dabei extrahieren wir das Lineage der Workflows, um genutzte Quellen, Ziele und Abhängigkeiten zu erfassen. Die Quell- und Zieltabellen werden aus dem Altsystem und, sofern bereits migriert, aus Databricks abgefragt. So erhalten wir einen umfassenden Überblick über die behandelten und verfügbaren Daten.

Technische Fakten lassen sich automatisiert abbilden. Ergänzend definieren wir unser Zielbild, etwa durch Vorgaben zur Zielarchitektur, Namenskonventionen, Regeln und Syntaxpräferenzen. Je präziser und kompakter die Formulierungen, desto besser kann der Kontext genutzt werden. Grobe Informationen werden bereitgestellt, präzise Details können dynamisch abgefragt werden.

Beispiele und Standards aus vorherigen Migrationen oder generelle Fallbeispiele sind besonders hilfreich, wenn das neue Zielbild stark abweicht. Sie ermöglichen die Skalierung ähnlicher Fälle.

Der Kontext kann von den Nutzenden selbst gesteuert werden: Expert*innen der Altsysteme wissen, worauf es ankommt und wo Abweichungen bestehen. Explizite Anweisungen und konkrete Verweise auf Beispiele helfen, die Qualität und Effizienz zu steigern.

Der Kontext ist ein „lebendes Konstrukt“ und kann laufend durch neue Beispiele und präzisierte Anweisungen ergänzt werden.

Durch die Kombination technischer Fakten und individueller Anweisungen können wir Namenskonventionen übertragen, technische Schulden ersetzen, neue Syntax anwenden und die Lücke zwischen ursprünglicher und neuer Architektur schließen.

Lakebridge bei der KI-gestützten Migration

Lakebridge bleibt auch bei der KI-gestützten Migration eine wichtige Komponente. Wir empfehlen Lakebridge für die initiale Migration, da es ein reproduzierbares Fundament bietet und erste Übersetzungshürden nimmt. Sprachmodelle können Spark- oder SQL-Code deutlich besser interpretieren als Workflow-XMLs, was die Einteilung und iterative Bearbeitung komplexerer Workflows erleichtert. Die Lakebridge-Konvertierung ist leicht automatisierbar und verursacht keinen Mehraufwand.

Validierungsframework als finaler Abgleich

Um Zielartefakte auch bei größeren Abweichungen effizient abzugleichen, haben wir ein Validierungsframework entwickelt. Es gleicht Quell- und Zieltabellen ab und identifiziert Abweichungen, auch bei sehr großen Datenmengen, ohne dass die vollständigen Daten selbst übertragen werden müssen. Das spart Zeit und liefert direktes Feedback für Anwendende und Sprachmodelle.

Validation Framework

Bestehende Herausforderungen und Ausblick

Auch ein optimierter Migrationsprozess kann nicht alle Herausforderungen vollständig lösen. Je stärker die Zielarchitektur von der Ursprungsstruktur abweicht, desto mehr müssen Anwender*innen nachsteuern und zusätzlichen Kontext liefern. Mit guten, reproduzierbaren Beispielen lassen sich diese Herausforderungen skalierbar bewältigen.

AI-Tools ersetzen nicht das Fachwissen zu Alt- und Neusystemen. LLMs machen Fehler und sollten möglichst automatisiert abgefangen werden. Dennoch ist eine finale Überprüfung durch Expert*innen unerlässlich. Ein cross-funktionales Team aus erfahrenen Fachleuten ist optimal für die Interpretation der Ergebnisse und die Optimierung des Migrationsprozesses.

Manuelle Aufwände oder Zweifel an KI-Ergebnissen können die Zeitersparnis gegenüber der manuellen Migration infrage stellen. Die bisherigen Ergebnisse sind jedoch vielversprechend und helfen, Bedenken abzubauen. Neue Sprachmodelle und technische Schnittstellen erhöhen kontinuierlich die Qualität und Automatisierungstiefe.

Fazit

Das Einsparungspotenzial bei großen technischen Migrationsprojekten ist enorm. Unsere kontinuierliche Arbeit mit Sprachmodellen ermöglicht es uns, die Chancen und Hebel bei Entwicklung und Migration optimal einzuschätzen. Diese Expertise hat sich in den aktuellen Projekten als klarer Mehrwert erwiesen. In einem dynamischen Umfeld mit immer neuen Technologien ist ein qualitativ hochwertiger und maßgeschneiderter Kontext der zentrale Mehrwert. Manuelle Aufwände und Bedenken werden durch immer bessere Modelle und Schnittstellen reduziert.

Unser Konzept ist flexibel und erweiterbar: Auch andere Technologien wie SSIS, Synapse, Talend oder SQL-basierte Prozesse lassen sich nach diesem Ansatz abdecken und migrieren.