Zum Hauptinhalt springen

Metadata Ingestion (Catalog)

Kurzzusammenfassung

  • Diese Seite beschreibt Metadata Ingestion für den Catalog (OpenMetadata), nicht die operative Primärausführung der ELT-Pipeline.
  • Kernziel ist die Registrierung von Datasets, Contracts, Ownern, Entitlements und Lineage.
  • BPMN-Leitpfad: Task Extract Metadata → Gateway Mandatory metadata complete? → Outcome Catalog entity published.
  • Die operative ELT-Ausführung ist auf Data Pipeline (ELT + Validierung) dokumentiert.

Ziel

Aus erfolgreichen Pipeline-Runs resultieren konsistente Catalog-Events, sodass Datenobjekte im OpenMetadata-Katalog mit Pflichtmetadaten, Ownership und Entitlements governance-fähig publiziert werden können.

Quelltypen und Katalogisierungsfrequenz

QuelltypTypische SystemeIngestion-FrequenzSLA für Katalogsichtbarkeit
OLTP/Relationale DBPostgreSQL, SQL Server, Oraclestündlich (Schema), täglich (Profiling)p95 ≤ 10 min nach erfolgreichem Run
Data Warehouse/LakehouseSnowflake, BigQuery, Databricks Unity Catalogalle 30 min (Schema + Lineage), täglich (Statistiken)p95 ≤ 15 min
Event/StreamingKafka Topics, CDC Streamsalle 15 min Snapshot + täglich Vollabgleichp95 ≤ 20 min
Files/ObjektspeicherS3/ADLS/Blob (Parquet, CSV)pro Landing-Run + täglicher Full Scanp95 ≤ 20 min
BI/ML-Artefaktedbt, MLflow, Feature Storepro Deployment/Promotion Eventp95 ≤ 10 min

Technische Metadaten pro Catalog-Run

Jeder Run erzeugt mindestens folgende technische Metadaten:

  • run_id, pipeline_id, source_system, connector_version
  • ingestion_started_at, ingestion_finished_at, status, error_class
  • schema_hash, record_count (falls verfügbar), last_successful_run
  • lineage_edges_detected, dq_checks_triggered, policy_tags_applied

Minimale Pflichtfelder pro OpenMetadata-Entity

OpenMetadata EntityPflichtfelder (Minimum)Gate-Relevanz
Tablename, service, databaseSchema, columns[], owner, tags.classification, description, retention_policy, allowed_use, dq_status_initialGate A (Data & Purpose), Gate B (Pilot Ready)
Topicname, service, schemaType, messageSchema, owner, retention, contains_pii, purpose, freshness_slaGate A, Gate B
Dashboardname, service, owner, linked_datasets[], criticality, access_policyGate A, Gate C
Pipelinename, service, tasks, upstream_entities[], downstream_entities[], owner, scheduleGate B, Gate C
ML Modelname, owner, training_dataset_ref, feature_set_ref, model_stage, lineage_status, risk_classGate C

Ablauf (Catalog Registration)

BPMN-SchrittMechanik (Task/Gateway/Outcome)Artefakte & Verantwortlich
Task: Extract MetadataScanner liest Schema, Partitionierung, Refresh-Zeit, Source-System aus Pipeline-Resultaten und QuelladapternArtefakt: metadata_raw.json; Responsible: Platform Team
Task: Enrich Business ContextDomain, Datenklasse, Owner, Steward, Purpose setzenArtefakt: dataset_profile; Responsible: Data Steward
Gateway: Mandatory metadata complete?Prüft entity-spezifische Pflichtfelder und technische Run-MetadatenNein: Status draft + Ticket; Accountable: Data Owner
Outcome: Catalog entity publishedVersionierter OpenMetadata-Eintrag mit Audit-Event und referenzierter Pipeline-Run-IDArtefakt: Entity + Change-Event

Catalog-spezifische Kontrollen

Governance- und Risiko-Aspekte

  • Pflicht-Policies: Access, Retention, Allowed Use, ggf. Restriktion für research-only.
  • Für marktkritische Daten (z. B. EOD-Preisfeed) ist Steward-Vertretung verpflichtend.
  • Jeder Ingestion-Lauf ist über run_id auf Quellsystem und Incident rückverfolgbar.

Messbare Akzeptanzkriterien

KriteriumGrenzwertVerantwortlichEskalation
Gate-A-Pflichtfelder vollständig100 % pro EntityData Stewardsofortiger Publish-Stop
Sichtbarkeit neuer Assets nach technischem Laufp95 ≤ 10 minPlatform Team> 30 min: P2 Incident
Fehlgeschlagene Ingestion-Runs< 2 % pro TagPlatform Ops≥ 5 %: P1 Incident

Entscheidung

  • Entity ist technisch + fachlich vollständig (Owner/Policy/Purpose/DQ-Status).
  • Gateway-Entscheidung ist im Audit-Log dokumentiert.
  • Bei Blockierung existiert Ticket mit Owner und ETA.

Operative ELT-Ausführung siehe /docs/orchestration-prefect/data-pipeline.

Glossar-Begriffe

Diese Seite nutzt die kanonischen Begriffe Data Pipeline, Data Product, DQ und OpenMetadata.

Primärseite für ELT-Ausführung

Die operative Ausführung von CallActivity_DataPipeline (Extract, Load Raw, Transform, Validate, Output Contract) ist auf Data Pipeline (ELT + Validierung) dokumentiert. Diese Seite fokussiert auf die Katalogregistrierung der resultierenden Metadaten und Catalog-Events.

BPMN-Kontext

  • IDs: CallActivity_DataPipeline
  • Input-Bezug: Pipeline-Run-Artefakte, Schema-/Lineage-Informationen und Governance-Metadaten.
  • Entscheidungsbezug: Prüfung von Pflichtmetadaten, Ownership, Entitlements und Publish-Freigabe im Catalog.
  • Output-Bezug: Publizierte OpenMetadata-Entities und Catalog-Events für nachgelagerte Governance- und Discovery-Prozesse.