Interview Synthetische Daten in der öffentlichen Verwaltung nutzen

Von Nicola Hauptmann 3 min Lesedauer

Anbieter zum Thema

Für fundierte Entscheidungen und Vorhersagen braucht es die entsprechende Datenbasis – die aber längst nicht immer verfügbar ist. Franz Böhmann erklärt, wie synthetische Daten genutzt werden können, um Szenarien zu simulieren und KI-Modelle schneller zu trainieren.

Die Qualität synthetischer Daten ist durch klare Standards und ein systematisches Qualitätsmanagement sicherzustellen.(© GreenOptix – stock.adobe.com/ KI-generiert)
Die Qualität synthetischer Daten ist durch klare Standards und ein systematisches Qualitätsmanagement sicherzustellen.
(© GreenOptix – stock.adobe.com/ KI-generiert)

Wo sehen Sie die größten Potenziale für den Einsatz synthetischer Daten in der öffentlichen Verwaltung ?

Böhmann: Die größten Potenziale für den Einsatz synthetischer Daten sehe ich in der Überwindung bestehender Hindernisse, die durch fragmentierte Dateninfrastrukturen, mangelnde Interoperabilität und strenge Datenschutzvorgaben entstehen. Diese Herausforderungen erschweren derzeit eine datengetriebene Politikgestaltung, effiziente Verwaltungsarbeit und den flächendeckenden Einsatz von KI in Digitalisierungsprojekten.

Ein zentraler Punkt ist die Stabilisierung der „Datenfundamente“, die für komplexe, querschnittsübergreifende Analysen notwendig sind. Synthetische Daten können hier eine Schlüsselrolle spielen, indem sie Lücken in der Datenverfügbarkeit schließen und eine verlässliche Grundlage für innovative Lösungen schaffen. Sie ermöglichen es, Szenarien zu simulieren und Modelle zu trainieren, ohne dabei auf sensible oder unvollständige Echtweltdaten angewiesen zu sein.

Ein Beispiel aus der Steuerpolitik verdeutlicht dies: Die Auswirkungen neuer Steuergesetze auf Gesellschaft, Markt und Individuen sind äußerst komplex. Um fundierte Prognosen zu erstellen, müssten Daten aus verschiedenen Domänen – etwa Wirtschaft, Sozialpolitik und Demografie – integriert und analysiert werden. Doch oft sind solche Daten nur lückenhaft oder aufgrund rechtlicher Einschränkungen nicht verfügbar. Synthetische Daten können in solchen Fällen nicht nur als Platzhalter dienen, sondern auch als Grundlage für belastbare Vorhersagen und Entscheidungen.

Welche Möglichkeiten gibt es, die Qualität synthetischer Daten sicherzustellen und zu überprüfen?

Böhmann: Die Qualität synthetischer Daten lässt sich durch klare Standards und ein systematisches Qualitätsmanagement sicherstellen. Ein zentraler Ansatzpunkt ist die Definition von Qualitätskriterien wie Genauigkeit, Konsistenz und Repräsentativität sowie deren Dokumentation in umfassenden Metadaten. Validierungsverfahren, beispielsweise der Abgleich mit realen Daten oder statistische Analysen, ermöglichen die Überprüfung, ob synthetische Daten die gewünschten Eigenschaften aufweisen.

Synthetische Daten sollten im Datenmanagement gesondert behandelt und durch eindeutige Kennzeichnungen sowie Hinweise auf ihre Limitierungen sichtbar gemacht werden. Ein kontinuierliches Monitoring innerhalb eines reaktiven Datenmanagementsystems ist essenziell, um die Qualität langfristig zu gewährleisten und auf Veränderungen flexibel reagieren zu können.

Darüber hinaus können Verlässlichkeitsbewertungen für synthetische Datenprodukte Transparenz schaffen und Vertrauen bei den Nutzern fördern. So werden synthetische Daten zu einem kontrollierbaren und nachhaltigen Element in der datengetriebenen Verwaltung.

Wie werden synthetische Daten zum Training von KI-Modellen erzeugt und eingesetzt?

Böhmann: Für das Training von KI-Modellen werden Datensets benötigt, die sowohl eine ausreichende Menge an Informationen als auch qualitativ hochwertige Inhalte enthalten, um die relevanten Lernattribute abzubilden. KI-Modelle stellen spezifische Anforderungen an ihre Trainings- und Testdaten, wodurch umfangreiche Prozesse zur Datenbereinigung und -aufbereitung erforderlich werden.

Bei der Erstellung synthetischer Datensets werden diese Anforderungen zunächst analysiert und in einen Datenerstellungsprozess übersetzt, um die benötigten Eigenschaften der Daten sicherzustellen. Dies kann von einfachen Datenmodellen bis hin zu komplexen Pipelines mit generativer KI und Machine Learning reichen. Ein einmal entwickelter Datenprozess bietet ausreichend Stellschrauben, um Qualität und Inhalt der synthetischen Datensätze präzise zu steuern und flexibel anzupassen.

In der öffentlichen Verwaltung ist es häufig sehr aufwendig, historische Daten aufzubereiten, um sie für das KI-Training nutzbar zu machen. In solchen Fällen kann der Aufbau einer schnellen Pipeline zur Erzeugung synthetischer Daten deutliche Vorteile bringen.

Beispielsweise wäre es effizienter, zukünftige Dokumente künstlich zu erstellen, statt Monate für die Aufbereitung von tausenden Alt-Dokumenten aufzuwenden, wenn das Ziel bereits klar definiert ist.

Franz Böhmann ist Senior Business Consultant bei msg und unterstützt den öffentlichen Sektor in der KI-Managementberatung. (© msg systems ag)
Franz Böhmann ist Senior Business Consultant bei msg und unterstützt den öffentlichen Sektor in der KI-Managementberatung.
(© msg systems ag)

Welche Entwicklungen erwarten Sie für die Zukunft?

Böhmann: Generative KI ist aktuell ein großes Thema in der öffentlichen Verwaltung, insbesondere im Kontext digitaler Assistenzsysteme mit Agentic AI. Technologisch basiert dies auf der Kombination von generalisierten und spezialisierten KI-Modellen, die in maßgeschneiderten Expertensystemen agieren, jedoch bleibt die Datenfrage zentral. Daten müssen nicht nur verfügbar sein, sondern auch kontextbezogen und logisch miteinander verknüpft werden können, weshalb die Diskussion zunehmend von Datenmodellen hin zu Informationsmodellen verschoben wird. Gleichzeitig erzeugt generative KI große Mengen an Daten, die häufig auf historischen Datengrundlagen basieren, wodurch ein Sättigungseffekt entsteht, da neue Realitätsabbildungen fehlen. Besonders auf Plattformen wie Social Media, in Film und Musik wird es immer schwieriger, zwischen realen und künstlich generierten Daten zu unterscheiden. Dies erhöht den Bedarf an individuell erstellten und nachvollziehbaren Daten, die eine höhere Trennschärfe gewährleisten. Ein qualitativ strukturierter Umgang mit synthetischen Daten kann dabei helfen, diese Herausforderungen zu bewältigen und gleichzeitig einen bedeutenden Mehrwert für „KI made in Germany“ schaffen.

Jetzt Newsletter abonnieren

Wöchentlich die wichtigsten Infos zur Digitalisierung in der Verwaltung

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

(ID:50305962)