gesponsertKI-generierte Daten Datenbereitstellung mit synthetischen Daten

2 min Lesedauer

Gesponsert von

Die Bundesregierung hat ambitionierte Ziele zur Datenbereitstellung, die Erfüllung macht jedoch noch Schwierigkeiten. Viele Verwaltungsdaten können aus datenschutzrechtlichen Gründen nicht frei genutzt werden. Teil einer Lösung können synthetische Daten sein.

(© Fraunhofer)
(© Fraunhofer)

Die Kritik vom „Sachverständigenrat zur Begutachtung der wirtschaftlichen Entwicklung“ an der Datenpolitik in Deutschland hat gezeigt, dass eine Lücke zwischen den ambitionierten Zielen der Regierung und einer Realität klafft, in der viele Daten der Zivilgesellschaft und Forschung gar nicht oder nur in eingeschränkter Form zugänglich sind. Viele Datensätze enthalten sensible Informationen und können deshalb nicht uneingeschränkt genutzt werden.

Anonymisierung bietet dafür nicht immer eine Lösung, weil durch das Entfernen von Informationen Qualität und Aussagekraft reduziert werden, ohne das Risiko der Re-Identifizierung ausschließen zu können. Einen neuen Weg bietet eine andere Methodik zur Sicherstellung von Privatheit: KI-generierte synthetische Daten.

Was sind synthetische Daten?

Synthetische Daten sind „künstliche“ Daten, das heißt, sie wurden weder erhoben noch gemessen, sondern durch eine Methode generiert. Im einfachsten Fall handelt es sich um eine Funktion, die Daten nach dem Zufallsprinzip generiert. Solche Daten haben jedoch wenig praktischen Nutzen. Für viele Anwendungsfälle bedarf es daher ausgereifterer Methoden generativer Künstlicher Intelligenz, wie sie etwa bei „ChatGPT“ zum Einsatz kommt.

Die Idee ist, angepasste Methoden generativer KI mit sensiblen (Verwaltungs-)Daten zu trainieren und so neue Daten zu erzeugen, welche zwar die statistischen Eigenschaften der Ursprungsdaten teilen, jedoch auf individueller Ebene nicht mehr Personen zugeordnet werden können und damit datenschutzunbedenklich sind. Die KI lernt hier also nicht Muster menschlicher Sprache wie das Sprachmodell, sondern die Verteilung der Daten in den Lerndaten.

Ein anschauliches Beispiel findet sich in Amerika. Dort hat das US-Census-Bureau eine Web-Anwendung entwickelt, die neben anderen Merkmalen zeigt, wo Arbeitende leben und wie ihre Arbeitswege sind. Mit diesen Daten lassen sich komplexe Analysen beispielsweise zu demographischen Strukturen durchführen, während die Vertraulichkeit der Personendaten sicherstellt bleibt.

Limitationen

Synthetische Daten könnten so als Alternative bereitgestellt werden. Die Potentiale nicht nur für Verwaltungsdaten, sondern auch für medizinische Daten, Finanzdaten oder in der Telekommunikation sind zweifelsohne hoch. Jedoch sollten dabei auch die Limitationen im Blick behalten werden: Synthetische Daten bilden die statistischen Eigenschaften der Echtdaten nie perfekt ab. Außerdem kann die Qualität stark variieren, basierend auf der genutzten KI-Methode in Kombination mit den Ursprungsdaten. Die Erzeugung synthetischer Daten erfordert noch weitere Forschung etwa in der Entwicklung von Metriken zur Bestimmung der Qualität.

Synthetische Daten erleben

Synthetische Daten sind für viele ein neues Terrain. Um eine Intuition für die Methodik zu gewinnen, hat das Kompetenzzentrum Öffentliche IT einen Demonstrator entwickelt, der Interessierten einen einfachen ersten Zugang zu synthetischen Daten ermöglicht. Anhand von frei zugänglichen Daten der öffentlichen Verwaltung, beispielhaft der Datenbank der Stadtbäume Berlins, werden ausgewählte Methoden zur Generierung von Daten miteinander verglichen. Die interaktive Anwendung macht die Eigenschaften der synthetischen Daten greifbar und erlaubt eine konkrete Anschauung zu ihren Möglichkeiten und Limitationen.

* Autor: Dorian Wachsmann

(ID:49795639)

Jetzt Newsletter abonnieren

Wöchentlich die wichtigsten Infos zur Digitalisierung in der Verwaltung

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung