Machine-Learning-Strategien für Behörden

OZG Machine-Learning-Strategien für Behörden

19.12.2019Autor / Redakteur: Sebastian Hahn*, Dr. Michael Scholz* / Julia Mutzbauer

Mit Erfolg löst maschinelles Lernen (ML) bereits komplexe Aufgaben – ML erkennt Gesichter, hilft pilotiert zu fahren und befähigt vielfältigste Softwaremodelle zu gültigen Prognosen. Da maschinell angelernte (parametrisierte) Modelle zudem – anhand gezielter Feedbackdaten – neue Kontexte erlernen, werden sie zunehmend besser und erobern öffentliche Verwaltungen.

Anbieter zum Thema

Ceyoniq Technology GmbH

cit GmbH

Omnidocs GmbH

msg systems ag

Die msg teilt die Lernmethoden in ihrer Maschine-Learning-Strategie für Behörden in die zwei Bereiche Überwachtes Lernen und Unüberwachtes Lernen ein
(© fotogestoeber - stock.adobe.com)

Da amtliche Vorgänge (Anträge genehmigen, Bescheide erstellen etc.) oft strikten Vorschriften unterliegen, brauchen Behörden vor allem Lernmethoden, die nachvollziehbare Ergebnisse liefern. Diese werden in zwei unterschiedliche Bereiche eingeteilt : Überwachtes Lernen (supervised learning) analysiert Eingangs- und Ausgangsdaten (Variablen), Unüberwachtes Lernen (unsupervised learning) nutzt nur Eingangsdaten (Variablen).

Überwachte Lernmethoden: Regression und Klassifikation

Überwachtes Lernen eignet sich, um Ausgangsdaten (Ausgangsvariablen) per vorgegebener Struktur zu erklären oder vorherzusagen. Um diese Struktur zu modellieren, braucht eine Ausgangsvariable schon in den Trainingsdaten zwingend den Bezug zu mindestens einer Eingangsvariable.

Überwacht erlernt das System nun die Parameter eines Modells, bis dieses zur Vorhersage auf neue Eingangsdaten anwendbar ist. Regression und Klassifikation kommen beim überwachten Lernen am häufigsten zum Einsatz – speziell auch in Behörden.

Unüberwachte Lernmethoden: Clustering und Topic-Modeling

Existieren weder Struktur noch Ausgangsvariable, greift unüberwachtes Lernen. Das System lernt hier komplett per Eingangsvariablen. Unüberwachte Methoden explorieren vor allem Daten oder bereiten weitere Datenanalysen vor.

Sehr verbreitet ist unüberwachtes Clustering, um eine Menge von Daten in Segmente (Cluster) aufzuteilen. Zum Explorieren textueller Daten ermitteln Behörden diese Cluster jedoch zunehmend thematisch: per Topic-Modeling.

Zahlenprognosen: Regression

Regressionen ermitteln und beschreiben mathematische Zusammenhänge zwischen diversen Eingangs- und einer Ausgangsvariable. Die Parameter hierfür erlernt das Modell im Training.

Für Behörden sind Regressionen vielseitig nutzbar, etwa um vorherzusagen, wie viele Anträge ein Amt in einer bestimmten Zeit erhält, oder um zu ermitteln, wie sich Bearbeitungsdauern und andere Maßnahmen optimieren lassen.

Da zu schnell bearbeitete Anträge oft Fehler enthalten und eine komplett fehlerfreie Bearbeitung oft zu lange dauert, muss eine Balance gefunden werden, um die Anzahl der Beschwerden so gering wie möglich zu halten. Hier helfen Regressionen (Abb. 1) – für historische Beobachtungsdaten (Punkte) schätzt Regression ein Modell, das als mathematische Funktion eine Kurve ergibt und schnell die optimale Bearbeitungsdauer aufzeigt.

Betrugserkennung: Klassifikation

Klassifikationen erklären und sagen voraus, welcher Klasse ein Datenobjekt zustrebt. Analog zur Regression erfolgt dies per Zusammenhang zwischen diversen Eingangs- und der Ausgangsvariable (Klasse).

Oft aber beschreibt das Modell, wo sich die einzelnen Klassen bei Eingangsvariablen abgrenzen oder wie wahrscheinlich die Ausprägung einer Eingangsvariable in eine bestimmte Klasse mündet. Der gewählte Ansatz bestimmt, wie genau eine Zuordnung vorhergesagt und wie gut sie – etwa per Baumstruktur – erklärbar wird.

Behörden brauchen sehr vielfältige Klassifikationsmethoden – sie müssen Betrug bei Anträgen oder Steuererklärungen erkennen, müssen Dokumente und E-Mails nach Stimmung, Dringlichkeit oder Thema ordnen und vieles mehr.

Denn Falsch- oder Fehlangaben verschaffen Antragstellern Vorteile, etwa bei Genehmigung und Zahlung von BAFöG aufgrund falsch erklärter Einkommen. Die Vorhersagen einer guten Klassifikation hilft Anträge herauszufiltern, die genauer zu prüfen sind.

Zum Klassifizieren ist eine Methode zu wählen, mit der sich herleiten lässt, warum ein Antrag als prüfrelevant gilt. Sinnvoll sind hier Baumstrukturen wie jene für das BAföG-Beispiel, die sich per Trainingsdaten errechnen (Abb. 2).

Zur Schaffung fehlender Kategorien: Clustering

Da feststehende Klassen anfangs meist fehlen und Klassifikation nicht möglich ist, sind ähnliche Datenobjekte oft zu einer Gruppe (Cluster) zu bündeln. Das Besondere: Jede Clustermethode stellt auf andere Art fest, ob sich zwei Datenobjekte derart ähneln, dass sie zum selben Cluster gehören.

Ein möglicher Ansatz erstellt zunächst so viele Cluster, wie Datenobjekte existieren, und bündelt die jeweils ähnlichsten Cluster. Objekte lassen sich aber auch anhand ihrer Distanz zu anderen Cluster-Einträgen zuordnen. Andere Ansätze kombinieren zum Teil weitere Methoden.

Für Eingangsvariablen ermittelte Cluster lassen sich – ansatzunabhängig – stets auch grafisch darstellen. Hiermit können Machine-Learning-Architekten die Cluster beschreiben. Zudem erkundet Clustering – als explorative Methode – nicht nur Daten, sondern senkt auch deren Menge und beschreibt Datenobjekte durch nur eine Variable (statt mehrere).

Clustering kann in Behörden etwa Empfehlungssysteme für Dokumente oder Personen aufbauen, Anomalien in Datensätzen entdecken oder Regionen für spezielle Förder- und Schutzmaßnahmen festlegen.

Dokumente und Bilder: Topic-Modeling

Topic-Modeling findet Gemeinsamkeiten in Texten und ordnet sie unerkannten Themen (Topics) zu. Das Besondere: Erst das Modell erkennt, erstellt und benennt Topics als solche.

Zwar erkennt Topic-Modeling keine Topics direkt (wie die Worte eines Textes), begreift sie jedoch als versteckte Struktur innerhalb der Datensammlung. Jedes Topic ergibt sich aus einer Ansammlung von Worten, die wahrscheinlich zum selben Thema zählen.

Innerhalb einer Textsammlung weist Topic-Modeling vorerst jedes Wort aller Dokumente – oft per Latent-Dirichlet-Allocation (LDA) – einem zufälligen Topic zu. Ist deren vorgegebene Anzahl erreicht, verbessern zwei gezielte Fragen die zunächst zufällige Aufteilung:

1. Wie oft erscheint ein Wort in jedem Topic?

2. Wie viele andere Worte desselben Dokuments erscheinen in jedem Topic?

Frage 1 unterstellt, dass ein Wort eher nur einem bestimmten Topic (statt vielen) zugewiesen ist; Punkt 2 nimmt an, dass ein Dokument eher ein oder wenige Themen enthält. Aus beiden Ergebnissen errechnet Topic-Modeling für jedes Topic, wie wahrscheinlich ihm ein Wort zuzuweisen ist – und zwar so lange, bis sich kaum noch etwas ändert oder eine bestimmte Anzahl Iterationen erreicht ist.

Am Ende entsteht – per Zuordnung (1) von Worten zu Topics und (2) zwischen Worten und Dokumenten – auch eine Beziehung (3) zwischen Dokumenten und Topics, um etwa Dokumente zu lenken.

Topic-Modeling hilft Behörden vor allem, große Mengen an Dokumenten zu kategorisieren und sie per einfacher Variablen für weitere Analysen (etwa Klassifikation) zu beschreiben. Ebenfalls anhand der Topics lassen sich Texte verschlagworten, segmentieren und nach Ähnlichkeit gruppieren. Ferner erkennt Topic-Modeling Anomalien in Videoaufnahmen, etwa um eine laufende Person zu erkennen.

Teils besser als Blackbox

Maschinelle Lernmethoden eignen sich für vielfältige Zwecke in Behörden. Machine-Learning-Architekten können zwar gelernte Modellparameter nicht vorhersagen, meist aber die gelernten Modelle gut interpretieren, um etwa Erklärungen oder Prognosen abzuleiten. Deren Qualität hängt von der gewählten Methode ab.

Verfahren, die Modelle interpretierbar machen, sind teils sogar höherwertiger als so genannte Blackbox-Methoden, wie etwa neuronale Netze. Mehrfach auf dieselben Daten (oder Teilmengen derselben Daten) angewandt, lässt sich die Genauigkeit der Vorhersagen oft noch erhöhen.

Neuronale Netze sind dennoch sehr flexibel. Auch bei Millionen Eingangsvariablen schätzen sie Modelle in vertretbarer Zeit. Dies stärkt etwa die Bilderkennung, wo jeder Bildpunkt meist drei Eingangsvariablen (rot, grün, blau) erzeugt und eine Bildgröße von 1.024 x 768 Pixeln bereits 786.432 Bildpunkte enthält.

Erst erklären, dann kombinieren

Je nach Zweck (Klassifizierung von Dokumenten, Aufdeckung von Betrug, Vorhersagen etc.) eignen sich in Behörden auch solche Methoden, die Ergebnisse erklären – mit ihnen sollte meist begonnen werden. Stetes Anpassen der Modellparameter oder deren mehrfache Anwendung auf dieselben Daten (oder Teilmengen derselben Daten) sichert eine sehr hohe Güte.

Nun erst empfiehlt es sich, Blackbox-Verfahren wie neuronale Netze anzuwenden oder diverse Verfahren zu meist einer Blackbox-Methode zu kombinieren.

*Über die Autoren:

Sebastian Hahn hat einen Master in Informatik und sich sowohl in seiner Bachelor- als auch Masterarbeit mit dem Thema Machine Learning befasst. Bei der msg systems ag ist er als IT-Consultant und -Entwickler im Public Sector tätig.

Dr. Michael Scholz ist promovierter Wirtschaftsinformatiker und bei der msg systems ag als Senior IT Consultant für die Branche Public Sector tätig. Seine Expertise liegt in den Bereichen Data Science und Softwareentwicklung. Neben der Mitarbeit in IT-Projekten in der öffentlichen Verwaltung hält er Vorträge zu den Themen künstliche Intelligenz, Machine Learning und Data Science.

(ID:46288206)