Wenn die Öffentliche Hand immer wüsste, was sie schon alles weiß, könnte sie ihre Prozesseffizienz nachhaltig steigern. Die Realität in vielen Organisationen ist aber, dass sie sehr große Speicher aus strukturierten und unstrukturierten Daten in unterschiedlichen Systemen unterhalten. Vor allem Verwaltungen, die ihre Prozesse agiler gestalten sowie End-to-End digitalisieren wollen, müssen alle ihre Informationen verfügbar machen. Dabei helfen „Enterprise Search & Analytics“-Lösungen (ESAL).
ESAL können helfen, die Prozesse der Datenhaltung zu optimieren
Die Crux bei ESAL liegt weniger in der Auswahl eines Tools. Wer verstehen möchte, welche Fähigkeiten und Vorzüge ESAL in einer Organisaiton entfalten, muss sich zunächst mit den Grundfunktionen beschäftigen. ESAL sind in der Lage, Suchprozesse zu beschleunigen, sicherer zu gestalten und damit einen nachhaltigen Wertbeitrag zu leisten. Effiziente Lösungen sind darüber hinaus in der Lage, Informationen in den Kontext der Prozesse zu bringen und somit sehr genau auf Suchanfragen mit relevanten Ergebnissen zu reagieren. Zudem helfen ESAL durch Authentifizierung der Nutzer sowie eine Rechte- und Zugriffsverwaltung dabei, dass Mitarbeiter nur Suchergebnisse von Inhalten erhalten, für die sie auch entsprechende Befugnisse im Quellsystem erteilt bekommen haben.
Wie funktioniert das?
Über integrierte Konnektoren greifen ESAL auf relevante Informationen und Daten innerhalb und außerhalb der Organisation zu, um diese für eine Aufbereitung eines Such-Indexes abzugreifen und zu klassifizieren. Doch um aus einer Vielzahl von Datenquellen relevante Suchergebnisse zu finden, kommen bei einer ESAL für den Such- und Identifikationsprozess komplexe Algorithmen für semantische, linguistische und phonetische Analysen zum Einsatz. Diese erfassen, klassifizieren und indexieren zunächst Inhalte.
Das Problem dabei ist, dass die Daten aus den verschiedenen Quellen nur teilweise verwertbare Inhalte wie Fließtexte, Titel oder Metadaten enthalten. Video-, Bild- oder Audiodateien sowie verpackte oder geschützte Dateien wie ZIP lassen sich nicht ohne Aufbereitung und automatische Auswertung mit sinnvollem Inhalt indexieren. Häufig müssen Texterkennungsprogramme Dokumente auslesen sowie Audioaufzeichnungen in Text (Speech to Text) umgewandelt werden, bevor sie überhaupt für eine Auswertung beziehungsweise Indexierung bereitstehen.
Bei der Auswertung mittels OCR (Optical Character Recognition) oder Speech-to-Text-Umwandlung passieren Fehler. Zudem existieren unterschiedliche Schreibkonventionen, wenn Namen und Begriffe in unterschiedlichen Varianten geschrieben werden. Hinzu kommen Zahlendreher, in vielen Sprachen unbekannte Umlaute oder Zeichensätze. Erst durch Volltexterkennung und Korrektur sowie Integration aller Quellen in einen Such-Index sowie notwendigerweise mit einer Automatisierung von Schlagwörtern werden Suchprozesse über die komplette Datenbasis effizient.
Konzept und Modellierung von ESAL entscheiden über Erfolg
Allerdings reicht es nicht, einfach ein ESAL-Produkt zu installieren, die Datenspeicher anzuschließen und dann zu schauen, wie es funktioniert. Wichtiger und lange vor der Kaufentscheidung für ein Tool ist es, ein ESAL-Konzept zu erstellen und eine Modellierung vorzunehmen. Dabei ist entscheidend, welche Datenquellen wie eingebunden werden, welche Relevanz bestimmte Datenarten und Dateiformate haben und welche Dateien überhaupt für welche Entscheidungsebenen zugänglich sein sollen. In der Praxis zeigt sich auch häufig, dass die Organisation zwar eine bestimmte Herausforderung wie ein DSGVO-konformes Datenhandling lösen will, aber die gesamte Dimension eines ESAL für ihre Compliance erst im Projektverlauf erkennt. Es gibt auf dem Markt einige Produkte, auf denen eine ESAL aufgebaut werden kann – die aber unterschiedliche Stärken und Schwächen haben. So zeigt sich typischerweise erst bei der Modellierung und der Konzeption eines ESAL-Projektes, welche Plattform die am besten geeigneten Funktionalitäten und Stärken bietet, die zu lösende Anforderungen umzusetzen. Zudem sind auch bestehende Tools oder Quellen der Fachabteilungen zu integrieren, für die bestimmte Konnektoren oder Schnittstellen erst noch programmiert werden müssen.
Ein weiterer aktueller Aspekt ist, dass oftmals Bestandssysteme bereits in die Cloud verlagert wurden, einige Dateien wie personenbezogene Daten oder Verträge aber aus Sicherheitsgründen nur On-Premise gespeichert und verarbeitet werden dürfen. Hier muss die Modellierung auf jeder Ebene der Datennutzung eine Lösung finden, die unterschiedlichen Anforderungen gerecht wird. Damit Verwaltungen ihre eigenen sensiblen Daten nicht in einer Cloud-Lösung für die Suche aufbereiten lassen müssen, sind in bestimmten Fällen ESAL On-Premise einer Cloud-Lösung vorzuziehen, die also stationär auf eigenen Servern läuft.
Die zu indexierenden Datenquellen werden typischerweise in einem initialen Schritt aufbereitet und indexiert und im Folgenden nur noch Aktualisierungen verarbeitet. Je nach Bedarf erfolgt dies einmal täglich oder auch häufiger – abhängig von der benötigten Aktualität oder auch der Datenmenge. Diese Aufgabe übernehmen Konnektoren, die unterschiedlichste Drittsysteme, Datenbanken, Filesystemquellen aber auch Webinhalte erschliessen. Für solche Datenquellen beherrschen Konnektoren auch die inkrementelle Indexierung, also die automatische Indexierung von Datenänderungen. Für externe Quellen ist es außerdem ein entscheidender Vorteil, dass diese über eine offene Architektur und Schnittstellen wie ReST (Representational State Transfer) verfügen.
Die über die Konnektoren gesammelten Daten bereitet die ESAL vor der Indexierung, also bei der Überführung in den Suchindex, auf. Über Filter (Conversion) werden die unterschiedlichen Dateiformate (Word, Excel, PowerPoint, PDF, HTML, RTF, TEXT, ZIP) in ein einheitliches, lesbares Format für den Indexer überführt. Zudem wird über Entity Extraktionen, Regeln oder Integration von externen Systemen versucht, die Daten automatisch um zusätzliche Metadaten anzureichern oder zu klassifizieren.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Bei einigen ESAL werden für die Klassifizierung von Inhalten Künstliche Intelligenz (KI) und Machine Learning (ML) eingesetzt. So kann eine KI dafür trainiert werden, spezifische Inhaltstypen zu identifizieren, typischerweise für Binärdaten wie beispielsweise Bilder und Videos, die keine „lesbaren“ Informationen enthalten. Für die Nutzer ist es häufig hilfreich, wenn ein ESAL bei der Aufbereitung auch Thumbnail-Previews für Dokumente erstellen kann. Bei der Spracherkennung und sprachlichen Aufbereitung der zu indexierenden Inhalte kommen Funktionen wie Tokenisierung, Synonyme, Spell Checking, Lemmatisierung, Phonetic, Natural Language Processing (NLP) für die jeweilige Sprache zum Einsatz.
Und ist ein Text formal korrekt aufbereitet, muss er natürlich auch klassifiziert werden. Hierfür kommen Technologien wie Entity Extraction, KI oder ML zum Zuge. So werden Inhalte „verstanden“ und mittels der obigen Technologien klassifiziert und mit zusätzlichen Informationen angereichert. Diese Klassifizierung und Anreicherung kann dann sowohl bei der Relevanz für bestimmte Prozesse als auch beim Ranking der Suchergebnisse genutzt werden.
Automatische proaktive Information des Nutzers über neue Inhalte
Die Modellierung einer ESAL und ihrer Funktionen im Suchindex bilden damit also das Kernstück der Suchfunktionen und letztlich den Erfolg des Systems. Und weil es eine Schlüsselfunktion in einer ESAL bildet, sollte bei der Modellierung bereits analysiert werden, mit welchem Tool eine spezifische Aufgabe am besten gelöst werden kann. Denn die Suchplattform hat die Aufgabe, die Daten intern so zu strukturieren und aufzubereiten, dass selbst in extrem grossen Datenmengen und bei komplexen sowie sehr spezifischen Suchen die relevanten Resultate innerhalb kürzester Zeit bereitstehen.
Basierend auf diesem erstellten Suchindex ist es auch möglich, den Nutzer aktiv über neue Inhalte, die die vordefinierten Kriterien erfüllen, automatisch zu informieren. Auch das Ranking der Ergebnisausgabe ist ein Qualitätsfaktor von ESAL. Je nach Nutzergruppe in der Organisation können die Anforderungen an das Ranking der Resultate unterschiedlich ausfallen. Deshalb muss eine ESAL auch die Möglichkeit bieten, das Ranking und die Security-Richtlinien basierend auf den Quellsystemen an die verschiedenen internen Prozesse der Nutzer anzupassen.
Dies sollte idealerweise schon bei der Modellierung berücksichtigt und bestimmte Nutzergruppen identifizieren werden. Für sie sind Rollen zu definieren und die Relevanz von Suchergebnissen an den Anforderungen ihrer Prozesse auszurichten. Zudem ist auch entscheidend, welche Suchergebnisse Nutzern überhaupt eingeblendet werden. Ein Benutzer darf nur diejenigen Inhalte angezeigt bekommen, für die er in den Quellsystemen eine Berechtigung hat. Dokumente, die bestimmten Hierarchiestufen vorbehalten sind, werden unbefugten Mitarbeitern in einer professionell aufgestellten ESAL erst gar nicht angezeigt.
Dies wird durch eine korrekte Berechtigungsvergabe im Quellsystem erreicht, welche durch die ESAL berücksichtigt wird. Da jedes Quellsystem und jeder Kunde eigene Security-Umsetzungen hat, ist es zwingend, diese bereits bei der Konzeption zu berücksichtigen. So wird deutlich: Das Gesamtkonzept einer ESAL ist entscheidend für deren Fähigkeit, die wirklich relevanten Suchergebnisse zu identifizieren und von den jeweils nutzerabhängig weniger relevanten Ergebnissen zu unterscheiden und das Potenzial einer ESAL voll auszuschöpfen.
*Der Autor: Marc Hoffmann, Senior Consultant Search & Analytics, DTI Schweiz AG