Neo4j in der Forschung Graphdatenbanken helfen bei der biomedizinischen Forschung
Relationale Datenbanken stoßen in vielen Anwendungsbereichen an ihre Leistungsgrenzen. Einer davon ist die biomedizinische Forschung. Neuere Ansätze wie Graphdatenbanken können helfen, neue Zusammenhänge in höchst heterogenen Datenbeständen zu entdecken.
Anbieter zum Thema

„In der Biologie hängt alles mit allem zusammen“, sagt Dr. Martin Preusse. Der Wissenschaftler, der bei der Helmholtz-Gesellschaft im Bereich Computational Biology promoviert hat, ist derzeit dabei das Start-up Knowing Health aus der Taufe zu heben. Das Ziel: Eine Software, die der biomedizinischen Forschung hilft, mit neuartigen Software-Hilfsmitteln – wie dem Graphmodell einer Zelle – effektiver zu forschen und so neue, bisher unerreichbare Erkenntnisse zu erarbeiten. Knowing Health bedient sich dabei seinerseits einer Lösung, die sich grundlegend von relationalen Datenbanken unterscheidet: der Graph-Datenbank von Neo4j.
Neo4j heißt wie die gleichnamige Open-Source-Datenbank und ist etwa zehn Jahre alt. Die Firma wurde in Schweden gegründet und beschäftigt heute 2.500 Mitarbeiter. Die Entwicklung befindet sich noch immer im schwedischen Malmö, die Zentrale ist inzwischen nach San Francisco umgesiedelt. Der Fokus des Unternehmens liegt darin, die mathematische Graphtheorie in ein marktfähiges Non-SQL-Datenbankprodukt mit Open-Source-Kern sowie Erweiterungslösungen und entsprechendes Consulting für die Entwicklung von Anwendungen umzusetzen.
Hintergrund dieser Idee ist die Erkenntnis, dass sich große und sehr unterschiedliche Datenbestände mit dem bisher dominierenden, relationalen Datenbankmodell nur mit unverhältnismäßig hohem Aufwand verknüpfen lassen und dass deshalb wohl viele interessante Zusammenhänge unentdeckt bleiben.
Zusammenhänge erkennen
Auch auf den ersten Blick unauffällige Verkettungen über mehrere Knoten hinweg lassen sich erkennen, wenn sie sich häufen. So etwas tritt etwa auf, wenn jemand versucht, Geld zu waschen, indem es über mehrere Zwischenakteure geleitet wird, um seine wahre Herkunft zu verschleiern. Deshalb verwenden inzwischen viele Firmen aus der Finanzindustrie die Graphdatenbank von Neo4j für die Betrugsdetektion. Auch bei der Analyse der Panama und Paradise Papers und der darin offengelegten großen Transaktionen und Konstruktionen außerhalb oder am Rand der Legalität war Neo4j mit von der Partie: Das Internationale Zentrum für Investigativen Journalismus (ICIJ) setzte die Software ein, um die Materialkonvolute zu durchleuchten.
„Relationale Datenbanken sind für die heutigen Datenmassen bei manchen Anwendungen einfach nicht optimal geeignet, das gilt auch für viele Bereiche der Medizin“, sagt Bruno Ungermann, bei Neo4j für den Vertrieb im deutschsprachigen Raum zuständig. Bei Graphdatenbanken werden Prozesse und Zusammenhänge in Form von Knoten, Kanten und Attributen dargestellt. Oft ist es zudem weit anschaulicher als übliche Prozessdiagramme, solche Darstellungen in Form farbfreudiger Grafiken zu visualisieren, bei denen jeder Knoten ein bunter Punkt und jede Kante anklickbar ist und dann weitere Tiefendimensionen oder zusätzliche Attribute enthüllt. „Das entspricht der Art, wie die meisten Menschen komplexe Vorgänge zu erklären und zu verstehen versuchen: Wir fangen an, Bilder zu zeichnen, bei denen Punkte, die etwas repräsentieren, durch Pfeile oder Striche miteinander verbunden werden, um Zusammenhänge darzustellen“, sagt Ungermann.
Gesucht: neue Therapien und Präventionsmaßnahmen gegen Diabetes
In der medizinischen Forschung fallen besonders viele und besonders heterogene Daten an. Bei der Suche nach neuen Therapien oder Vorbeugungsmaßnahmen für Krankheiten und bei der Ursachenforschung verwendet man heute, neben der schon immer üblichen Beobachtung der Patienten, etwa Laboruntersuchungen, bildgebende Verfahren, Befragungen, Stoffwechselanalysen, Tiermodelle und genetische Analysen. Gerade der Bereich der genetischen Analysen wächst exponentiell: Neben der Genanalyse ist die Analyse der Gentranskription (also der Umsetzung genetischer Informationen in entsprechende Enzyme etc.) in den Fokus getreten. Seit Neuestem gewinnt die Erforschung des Einflusses der Umwelt oder des Verhaltens des jeweiligen Genträgers auf die Transkription des Genbestands sowie gegebenenfalls dadurch verursachte Veränderungen bei seinen Nachfahren, die sogenannte Epigenetik, an Bedeutung. Dazu muss die explosiv wachsende Fachliteratur durchforstet werden.
Das 2009 gegründete Deutsche Zentrum für Diabetesforschung (DZD) setzt dafür nun auf Neo4j. Das hauptsächlich vom Bundesministerium für Bildung und Forschung finanzierte Zentrum, das mit diversen Universitäten und anderen auf wichtige Volkskrankheiten wie Alzheimer spezialisierten Forschungseinrichtungen vernetzt ist, baut damit ein standortübergreifendes Daten- und Wissensmanagement auf.
Ziel: optimierte Behandlungsmethoden und weniger Spätfolgen
Weltweit erkranken immer mehr Menschen an Diabetes – in Deutschland sind es derzeit sieben Millionen Menschen und noch einmal dieselbe Menge, die erkrankt sind, es aber nicht wissen. Die Erkrankungsrate droht wegen des demografischen Wandels in der der Bevölkerung anzusteigen. Die Diabeteskosten in Deutschland liegen schon heute bei 16 Milliarden Euro jährlich. Daher sucht man dringend bessere Präventionsmaßnahmen und auf spezifische Patientengruppen optimierte Behandlungsmethoden, um die Erkrankung und ihre unangenehmen Spätfolgen einzudämmen. So gehen rund ein Drittel der Erblindungen und Herzinfarkte auf Diabetes zurück.
„Wir haben am Helmholtz-Zentrum in München gesehen, wie dort mithilfe von Neo4j DNA-Sequenzdaten mit Daten aus der systematischen Erfassung von Stoffwechselprodukten (Metabolomics-Daten) zusammengeführt werden, um Abfragen auf diesen Datenbestand durchzuführen“, erklärt Dr. Alexander Jarasch, Leiter Bioinformatik und Datenmanagement beim DZD. Das wirkte so vielversprechend, dass auch Jarasch begann, mit Neo4j zu experimentieren und sich überzeugen ließ. Entstanden ist inzwischen die Graphdatenbank DZDconnect. In sie fließen standardisierte, normalisierte Metadaten aus unterschiedlichen Datenquellen ein, die dann in das Graphmodell eingebracht werden. Die Graphdatenbank liegt als zusätzliche Schicht über den relationalen Datenbanken und verbindet sie.
Diese Vorgehensweise hilft beispielsweise, um an Tiermodellen gewonnene Daten zu mit Diabetes verknüpften Genen und Stoffwechselprodukten mit den entsprechenden Daten aus der humanen Forschung zu verbinden. In diese Forschung sind beispielsweise allein Stoffwechseldaten aus 15 bis 20 Quellen eingeflossen, dazu weitere Daten aus der Genomforschung und anderen Bereichen. Das entstandene Modell umfasst mittlerweile Hunderttausende grafischer Relationen. Die Attribute aller Knoten und Relationen lassen sich anklicken, wodurch man auf tiefere Ebenen des Modells gerät. Und das ist nur einer von vielen Anwendungsfällen, an denen das DZD tüftelt.
Know-how ist unabdingbar
Allerdings erfordern Aufbau und Nutzung eines solchen Modells ausgefeilten Fachverstand und informationstechnisches Wissen, auch wenn man nicht SQL beherrschen muss. Nur so lässt sich einschätzen, welche Daten, miteinander in Verbindung gebracht werden sollten, welche Datensammlungen dafür sinnvolle Quellen wären oder welche Fragestellungen neue Erkenntnisse bringen könnten. Die Anfragen erfordern heute noch eine gewisse Formalisierung, doch perspektivisch soll es möglich sein, sie in natürlicher Sprache zu stellen, zum Beispiel: „Welche bei Versuchen mit dem Tiermodell Maus gefundenen Stoffwechselprodukte lassen sich für die Erforschung des Diabetes beim Menschen verwenden?“
Die Erkenntnismöglichkeit steigt auch bei Neo4j-Graphdatenbanken mit der Menge der verfügbaren Daten. Oft setzen Ethikkommission und Datenschutz der wissenschaftlichen Neugier enge Grenzen. Auch dass viele Akteure, beispielsweise Pharmaunternehmen, nur ungern bereit sind, ihre Daten zu teilen, kann den Fortschritt teilweise hemmen.
Natürlich hat auch die Graph-Technik selbst Grenzen, auch wenn Neo4j nahezu unbegrenzt skalierbar ist. So spuckt die Datenbank keine neuen Therapien aus. Vielmehr liefert sie Hinweise auf bisher verborgene Interdependenzen, die dann in der weiteren Forschung verwendet werden können, um tatsächlich wirksame Präventions- und Therapiemethoden zu finden. Ein Beispiel ist die Verbindung zwischen einer Fettleber ohne Alkoholmissbrauch und dem Ausbruch einer Diabeteserkrankung. Sie wird gerade mithilfe von Neo4j erforscht. „Es könnte sein, dass wir daraus einen neuen Indikator für eine Diabetes-Erkrankung neben den heute gebräuchlichen Blutwerten gewinnen“, sagt Jarasch.
(ID:45633651)