TP 3

Datenmanagement und multiskalen Computermodellierung

Das Ziel des MultiscaleHCC-Verbunds ist die Entwicklung von neuen Modellen, die das Wachstum von Leberzellkarzinomen (HCC) unter gängigen Behandlungsmethoden (Sorafenib oder transarterielle Chemoembolisation, kurz TACE) widerspiegeln. Diese Modelle sollen helfen, die Anatomie eines Lebertumors und dessen Antwort auf Heilversuche besser zu verstehen und die bestehenden Therapien weiter zu verfeinern. Um aussagekräftige und robuste Modelle zu gewinnen, werden in klinischen Studien Daten mit mehreren zueinander komplementären Hochdurchsatztechnologien generiert (Genom-Sequenzierung, Protein- und Metaboliten-Messungen, medizinische Bildgebung) und kombiniert. Diese Datensätze sind derart groß und komplex (sogenannte „Big Data“), dass sie bereits für einige wenige Messungen nicht ohne die Hilfe von effizienten und automatisierten Computeralgorithmen ausgewertet werden können. Zudem ist für die Verflechtung der heterogenen Daten und deren kohärente Auswertung eine robuste Strategie zur Speicherung und Verwaltung von Meta-Informationen unabdingbar.Unser Projekt erfüllt diese Anforderungen durch den Entwurf einer konsistenten Strategie zur Speicherung und Verwaltung der innerhalb des MultiscaleHCC Verbunds erzeugten großen Datenmengen, deren Annotation mit klinisch relevanten Parametern und durch Automatisierung der Prozessierung und statischen Auswertung. Somit lässt sich alles, angefangen vom experimentellen Design bis hin zur Interpretation der Daten und endgültigen Validierung eines neuen Vorhersagemodells für Leberkarzinome, einheitlich in unserem System abbilden. Die konsistente Modellierung und Pflege aller Daten ist ein wesentlicher Grundstein für die Nachhaltigkeit der Forschung des MultiscaleHCC-Verbunds. Diese Strategie wird auf der IT-Infrastruktur des Tübinger Zentrums für quantitative Biologie (QBiC) bereitgestellt, die u.a. eine ausfallsichere Speicherung der Daten und deren zeiteffiziente Verarbeitung durch Hochleistungsrechnen ermöglicht.Neben der Etablierung der technischen Rahmenbedingungen ist unser Projekt in der bioinformatischen Analyse und Interpretation der Daten involviert. Dazu gehört das Abbilden der Daten auf biologische Netzwerke, um erste Hinweise auf die (patho )physiologischen Mechanismen zu bekommen, die für das Tumorwachstum essentiell sind. Diese Informationen werden an unsere Partner innerhalb des Konsortiums weitergeleitet und unterstützen somit die Entwicklung neuer Tumormodelle um Leberkrebs besser zu verstehen.Im Laufe der klinischen und (parallel laufenden) präklinischen Versuche, die eine integrale Rolle in dem MultiscaleHCC Projekt spielen, haben wir die Daten aller Konsortialpartner harmonisiert gesammelt, annotiert und durch ein zentrales Webportal den Partnern zur Verfügung gestellt. Hierzu wurden unsere bereits existierenden Datenmodelle für Genom-Sequenzierung und Protein- und Metaboliten-Messungen auf klinische und präklinische Bildgebungsdaten angepasst. Diese Anpassung erlaubt eine umfassende Analyse der heterogenen Daten und bietet standardisierte Schnittstellen für systembiologische Analysen.

Keywords: Bioinformatik, Datenintegration