TP 9

Data Analysis and the Promotion of a "System Medicine Dialog"

Ziel des Teilprojekts 9 ist die Entwicklung, Implementierung und Anwendung mathematischer und bioinformatischer Werkzeuge, die für die Interpretation komplexer biomedizinischer Daten (d.h. Genom-, Transkriptom-, Proteom-, Methylierungs- und Metabolom-Profile sowie Kombinationen davon) benötigt werden. In diesem Zusammenhang bedeutet "Interpretation", dass eine große Zahl möglicher Einflussfaktoren (Keimbahn-Genotypen, mikrobielle Signaturen, Genexpressionsprofile etc.) mit wohldefinierten Zielgrößen (d.h. Krankheitsstatus und weitere damit verbundene Merkmale) in Beziehung gebracht werden soll.

Um dieses Ziel zu erreichen, verfolgen wir zwei sich gegenseitig ergänzende Ansätze: Einerseits werden Einflussfaktoren und Zielgrößen mit Hilfe klassischer statistischer Verfahren wie z.B. Regressionsmodellen und Signifikanztests verknüpft. Allerdings haben sich diese Ansätze bislang beim Aufdecken komplexer Beziehungen zwischen Einfluß- und Zielgrößen nicht immer als besonders erfolgreich erwiesen. Daher werden wir verstärkt auch Verfahren des sogenannten "Data-Mining" einsetzen. Darunter versteht man das mehr oder weniger ungezielte Durchsuchen großer Datenmengen mit Techniken der künstlichen Intelligenz und der höheren Statistik, um Trends und Muster in den Daten zu erkennen, die ansonsten unentdeckt blieben. Im zweiten, komplementären Ansatz werden wir eine neue Strategie der Datenanalyse verfolgen, die einen systemorientierten Blick auf biologische Beziehungen wirft. Grundidee ist eine möglichst umfängliche Projektion der verfügbaren hochdimensionalen Daten auf bekannte biologische Netzwerke, um so die Daten besser interpretieren zu können. Das daraus abgeleitete Paradigma soll anschließend - je nach Verfügbarkeit - auf weitere Daten aus den anderen Teilprojekten angewendet werden.

Die Ergebnisse beider Ansätze werden kontinuierlich miteinander verglichen und zusammengeführt, damit ein maximaler Nutzen für die anderen Teilprojekte entsteht. Methodische Fragen bilden auch den Rahmen eines kontinuierlichen Dialogs innerhalb des Konsortiums, der einerseits die Weiterentwicklung der Analyseverfahren auf Grundlage der verfügbaren Daten fördern und andererseits im Ergebnis zur wissenschaftlichen Leistungsfähigkeit der anderen Teilprojekte beitragen soll.


Keywords: Systembiologie, Statistik, Data-Mining