TP4 - COMMITMENT

Multi-OMICs transfer learning

Um eine bessere Beschreibung und Diagnose komplexer Krankheiten wie Schizophrenie zu erreichen, müssen mehrere Datentypen wie molekulare Daten (Genexpressionsdaten, epigenetische Daten usw.), bildgebende Daten (wie z. B. Hirn-MRT) oder klinische Daten kombiniert. Mithilfe fortschrittlicher Ansätze für maschinelles Lernen können wir solche heterogenen Datensätze kombinieren, um Signaturen oder digitale „Fingerabdrücke“ einer Krankheit zu erstellen, mit denen die Krankheit für einen potenziellen Patienten erkannt und klassifiziert werden kann. Eine Herausforderung dieses Ansatzes ist die heterogene Natur dieser Datentypen, die die Krankheit auf sehr unterschiedlichen Ebenen (molekulare bis makroskopische Ebene) beschreiben. Daher möchten wir im Rahmen dieses Projekts sinnvolle Wege entwickeln, um diese Datentypen in einen gemeinsamen Beschreibungsraum zu projizieren, beispielsweise auf der Ebene der Signalwegaktivitäten. Dies hat den Vorteil, dass unterschiedliche Datenmodalitäten in einem einheitlichen Rahmen beschrieben werden können, und verbessert das Vorhersagepotenzial von Modellen für maschinelles Lernen. Andererseits ist es oft schwierig, die verfügbaren Datensätze für Patientenkohorten direkt zu vergleichen, da für verschiedene Kohorten möglicherweise unterschiedliche Datentypen verfügbar sind. Für einige würden nur genetische Daten bereitgestellt, während andere möglicherweise Expressionsdaten enthalten. Eine weitere Herausforderung wird daher darin bestehen, Vorhersagemodelle basierend auf einigen Datentypen (z. B. Genexpressions- oder Bildgebungsdaten) auf andere Patientenkohorten anzuwenden, für die nur einige dieser Daten oder sogar andere Datentypen verfügbar sind. Eine solche Strategie wird als „Transferlernen“ bezeichnet, bei dem ein trainiertes Modell auf einen bestimmten biologischen Kontext übertragen wird.

Wir werden die am besten geeigneten Strategien für die Durchführung eines solchen Modelltransfers ableiten, um eine breite Anwendbarkeit unserer Vorhersagemodelle sicherzustellen. Zu diesem Zweck werden wir zuvor entwickelte unbeaufsichtigte Lernansätze verwenden, die auf Matrixfaktorisierung oder neuronalen Netzen basieren, und diese auf verteilte Datensätze ausweiten. Als Ergebnis werden wir eine Toolbox validierter Methoden bereitstellen, mit denen

(1) die Krankheit in jeder verfügbaren Patientenkohorte vorhergesagt und klassifiziert werden kann und

(2) der digitale Fingerabdruck mit denen von komorbiden Erkrankungen wie Diabetes oder Herz-Kreislauf-Erkrankungen verglichen werden kann.

Keywords: maschinelles Lernen; multi-omics