TP 5
Datenanalyse, Datenmanagement und Datenintegration
Das Teilprojekt wird eine zentrale, webbasierte Plattform für den Austausch projektrelevanter Daten aufsetzen und betreiben. Dieses wird auf eine frei verfügbare Software zum Management und zum Austausch experimenteller biomedizinischer Daten aufbauen (SysmoSeek). Das System wird von den Projektpartnern genutzt, um Experimente, Studien, Ergebnisse von Untersuchungen, Zelllinien, Beschreibungen der Daten etc. einfach und effizient auszutauschen. Ebenso wird der Export ausgewählter Daten in solchen Formaten unterstützt, die von anderen Softwarewerkzeugen gelesen und weiterverarbeitet werden können.
In einem zweiten Schritt werden öffentlich frei verfügbare Daten, die für eine fundierte Datenanalyse im Projekt benötigt werden, identifiziert, transformiert und in das System eingepflegt. Dies kann zum Beispiel biologische Modelle, tumor-spezifische Mutationsprofile oder andere spezifische molekulare Eigenschaften neuroendokriner Tumore umfassen. Ebenso werden vergleichbare Daten integriert, welche die anderen Projektpartner in vorherigen Studien und Projekten erhoben haben. Patientenorientierte Daten nicht in das System integriert, sondern nur deren anonymisierte Beschreibung. Über das System werden auch Daten zur Verfügung gestellt, die durch automatische Text-Mining-Methoden aus wissenschaftlichen Artikeln gewonnen werden, insbesondere mit neuroendokrinen Tumoren assoziierte Mutationen.
Diese integrierte Datenbasis wird vom Teilprojekt initial benutzt, um Gene, die vermutlich mit pNET Tumoren assoziiert sind, zu identifizieren, und um ein pNET spezifisches Genpanel für die Sequenzierung von pNET-Proben zu erstellen. Die erhobenen Sequenzdaten werden dann durch eine speziell zu entwickelnde Software analysiert. Hierdurch werden Mutationen identifiziert, die in den untersuchten pNET-Proben signifikant häufiger als erwartet vorkommen und daher möglicherweise unmittelbar mit dem Tumorwachstum zusammenhängen. Ziel ist es, solche Mutationen zu identifizieren, die starken Einfluss auf die Prognose haben bzw. die therapierelevant sind.
Keywords: statistical analysis, next-generation sequencing, proteomics data, scientific data management platform