TP 4

Data handling, optimization of analysis workflows and applications

Eine störungsfreie und effiziente Verarbeitung von großen Genom Datensätzen, wie sie bei dem Next Generation Sequencing anfallen, benötigt sowohl eine fortschrittliche Strategie für die Datenverwaltung, als auch eine Prozesskette aus wohl optimierten Anwendungen. Die Analyse von Krebsgenomen wird in der Forschung üblicherweise auf Supercomputern durchgeführt, die zahlreiche Teilbetrachtungen parallel durchführen können. Im Rahmen des Projektes werden wir uns dieser Prozesskette sowie den darin enthaltenen Anwendungen annehmen und sie optimieren, damit die Identifikation von onkogenetischen Treibern und Modulatoren schneller von statten gehen kann.
In der Diagnostik hingegen finden sich deutlich abweichende Rahmenbedingungen für eine mögliche Rechnerinfrastruktur vor. Um hier eingesetzt werden zu können müssen die Rechenkomponenten möglichst geringe Anforderungen an Infrastruktur stellen. Sowohl die laufenden Kosten, die Wartungsanforderungen und die Anforderungen an den Betrieb müssen minimiert werden. Durch die Nutzung einer Kombination von spezialisierter Hardware wie beispielsweise Beschleunigern (z.B. GPGPU) oder Koprozessoren (z.B. Intel Xeon Phi) sollen die notwendigen Prozessketten und die darin enthaltenden Anwendungen auf eine kompakte, stabile und effiziente Plattform migriert werden. Die Plattform soll die Basis für eine praktikable Krebs-Diagnostik auf Basis des Next Generation Sequencing darstellen.
Um Datenintegrität und effiziente Datenhandhabung zu gewährleisten benötigt es der Betrachtung und Steuerung des gesamten Datenlebenszyklus. Um diesen Anforderungen gerecht zu werden wird das RRZK ein Verwaltungssystem des Datenlebenszyklus auf Basis von IRODS zur Verfügung stellen. IRODS wurde speziell zur nutzerfreundlichen Verwaltung von Datenströmen konzipiert und bietet flexibel anpassbare Verwaltungsfunktionen für den Datenlebenszyklus. Hierzu werden Schnittstellen zwischen dem Daten Lebenszyklus Verwaltungssystem, einer existierenden relationalen Datenbank und einem Portal kombiniert um die Daten an den jeweils relevanten Stellen bereit zu stellen. So werden die Kliniken Daten zur Verfügung gestellt bekommen, die sie für die Diagnostik benötigen.