Bioinformatique

Le big data au service de la santé

d'Lëtzebuerger Land vom 24.10.2014

Tout le monde ou presque a entendu parler de big data, ces ensembles de données devenus tellement volumineux qu’il en devient difficile de les traiter avec des outils classiques de gestion de bases de données. Les perspectives du traitement de ces mégadonnées sont énormes et pour partie encore insoupçonnées. Grâce à elles, de grands pas pourraient être réalisés dans plusieurs domaines scientifiques, et notamment en biologie et en médecine, où le nombre de données issues des expériences et de la recherche clinique a véritablement explosé. À tel point que la plupart des unités de recherche universitaires ne sont pas suffisamment préparées pour gérer ces données massives en continuelle expansion. Sans oublier le facteur coût : il est très difficile pour ce type d’institution d’investir à elle seule dans une infrastructure de pointe indispensable pour traiter des données aussi complexes que celles utilisées en génomique, protéomique ou bioinformatique. Il y a donc un réel besoin de la communauté scientifique de disposer de plateformes informatiques fournies par des centres de recherche dédiés.

C’est précisément l’un des rôles poursuivis par le Centre luxembourgeois pour la biomédecine des systèmes (Luxembourg Centre for Systems Biomedicine, en abrégé LCSB). Dépendant de l’Université du Luxembourg, ce centre interdisciplinaire, au carrefour de la biologie, de la médecine, des mathématiques et de la physique, dispose de quatorze groupes de recherche, dont l’un, le Bioinformatics Core, a pour objet d’offrir aux autres instituts de recherche au Luxembourg et à l’étranger une expertise en bioinformatique et un accès à du calcul de haute performance et du stockage de données de grande taille.

« Notre groupe a comme principale responsabilité de garantir un flux de données efficace entre les groupes expérimentaux et ceux plus théoriques et davantage orientés vers la médecine », explique Reinhard Schneider, directeur du Bioinformatics Core Facility. « Nous développons également de nouveaux algorithmes dans des domaines aussi divers que l’exploration et la visualisation des données pour mieux les comprendre et les interpréter. Notre équipe reçoit une immense quantité de données des groupes expérimentaux que nos scientifiques doivent gérer, stocker et classer par catégories. Conjointement avec le groupe de calcul de haute performance (High Performance Computing, en abrégé HPC) de l’Université, ils ont pour mission de mettre en place et de gérer des installations informatiques et de stockage avec des centaines de processeurs et un nombre sans cesse plus grand de disques durs. Aujourd’hui, le LCSB héberge la plus grosse installation de matériel informatique du paysage académique luxembourgeois. »

Après avoir géré physiquement toute cette masse de données, les scientifiques ont comme prochain défi de déployer et de développer des techniques visant à mettre au point une procédure d’analyse des données peu coûteuse en temps et en argent. Étant donné la masse des données à traiter, ils doivent implémenter des flux de travail automatiques composés de plusieurs étapes de prédiction et de filtrage de telle sorte qu’il sera possible de se concentrer uniquement sur les données « intéressantes ». Ceci nécessite une collaboration très étroite entre les ingénieurs informaticiens et les biologistes couvrant un large spectre de différentes disciplines.

« Notre travail tourne actuellement autour de trois axes, poursuit Reinhard Schneider. Le premier concerne la fouille de textes (text mining). Nous analysons un large éventail de publications scientifiques dans le but de détecter les facteurs impliqués dans des facteurs pathologiques. Par l’utilisation de techniques mêlant statistiques et langage naturel, nous visons à mettre en évidence les relations causales entre les composants moléculaires et phénotypiques permettant de mieux comprendre les maladies individuelles et les comparer entre elles. Parallèlement à ces connaissances textuelles, nous voulons explorer les résultats expérimentaux et construire des connaissances d’experts de cliniciens et de médecins. Notre principal problème est de savoir comment ces connaissances obtenues à partir de multiples sources hétérogènes peuvent être représentées de manière cohérente. À l’heure actuelle, nous nous concentrons sur l’enrichissement par la fouille de textes de la carte Parkinson qui représente l’ensemble des connaissances sur cette maladie. »

Le deuxième axe de travail concerne l’analyse des donnés relatives aux maladies et comprend quatre grands projets. « Pour schématiser, résume Reinhard Schneider, nous sommes en train d’élaborer des études de séquençage d’ADN et des analyses statistiques, de développer des algorithmes et de mettre en place des modèles de calcul pour des maladies neurologiques complexes comme la maladie de Parkinson, la maladie d’Alzheimer et l’épilepsie. Nous sommes également chargés d’évaluer de nouvelles thérapies mises en place pour lutter contre le diabète et l’obésité chez les jeunes. »

Enfin, le groupe travaille sur deux projets de médecine translationnelle, financés par l’Union européenne en partenariat avec l’industrie pharmaceutique. La médecine translationnelle fait le lien entre la recherche fondamentale et la recherche clinique et a pour objectif de rendre les innovations thérapeutiques plus rapidement accessibles. Le premier projet eTRIKS (European Translational Research Infrastructure & Knowledge Management Services) a pour finalité de développer une plateforme informatique ouverte pour le partage et l’échange de données. Le groupe mené par Reinhard Schneider est en particulier impliqué dans la préservation des données et le développement des analyses. Le deuxième projet, lancé par le consortium Aetionomy, veut mettre en place une nouvelle classification des maladies d’Alzheimer et de Parkinson, générée grâce aux données issues des différentes approches biologiques et basée sur les causes sous-jacentes des maladies. Actuellement, la maladie d’Alzheimer et la maladie de Parkinson sont classées selon leurs symptômes et la sévérité mais cette méthode ne représente pas les différentes causes de ces maladies. Il a été largement reconnu que dans ces vastes groupes de maladies, il existe des sous-groupes où les symptômes de perte de la mémoire ou des troubles du mouvement résultent de plusieurs événements. Le projet Aetionomy a pour but de mieux organiser les données sur les démences afin de développer de nouveaux médicaments et de nouvelles thérapies.

« Notre groupe de bioinformatique et de biostatistique est encore très jeune, conclut Reinhard Schneider qui a rejoint l’Université du Luxembourg en avril 2011. Mais le LCSB a des grandes ambitions et compte jouer un rôle de premier dans la recherche biologique européenne. Ainsi notre plateforme informatique verra sa capacité de stockage encore augmentée début 2015 et nous envisageons à l’avenir de renforcer les collaborations avec des partenaires industriels. »

Stéphane Etienne
© 2017 d’Lëtzebuerger Land