Karen Ambrose est la responsable de la base de données à l'Institut Francis Crick de St. Pancras à Londres. Nous l'avons rencontrée à la conférence Percona Live 2019 à Amsterdam pour comprendre les complexités inhérentes à la gestion de bases de données dans une installation scientifique. Karen travaille chez Francis Crick depuis environ cinq ans. Elle a une formation en bioinformatique et c'est au cours de sa maîtrise qu'elle s'est intéressée à l'application de la technologie pour mieux comprendre les données scientifiques.
Karen a commencé sa carrière à l'Institut Sanger de Cambridge au moment où ils cartographiaient le génome humain, avant de passer à l'Institut Francis Crick. Le Francis Crick Institute est né d'une fusion entre divers organismes de recherche, dont l'Institut national de recherche médicale (NIMR) et le London Research Institute (LRI).
Sa première tâche a été de migrer les données des différentes bases de données des différentes organisations: «Nous avions initialement un délai de 9 mois à un an, selon moi, pour migrer physiquement et migrer vers le Francis Crick. Nous devons donc migrer environ 300 bases de données. Mais c'était dans un paysage où les groupes ne bougeaient pas complètement en une fois. Donc, vous pourriez avoir un groupe, qui va essentiellement parler à un groupe de bases de données sur un site. La moitié de ce groupe est ensuite transférée dans le Francis Crick et l'autre moitié y reste car ils doivent fermer leur laboratoire pour pouvoir se déplacer. Et nous devons rendre ces données disponibles sur le nouveau site et sur l'ancien site. ”
Ce qui rendait la tâche encore plus difficile, c’est qu’il ne s’agissait pas seulement d’un ensemble de bases de données assignées à un groupe en train de se déplacer; certaines de ces bases de données étaient partagées entre cinq groupes qui se déplaçaient à des moments différents. Karen décrit la migration comme un mélange de pièces d'échecs au cours desquelles elle devait s'assurer qu'elles ne corrompent aucune donnée et qu'elle est disponible pour les équipes qui y travaillaient encore, avec le moins de temps d'interruption possible.
Cela ressemble à une tâche herculéenne, et compte tenu de leurs délais stricts, il aurait certainement fallu une armée de détracteurs de bases de données: «Nous sommes quatre dans l'équipe, y compris moi.
Sommaire
Stratégies de stockage
«Au fil des ans, nous avons essentiellement construit une montagne de données scientifiques. Les données ne deviennent pas plus petites, elles semblent simplement devenir plus complexes et volumineuses. "
L'institut compte environ 1500 personnes, dont environ 1 300 scientifiques et 200 membres du personnel opérationnel. Quelque 130 groupes de laboratoires soutenus par environ 18 à 20 plateformes de technologie scientifique (STP) fournissent les services de base aux groupes de laboratoires afin de pouvoir approfondir leurs connaissances: informatique scientifique, dont fait partie l’équipe de base de données que je gère. Nous fournissons donc un service de base au reste de l’Institut. »
«Pour nous, il s’agit beaucoup des données qui proviennent de ces instruments», nous dit Karen. En plus de s’assurer qu’ils fournissent la bonne plate-forme pour aider les scientifiques à analyser les données brutes provenant des machines, l’une des tâches principales de Karen et de son équipe est de les stocker efficacement: «Nous devons déterminer ce que nous pouvons conserver dans la mémoire. nous avons au sein de l'institut, et également quelles autres stratégies devons-nous intégrer, en termes de cloud computing, pour nous aider à fournir les informations scientifiques nécessaires à un groupe de laboratoires particulier. "
Le premier défi, nous dit-elle, est de gérer et de sécuriser toutes les données générées: «Si les personnes génèrent des données, elles veulent généralement tout conserver, car on ne sait jamais vraiment quand vous en aurez besoin. Mais nous ne pouvons pas tout conserver physiquement. »Son équipe collabore donc avec les groupes de labo pour identifier les données importantes et les séparer des données pouvant être générées.
Le prochain défi est la performance. Alors que pour certains scientifiques, le débit de traitement n’a pas d’importance tant qu’ils peuvent accéder aux données, mais que pour d’autres, les performances sont importantes: «Nous cherchons toujours le meilleur moyen de concevoir leur base de données, comment ces données doivent-elles être structurées soyez performant. »Une fois de plus, la solution proposée par Karen est évoquée lors des discussions avec les laboratoires pour comprendre ce qu’ils doivent obtenir à partir des données.
L'avantage de l'open source
Le Francis Crick Institute utilise différents types de bases de données. Tandis que pour les entreprises, ils utilisent Oracle ou SQL Server, Karen a tendance à diriger les groupes scientifiques vers des bases de données open source. L'Institut utilise des bases de données relationnelles telles que MySQL et Postgres, mais commence à explorer des bases de données NoSQL telles que MongoDB, Neo4j, Cassandra et autres. Elle est particulièrement intéressée par l’investigation de Neo4j car «c’est intéressant en termes de représentation graphique des relations entre les données».
Karen aime aussi travailler avec des bases de données open source en raison de leur modèle de développement ouvert: «Si vous proposez quelque chose, un nouveau problème que vous souhaitez résoudre, il est beaucoup plus facile de pouvoir parler à toute la communauté pour pouvoir avec une solution. Ils innovent toujours, font toujours avancer les choses. Donc, vous ne pensez jamais que vous serez toujours confiné par un processus de publication stagnant. "