À l’ère du big data et la miniaturisation des équipements, on observe une explosion de la quantité des données. Les chercheurs doivent gérer des volumes croissants de données à traiter. Face à ce défi et par manque de formation, la nécessité de créer une nouvelle branche de la biologie s’est peu à peu imposée et la bio-informatique est née. Au sein de celle-ci, une sous-branche est dédiée au recueil, à l’organisation et à l’archivage des données, afin que les Data Scientists et les Data Analystes puissent, ensuite, réaliser leurs modélisations et expériences. C’est le principe de « biocuration »1.
La « biocuration » est l’application en biologie du « data mining ». Elle repose sur 3 grands concepts :
1/ le recueil et l’extraction des données,
2 / l’organisation des données
3 / l’archivage des données1–3
Face à l’explosion des volumes données, particulièrement dans les biotechnologies (la culture cellulaire, la fermentation et la biologie moléculaire), la « biocuration » est devenue de plus en plus essentielle. Paradoxalement, elle reste relativement méconnue et en retard par rapport aux autres disciplines du big data. Toutefois, on comprend très rapidement son intérêt, car il s’agit là d’un des supports nécessaires à l’expression du plein potentiel du big data, en santé comme dans d’autres disciplines4.
C’est l’étape la plus fastidieuse de la bio-curation. Pour les données industrielles, le recueil des informations se fait via les contrôleurs des bioréacteurs, les différents analyseurs présents sur les lignes de production (on-line, at-line, off-line) et par le recueil des certificats fournis avec les matières premières ainsi que les différentes informations « process ». Pour le volet académique de ces données, il faut parcourir les publications scientifiques et extraire les données du cœur même des articles. Une fois les données recueillies, il faut extraire celles qui seront pertinentes, en appréciant la justesse, la reproductibilité et la répétabilité des informations. Cela nécessite, donc, de déterminer la rigueur scientifique associée à la publication.
Relativement plus aisée, l’organisation se doit de répondre à certaines questions telles que « À quelles espèces font références les données obtenues ? » ou « À quels types et sous-types cellulaires appartiennent les cellules ayant servi de support à l’expérimentation/production ? » ou « Le procédé a-t-il subi des modifications substantielles pour obtenir le résultat souhaité ? » ou encore « Tous les paramètres du procédé ont-ils été intégré dans les données ? ».
La réponse à ces interrogations aura un impact sur l’organisation et la hiérarchisation des données, afin de permettre une navigation aisée et intuitive. De même, ces questionnements se répercuteront sur la structure, la qualité et la pertinence de rapport final qui sera ensuite envoyé pour analyse par le département de contrôle de la qualité.
La création ou l’implémentation de la base de données est à la fois la plus simple du processus mais aussi la plus coûteuse. Il « suffit » d’intégrer les informations au sein d’une base de données existantes ou non. Au cours des dernières années, ces bases de données se sont faites de plus en plus nombreuses et spécialisées même si aucune solution entièrement satisfaisante n’existe pour le moment.
En résumé, la biocuration est donc un procédé complexe, long et coûteux, qui mobilise des ressources tant humaines que matérielles1–4.
C’est pour combler une partie des ces limites que Lucullus a été créé : face au changement de paradigme de la gestion des données, les capacités intégratives de Lucullus permettent de récolter les données, qu’elles proviennent des certificats de matières premières ou qu’elles soient collectées en ligne par les analyseurs et capteurs présents sur les machines.
Lucullus permet de générer l’arborescence des données récoltées et leur traitement rapide de manière automatisée ou par le biais d’un opérateur. Cette solution intégrée permet également de rationaliser la génération, le recueil et l’archivage des informations, tant pour la recherche et développement que pour la production.
En effet, Lucullus est à même de centraliser et compiler toutes les données implémentées au cours du procédé pour créer le rapport final. Ce document contiendra toutes les informations obtenues, des numéros de lot et de la composition précises des matières premières utilisées pour la réalisation des milieux de cultures aux différents numéros de lots du produit fini en passant par toutes les données extraites des analyseurs qu’ils soient on-line, at-line, off-line. Ainsi, l’organisation sous la forme d’un document final unique regroupant toutes les informations facilite les actions du département de contrôle de la qualité.
En outre, ce document final peut être généré à partir d’un modèle conçu préalablement donnant la possibilité de créer des rapports qui seront identiques pour toutes les unités ou sites de production. Ce lissage des livrables produits en fin de processus accroît la facilité de compréhension et d’évaluation des rapports de production. De plus, ces rapports générés par Lucullus peuvent aisément et rapidement s’exporter vers des fichiers PDF ou MS Excel/Word pour permettre leur transfert informatique à des tiers ne possédant Lucullus. Ce faisant on assiste à une amélioration de la qualité de la documentation tout en générant moins de fichiers et en limitant l’impression de documents papiers.
Pour finir, le système Lucullus comprend la sécurisation des informations par leur stockage dans une base de données hors-site, qui peut être accessible par toutes unités de production. Ce point permet un transfert plus aisé des connaissances et des technologies et peut constituer un point déterminant lors des étapes de transpositions d’échelles.
Ainsi, Lucullus apparaît comme une solution adaptée et adaptable à des exigences scientifiques de plus en plus pressantes. Cette solution représente un gain de temps et de moyens, tant humains que financiers.
Sources bibliographiques :