Avec la montée en puissance des moyens informatiques, tant au niveau des capacités que de l’accessibilité, il est devenu de plus en plus simple de générer, échanger et interpréter des données. Ainsi, depuis un peu plus d’une dizaine d’années, on observe un accroissement constant de l’interconnexion entre les hommes, par le biais du monitorage des flux de données.
Face au flux croissant de données, on se retrouve confronté à la nécessité de récolter, indexer et interpréter ces données pour qu’elles prennent un intérêt qualitatif plutôt que quantitatif. Cela nécessite donc un décloisonnement des centres de recueil de données pour leur interprétation.
C’est le début de l’ère « big data », phénomène mondial et multidisciplinaire qui s’intensifie, s’étend et se généralise. Ayant débuté dans des domaines tels que l’informatique ou l’économie, le big data s’est petit à petit intégré dans les sciences. Tout d’abord dans les sciences fondamentales, comme la physique avec la mise en place de l’accélérateur de particules du CERN1, puis rapidement dans le domaine de la santé.
En effet, en santé, le big data a trouvé un filon quasiment inépuisable. Un des exemples les plus marquants est celui de l’étude des données génétiques2,3. Avec l’essor de l’informatique, il est devenu de plus en plus simple et de moins en moins coûteux de réaliser des études du génome, particulièrement dans l’étude de mutations induisant des cancers. Ces études de séquençage génèrent, chaque jour, plusieurs centaines de giga-octets de données, qu’il faut ensuite indexer, traiter et interpréter pour en tirer des conclusions4,5. Étant donné qu’en matière de santé, le niveau de preuve attendu est extrêmement haut, ces études doivent être réalisées sur de larges échantillons d’individus, augmentant de manière encore plus importante le volume de données générées.
La science reposant sur le partage et le transfert des connaissances, on comprend rapidement qu’un des premiers défis du big data est l’échange de tels volumes d’informations sans perte de qualité. Quelques compagnies et institutions ont essayé, à travers le globe, de répondre à cette problématique mais à l’heure actuelle, aucune solution satisfaisante n’a pu être mise en avant, tant sur le plan pratique que sur le plan économique. Ainsi, a-t-on assisté à la mise en place de bases de données, qui nécessitent toujours le téléchargement des données, plus ou moins libre d’accès, par les chercheurs : processus économiquement coûteux pour les entreprises et chronophage pour les intervenants. D’autant plus que le risque d’erreur reste important.
Une fois ces données acquises, au prix de nombreuses heures, il faut tirer l’information cachée au sein de ce flot incessant. En effet, l’heure n’est plus à la découverte par sérendipité mais à l’étude rigoureuse et systématique que permet la démarche scientifique. Toutefois, lorsqu’elle ne concerne que quelques expériences dans un labo, son application est relativement simple. Comment réussir à gérer des centaines de milliers de fichiers, chacun pouvant contenir la découverte permettant de faire avancer l’hypothèse posée. Les chercheurs et scientifiques de tous bords ont été bien en peine de répondre à cette demande. Comment réussir à associer les centaines d’heures fastidieuses nécessaires à l’interprétation des données avec le maintien de la réalisation d’expériences ? Après s’être heurtés à ce problème, une solution est apparue : la création d’une nouvelle « branche » de scientifiques dont le sujet dédié serait l’interprétation des données et de développement de nouveaux outils facilitant cette interprétation. En résumé, le transfert en santé des professions de « Data Analyst » et « Data Scientist », plus connues en France sous le nom de la bio-informatique. Par ailleurs, l’étude de ces disciplines, même de manière superficielle, a été intégrée dans les cursus en vue de créer une « transversalité » des approches.
Parmi les applications phare de la bio-informatique, on trouve les méthodes in silico3,5. Ces méthodes, récentes, puissantes et prédictives, consistent à réaliser des expériences « simples » par des modélisations mathématiques, afin d’obtenir des résultats préliminaires avant le début des expériences in vitro ou in vivo. Très prisée dans l’industrie pharmaceutique, dans les étapes précoces de recherche et développement d’un nouveau produit de santé, ces nouvelles méthodes de modélisation reposent sur le principe même du big data : le recueil de données sur de potentielles molécules dans des chimiothèques et l’étude de la relation structure-activité de ces molécules avec des récepteurs cellulaires connus. Auparavant, ces expériences devaient être réalisées à la paillasse ou par des automates générant un coût de réalisation important et une durée plus ou moins longue d’obtention des résultats suivant le nombre de molécules testées. Depuis l’essor du big data et grâce à des ordinateurs de plus en plus puissants, ces expériences ne prennent plus que quelques minutes et seules les molécules les plus intéressantes sont réellement testées à la paillasse pour confirmer les résultats obtenus in silico.
Bien que les apports du big data soient encore imparfaits, du fait de sa jeunesse relative, il représente une solution intéressante à de nombreux facteurs limitants de la recherche et développement, tant académique qu’industrielle.
Le big data permet de s’affranchir des limites industrielles et académiques grâce d’une part à la récolte, l’organisation et l’échange des données et d’autre part, grâce à la collaboration entre différentes équipes internationales. En limitant les expériences redondantes, le gain de temps et d’argent est considérable. Cependant, les supports hardware et software restent assez coûteux et ne proposent pas, à l’heure actuelle, de solution parfaite. En outre, il faut maintenir et assurer l’intégrité des données lors du partage des données.
Dans le secteur des biotechnologies et de la culture cellulaire, le big data permet d’outrepasser les limites actuelles, du fait du décloisonnement qu’il génère et de l’interconnexion possible des données. En effet, ces deux secteurs nécessitent le maintien de paramètres particuliers, physico-chimiques et biologiques, afin d’obtenir une production maximisée. Cependant, le recueil, le contrôle et l’ajustement de ces paramètres nécessitent, à l’heure actuelle, des opérations manuelles qui immobilisent des ressources humaines.
Lucullus se pose aujourd’hui comme une alternative unique face à des softwares vieillissants ne disposant pas des fonctionnalités telles qu’un suivi optimisé des paramètres de production. Le présent article et la série à laquelle il appartient se propose de vous présenter en quoi Lucullus est une solution souple et puissante pour la recherche, le développement et la production de produits biotechnologiques ou issus de cultures cellulaires.
Sources bibliographiques