Constance CREUX soutient sa thèse de doctorat le mardi 26 novembre 2024: "Algorithmes de deep learning pour l'identification, la classification, et la prédiction de la fonction des ARN non-codants impliqués dans le cancer de vessie." (see English version below)

Constance CREUX soutient sa thèse de doctorat le mardi 26 novembre 2024 à 14h, site IBGBI, Petit Amphithéâtre.

Titre: Algorithmes de deep learning pour l’identification, la classification, et la prédiction de la fonction des ARN non-codants impliqués dans le cancer de vessie.

Résumé

De multiples études révèlent les fonctions essentielles des ARN non-codants (ARNncs) dans divers processus biologiques et maladies, et notamment le cancer. Le nombre important d’ARNncs non caractérisés offre une opportunité intéressante pour découvrir de nouveaux biomarqueurs. Cela est particulièrement urgent pour des maladies agressives comme le cancer de vessie invasif du muscle, où la découverte de prédicteurs fiables de la réponse au traitement pourrait améliorer la prise en charge des patients.

On distingue deux groupes d’ARNncs : les petits et longs ARNncs, selon un seuil de longueur de 200 nucléotides. Ils peuvent ensuite être divisés en classes partageant une même fonction. Les petites classes d’ARNnc, telles que les ARN de transfert, les petits ARN nucléolaires, et les microARNs, ont fait l’objet d’études approfondies. En revanche, il n’existe pas de classes universellement acceptées pour les longs ARNncs, qui présentent une plus grande diversité fonctionnelle.

Pour valider la fonction des ARNcs par des expériences biologiques et étudier leur implication dans le cancer, des ressources considérables sont nécessaires. Des outils informatiques peuvent aider à résoudre ce problème. L’apprentissage profond (ou deep learning) est désormais largement appliqué à l’étude des ARNncs, offrant des approches efficaces pour détecter des motifs dans de grands ensembles de données.

Plusieurs niveaux d’informations biologiques peuvent caractériser les ARNncs. Leurs séquences peuvent contenir des motifs tels que les boîtes C/D et H/ACA dans les petits ARN nucléolaires. Les ARNncs adoptent des structures secondaires ou tertiaires ; par exemple, les ARN de transfert ont une structure secondaire caractéristique en forme de trèfle. Les ARNncs peuvent afficher des niveaux d’expression variables dans différentes maladies, ou entre patients. De plus, les gènes non-codants peuvent être plus ou moins méthylés, et peuvent se situer dans des régions génomiques présentant des modifications très différentes des histones.

Nous utilisons l’apprentissage profond pour caractériser la fonction des ARNncs. Nous intégrons différentes sources d’informations biologiques pour deux tâches. Premièrement, nous prédisons les classes d’ARNnc, qui représentent des groupes fonctionnels. Cela est possible pour les petits ARNncs, divisés en sous-classes.
Deuxièmement, nous regroupons les ARNncs selon leur similarité, avant d’attribuer des fonctions aux groupes. Cette approche est plus pertinente pour les longs ARNncs, qui ne disposent pas de classes fonctionnelles préétablies. Un aspect clé de nos travaux est d’assurer l’interprétabilité des modèles, les informations obtenues pouvant contribuer à une meilleure définition des classes d’ARNnc.

Cette thèse repose sur trois contributions principales. La première, appelée MMnc, se concentre sur l’apprentissage de représentations pour les ARNncs. Alors que la plupart des approches existantes n’utilisent que les séquences, nous étudions les ARNncs de façon multi-modale pour intégrer différents niveaux d’information. L’algorithme exploite chaque source et leurs interactions. Des coefficients d’importance sont associés aux sources grâce à un mécanisme d’attention. De plus, l’outil est robuste aux données manquantes, certaines sources pouvant être difficiles à obtenir.
La deuxième contribution, A3SOM, est un outil de classification semi-supervisée pouvant proposer une classification avec rejet. Son architecture est basée sur une carte auto-organisatrice, qui peut être visualisée et permet une interprétation basée sur des prototypes.
Enfin, la dernière contribution, lncCluster, vise à identifier des groupes de longs ARNncs qui exercent des fonctions similaires. L’architecture de cette méthode repose sur un autoencodeur multi-modal et une carte auto-organisatrice, pour former les groupes et les visualiser. La méthode est appliquée aux longs ARNncs impliqués dans le cancer de vessie.

Composition du jury de thèse/Composition of the doctoral thesis jury

Membre du jury	Titre	Lieu d’exercice	Fonction dans le jury
Hanene AZZAG	Professeure des Universités	Université Sorbonne Paris Nord	Rapporteure
Daniel GAUTHERET	Professeur des Universités	Université Paris-Saclay	Examinateur
Antonin MORILLON	Directeur de Recherche	Institut Curie	Examinateur
François RADVANYI, Directeur de Recherche, Institut Curie, co-encadrant	Directeur de Recherche	Institut Curie	Co-encadrant
Nataliya SOKOLOVSKA	Professeure des Universités	Sorbonne Université	Examinatrice
Fariza TAHI	Professeure des Universités	Université Évry Paris-Saclay	Directrice de thèse
Patricia THEBAULT	Professeure des Universités	Université de Bordeaux	Rapporteure
Farida ZEHRAOUI	Maître de Conférences HDR	Université Évry Paris-Saclay	Co-directrice de thèse

Constance CREUX defends her doctoral thesis on Tuesday November 26, 2024 at 2:00 pm, IBGBI site, Petit Amphithéâtre.

Title: Deep learning algorithms for the identification, classification, and prediction of the function of non-coding RNAs involved in bladder cancer.

Abstract:

Numerous studies reveal the essential functions of non-coding RNAs (ncRNAs) in a range of biological processes and diseases. This includes cancer, where they can act as oncogenes or tumor suppressors. With many ncRNAs still to be characterized, there is an opportunity to identify new biomarkers. This is particularly urgent for aggressive diseases like muscle-invasive bladder cancer, where finding reliable predictors of treatment response could dramatically improve patient care.

NcRNAs are broadly categorized into two main groups: small and long ncRNAs, based on a length cutoff of 200 nucleotides. They can then be divided into classes that share a function. Small ncRNA classes, such as transfer RNA, small nucleolar RNA, and microRNA, have been extensively studied. On the other hand, there are no universally accepted classes of long ncRNAs, which exhibit greater functional diversity.

In order to validate the function of ncRNAs through biological experiments and study their involvement in cancer, substantial resources are required. Computational tools can help address this problem. Deep learning, which has demonstrated its effectiveness across various fields since the early 2010s, is now widely applied in the study of ncRNAs, offering efficient approaches to detect patterns in large datasets.

Multiple levels of biological information can characterize ncRNAs. Their sequences can contain motifs such as the C/D and H/ACA boxes in small nucleolar RNAs. Additionally, many ncRNAs adopt defined secondary or tertiary structures; for instance, transfer RNAs have a characteristic cloverleaf secondary structure. NcRNAs can display varying expression levels across different diseases, or for different patients. Moreover, non-coding genes are often subject to differential DNA methylation, and they may be located in genomic regions marked by distinct histone modifications.

In our research, we explore the use of deep learning for the functional characterization of ncRNAs. We exploit their multilevel characteristics in two tasks. Firstly, we predict ncRNA classes, which represent functional groups. This is suitable for small ncRNAs, which are divided into subclasses. Secondly, we cluster ncRNAs based on their similarities and then assign functions to these clusters. This approach is more relevant for long ncRNAs, which lack predefined functional classes. One key aspect of our work is to ensure the interpretability of the models, as the insights gained can contribute to the definition of ncRNA classes.

The work in this thesis is separated into three main contributions.
The first, called MMnc, focuses on representation learning for ncRNAs. While most approaches in the literature only use sequences as input, we present a multi-modal framework that can include characteristics of ncRNAs at different levels. It exploits each source of data individually, as well as their interactions. Importance coefficients are associated with each source using an attention mechanism. Moreover, the tool is robust to missing data, as some sources might be challenging to obtain.
The second contribution, A3SOM, is a semi-supervised classification tool that is able to perform abstained classification. Its architecture is based on a self-organizing map, which enables visualization and prototype-based interpretation. This method is generic, but can be applied to cancer and ncRNA data.
Finally, the last contribution, lncCluster, aims to identify groups of long ncRNAs that perform similar functions, as an unsupervised task. This method’s architecture relies on a multi-modal autoencoder, and a self-organizing map for clustering and visualization. It is specifically applied to long ncRNAs involved in bladder cancer.

Date : mardi 26/11/2024, 14h00
Lieu : Petit Amphithéâtre du site IBGBI [Plan d’accès au format PDF]
Doctorante : Constance CREUX, Université d’Évry, Université Paris Saclay, IBISC équipe AROBAS
Directrice de thèse : Fariza TAHI (PR Univ. Évry, IBISC équipe AROBAS)
Co-encadrement de thèse: Farida ZEHRAOUI (MCF HDR Univ. Évry, IBISC équipe AROBAS), François RADVANYI (Institut Curie)

Constance CREUX soutient sa thèse de doctorat le mardi 26 novembre 2024: « Algorithmes de deep learning pour l’identification, la classification, et la prédiction de la fonction des ARN non-codants impliqués dans le cancer de vessie. » (see English version below)