Aurélien BEAUDE soutient sa thèse de doctorat le vendredi 6 décembre 2024: "Développer et explorer l'intérêt des approches de deep learning dans le domaine des données multi-omiques." (see English version below)

Aurélien BEAUDE soutient sa thèse de doctorat le vendredi 6 décembre 2024 à 14h, site IBGBI, Petit Amphithéâtre. La soutenance de thèse est visualisable via Zoom: https://univ-evry-fr.zoom.us/j/99705103979?pwd=lOb4i2oyUEIUOhJtIsTfgkgXoLM53S.1

Titre: Développer et explorer l’intérêt des approches de deep learning dans le domaine des données multi-omiques.

Résumé

La médecine de précision a transformé le domaine des soins, en adaptant les décisions à chaque patient. L’essor de cette médecine a été rendu possible par le développement de méthodes de séquençage à haut débit, permettant la collecte de grandes quantités de données patients, et par le développement de méthodes d’apprentissage profond tirant parti de ces données. La grande dimension des données omiques conduit à des modèles de grande taille, et bien que la disponibilité d’échantillons augmente, elle reste limitée pour des architectures de cette taille. Les architectures actuelles utilisent des poids fixes pendant l’inférence qui sont les mêmes pour tous les patients, limitant le potentiel d’une médecine véritablement personnalisée. Les maladies comme le cancer résultent de perturbations de processus biologiques à de multiples niveaux. Les méthodes d’acquisition actuelles permettent la collecte d’informations à tous les niveaux, ouvrant la voie à des méthodes analytiques combinant ces informations pour améliorer les prédictions et la compréhension de ces maladies. La compréhension des prédictions est essentielle dans les domaines à forts enjeux tels que la santé, cependant les modèles d’apprentissage profond sont considérés comme des boîtes noires.

Pour remédier à ces limitations, nous avons proposé de nouvelles méthodes, qui sont énumérées ci-dessous. Tout d’abord, nous avons développé AttOmics, un modèle pour les données omiques basé sur le mécanisme d’auto-attention. Nous l’avons appliqué à des groupes de variables pour répondre aux besoins mémoires de l’attention. Deuxièmement, nous avons proposé CrossAttOmics, une architecture basée sur le mécanisme d’attention croisée. Nous n’avons pris en compte que les interactions de régulation connues entre les modalités. Troisièmement, nous avons proposé CrossAttOmicsGate pour assigner un score à chaque interaction. Enfin, nous avons développé un modèle génératif d’explications contrefactuelles, permettant d’identifier le changement requis dans le profil moléculaire pour qu’un patient soit en meilleur santé. Nous avons comparé nos méthodes avec celles de l’état de l’art pour les données moléculaires.

Composition du jury de thèse/Composition of the doctoral thesis jury

Membre du jury	Titre	Lieu d’exercice	Fonction dans le jury
Franck AUGÉ	Directeur R&D Search & Evaluation – AI and Digital Technologies	SANOFI	co-encadrant
Chloé-Agathe AZENCOTT	Professeure	Mines Paris – PSL	Examinatrice
Laura CANTINI	Chargée de recherche CNRS	Institut Pasteur	Examinatrice
Matteo CESARONI	Directeur de l’analyse translationnelle en oncologie	Sanofi	Invité
Nistor GROZAVU	Professeur des Universités	Université CY Cergy	Rapporteur
Blaise HANCZAR	Professeur des Universités	Université Évry Paris-Saclay	Directeur de thèse
Laurent JACOB	Directeur de Recherche CNRS	Sorbonne Université	Rapporteur
Flora JAY	Chargée de recherche CNRS	Université Paris-Saclay	Examinatrice
Farida ZEHRAOUI	Maître de Conférences HDR	Université Évry Paris-Saclay	Co-directrice de thèse

Aurélien BEAUDE defends his doctoral thesis on Friday December 6, 2024 at 2:00 pm, IBGBI site, Petit Amphithéâtre. The thesis defense can be viewed via Zoom: https://univ-evry-fr.zoom.us/j/99705103979?pwd=lOb4i2oyUEIUOhJtIsTfgkgXoLM53S.1

Title: Developping and exploring the interest of deep learning approaches in the field of multi-omics data.

Abstract:

Precision medicine has been a transformative approach to healthcare, tailoring decisions to each patient. The rise of this medicine has been made possible by the development of high-throughput sequencing methods, enabling large patient data collection, and the development of deep learning methods to leverage this data. The high dimensionality of omics data leads to very large deep learning models, and while samples availability is increasing, it remains limited for such large architectures. Current deep learning architectures use fixed weights during inference that are the same for all patients, restricting the potential for truly personalized medicine. Diseases like cancer result from perturbations in biological processes at multiple levels. Current acquisition methods collect the information at all levels; analytical methods combining this multilevel information are needed to improve predictions and the understanding of these diseases. Understanding predictions is critical in high-stakes domains such as healthcare, but deep learning models are considered black-boxes.

To address those limitations, we proposed new methods, which are listed below. Firstly, we developed AttOmics, a deep learning architecture based on the self-attention mechanism for omics data. We applied it to groups of related features to cope with attention memory requirements. Secondly, we proposed CrossAttOmics, an architecture based on the cross-attention mechanism. We only considered known regulatory interactions of modalities. Thirdly, we proposed CrossAttOmicsGate to score each modality interaction. Finally, we developed a generative model to obtain counterfactual explanations, allowing the identification of the required change in the molecular profile for a patient to be healthier. We compared our methods with the current state-of-the-art methods for molecular data.

Date : vendredi 06/11/2024, 14h00
Lieu : Petit Amphithéâtre du site IBGBI [Plan d’accès au format PDF], ou via Zoom: https://univ-evry-fr.zoom.us/j/99705103979?pwd=lOb4i2oyUEIUOhJtIsTfgkgXoLM53S.1
Doctorant : Aurélien BEAUDE, Université d’Évry, Université Paris Saclay, IBISC équipe AROBAS
Directeur de thèse : Blaise HANCZAR (PR Univ. Évry, IBISC équipe AROBAS)
Co-encadrement de thèse: Farida ZEHRAOUI (MCF HDR Univ. Évry, IBISC équipe AROBAS), Franck AUGÉ (SANOFI)
Le document de thèse est disponible sur HAL