Alice LACAN soutient sa thèse de doctorat le mardi 4 février 2025: « Génération de Données Transcriptomiques à l’aide de Modèles Génératifs Profonds » (see English version below)

/, Equipe AROBAS, Evénements, Recherche, Soutenance de thèse/Alice LACAN soutient sa thèse de doctorat le mardi 4 février 2025: « Génération de Données Transcriptomiques à l’aide de Modèles Génératifs Profonds » (see English version below)

Alice LACAN soutient sa thèse de doctorat le mardi 4 février 2025: « Génération de Données Transcriptomiques à l’aide de Modèles Génératifs Profonds » (see English version below)

Alice LACAN soutient sa thèse de doctorat le mardi 4 février 2025 à 14h, amphithéâtre du bâtiment 660 laboratoire LISN, Paris-Saclay.

La séance est également diffusée en ligne, via le lien : https://inria.webex.com/inria/j.php?MTID=m02de2ff40711f02b6b3b0f41891256ba
 et est en langue anglaise.

Titre: Génération de Données Transcriptomiques à l’aide de Modèles Génératifs Profonds.

Résumé

Cette thèse explore l’utilisation de modèles génératifs profonds pour améliorer la génération de données transcriptomiques, répondant aux défis de rareté des données dans la classification de phénotypes de cancers. Nous évaluons la capacité des Autoencodeurs Variationnels (VAEs), des Réseaux Antagonistes Génératifs (GANs) et des modèles de diffusion (DDPM/DDIM) à équilibrer réalisme et diversité sur des données tabulaires de haute dimension. Nous avons d’abord adapté des métriques d’évaluation, supervisées et non supervisées. Nous avons ensuite intégré un module d’auto-attention basé sur les connaissances du domaine dans notre GAN (AttGAN), améliorant le compromis fidélité-diversité. Une contribution notable est l’augmentation de la performance de classification avec un nombre minimal de vraies données augmenté de données générées. Nous proposons également une première adaptation des modèles de diffusion pour l’expression des gènes, ainsi qu’une méthodologie d’analyse d’interpolation offrant des perspectives sur la diversité des données et l’identification de biomarqueurs. Enfin, nous présentons GMDA (Modélisation Générative avec Alignement de Densités), un modèle génératif alternatif aux GANs, permettant une exploration contrôlée de l’espace des données, une stabilité et une architecture frugale. Cette thèse offre ainsi des perspectives pour la génération de données transcriptomiques et tabulaires au sens large.

Composition du jury de thèse/Composition of the doctoral thesis jury

Membre du jury Titre Lieu d’exercice Fonction dans le jury
Magali BERLAND Ingénieure de Recherche INRAE Université Paris-Saclay Examinatrice
Yann CHEVALEYRE Professeur des Universités LAMSADE, Université Paris Dauphine-PSL Rapporteur & Examinateur
Blaise HANCZAR Professeur des Universités Université Évry Paris-Saclay Directeur de thèse
Alexander F. PALAZZO Professeur Département de Biochimie, Université de Toronto Examinateur
Michèle SEBAG Directrice de Recherche CNRS LISN, Université Paris-Saclay Co-directrice de thèse
Marc SEBBAN Professeur des Universités LabHC, Université de Saint-Etienne Examinateur
Nataliya SOKOLOVSKA Professeure des Universités LCQB, Sorbonne Université Rapporteure & Examinatrice

Alice LACAN defends her doctoral thesis on Tuesday the 4th of February, 2025 at 2:00 pm (Paris time), in the amphitheater of building 660 at LISN laboratory. The thesis defense may be followed online at : https://inria.webex.com/inria/j.php?MTID=m02de2ff40711f02b6b3b0f41891256ba .The defense will be conducted in English

Title: Transcriptomics Data Generation with Deep Generative Models.

Abstract:

This thesis explores deep generative models to improve synthetic transcriptomics data generation, addressing data scarcity in phenotypes classification tasks. We focus on Variational Autoencoders (VAEs), 
Generative Adversarial Networks (GANs), and diffusion models (DDPM/DDIM), assessing their ability to balance realism and diversity in high-dimensional tabular datasets. First, we adapt quality metrics for gene expression and introduce a knowledge-based self-attention module within GANs (AttGAN) to improve the fidelity-diversity trade-off. A main contribution is boosting classification performance using minimal real samples augmented with synthetic data. Secondly, another contribution was the first adaptation of diffusion models to transcriptomic data, demonstrating competitiveness with VAEs and GANs. We also introduce an interpolation analysis bringing perspectives on data diversity and the identification of biomarkers. Finally, we present GMDA (Generative Modeling with Density Alignment), a resource-efficient alternative to GANs that balances 
realism and diversity by aligning locally real and synthetic sample densities. This framework allows controlled exploration of instance space, stable training, and frugality across datasets. Ultimately, this thesis provides comprehensive insights and methodologies to advance synthetic transcriptomics and tabular data generation.
  • Date : mardi 04/02/2025, 14h00
  • Lieu : Amphithéâtre du bâtiment 660 au laboratoire LISN (rue René Thom, 91190 Gif-sur-Yvette). La séance est également diffusée en ligne, via le lien : https://inria.webex.com/inria/j.php?MTID=m02de2ff40711f02b6b3b0f41891256ba
  • Doctorante : Alice LACAN, Université d’Évry, Université Paris Saclay, IBISC équipe AROBAS
  • Direction de thèse : Blaise HANCZAR (PR Univ. Évry, IBISC équipe AROBAS), Michèle SEBAG (DR CNRS, Paris-Saclay laboratoire LISN équipe TAU)
WP to LinkedIn Auto Publish Powered By : XYZScripts.com