Alice LACAN soutient sa thèse de doctorat le mardi 4 février 2025 à 14h, amphithéâtre du bâtiment 660 laboratoire LISN, Paris-Saclay.
La séance est également diffusée en ligne, via le lien : https://inria.webex.com/inria/j.php?MTID=m02de2ff40711f02b6b3b0f41891256ba
et est en langue anglaise.
Titre: Génération de Données Transcriptomiques à l’aide de Modèles Génératifs Profonds.
Résumé
Cette thèse explore l’utilisation de modèles génératifs profonds pour améliorer la génération de données transcriptomiques, répondant aux défis de rareté des données dans la classification de phénotypes de cancers. Nous évaluons la capacité des Autoencodeurs Variationnels (VAEs), des Réseaux Antagonistes Génératifs (GANs) et des modèles de diffusion (DDPM/DDIM) à équilibrer réalisme et diversité sur des données tabulaires de haute dimension. Nous avons d’abord adapté des métriques d’évaluation, supervisées et non supervisées. Nous avons ensuite intégré un module d’auto-attention basé sur les connaissances du domaine dans notre GAN (AttGAN), améliorant le compromis fidélité-diversité. Une contribution notable est l’augmentation de la performance de classification avec un nombre minimal de vraies données augmenté de données générées. Nous proposons également une première adaptation des modèles de diffusion pour l’expression des gènes, ainsi qu’une méthodologie d’analyse d’interpolation offrant des perspectives sur la diversité des données et l’identification de biomarqueurs. Enfin, nous présentons GMDA (Modélisation Générative avec Alignement de Densités), un modèle génératif alternatif aux GANs, permettant une exploration contrôlée de l’espace des données, une stabilité et une architecture frugale. Cette thèse offre ainsi des perspectives pour la génération de données transcriptomiques et tabulaires au sens large.
Composition du jury de thèse/Composition of the doctoral thesis jury
Membre du jury | Titre | Lieu d’exercice | Fonction dans le jury |
---|---|---|---|
Magali BERLAND | Ingénieure de Recherche INRAE | Université Paris-Saclay | Examinatrice |
Yann CHEVALEYRE | Professeur des Universités | LAMSADE, Université Paris Dauphine-PSL | Rapporteur & Examinateur |
Blaise HANCZAR | Professeur des Universités | Université Évry Paris-Saclay | Directeur de thèse |
Alexander F. PALAZZO | Professeur | Département de Biochimie, Université de Toronto | Examinateur |
Michèle SEBAG | Directrice de Recherche CNRS | LISN, Université Paris-Saclay | Co-directrice de thèse |
Marc SEBBAN | Professeur des Universités | LabHC, Université de Saint-Etienne | Examinateur |
Nataliya SOKOLOVSKA | Professeure des Universités | LCQB, Sorbonne Université | Rapporteure & Examinatrice |
Alice LACAN defends her doctoral thesis on Tuesday the 4th of February, 2025 at 2:00 pm (Paris time), in the amphitheater of building 660 at LISN laboratory. The thesis defense may be followed online at : https://inria.webex.com/inria/j.php?MTID=m02de2ff40711f02b6b3b0f41891256ba .The defense will be conducted in English
Title: Transcriptomics Data Generation with Deep Generative Models.
Abstract:
This thesis explores deep generative models to improve synthetic transcriptomics data generation, addressing data scarcity in phenotypes classification tasks. We focus on Variational Autoencoders (VAEs),
Generative Adversarial Networks (GANs), and diffusion models (DDPM/DDIM), assessing their ability to balance realism and diversity in high-dimensional tabular datasets. First, we adapt quality metrics for gene expression and introduce a knowledge-based self-attention module within GANs (AttGAN) to improve the fidelity-diversity trade-off. A main contribution is boosting classification performance using minimal real samples augmented with synthetic data. Secondly, another contribution was the first adaptation of diffusion models to transcriptomic data, demonstrating competitiveness with VAEs and GANs. We also introduce an interpolation analysis bringing perspectives on data diversity and the identification of biomarkers. Finally, we present GMDA (Generative Modeling with Density Alignment), a resource-efficient alternative to GANs that balances
realism and diversity by aligning locally real and synthetic sample densities. This framework allows controlled exploration of instance space, stable training, and frugality across datasets. Ultimately, this thesis provides comprehensive insights and methodologies to advance synthetic transcriptomics and tabular data generation.
- Date : mardi 04/02/2025, 14h00
- Lieu : Amphithéâtre du bâtiment 660 au laboratoire LISN (rue René Thom, 91190 Gif-sur-Yvette). La séance est également diffusée en ligne, via le lien : https://inria.webex.com/inria/j.php?MTID=m02de2ff40711f02b6b3b0f41891256ba
- Doctorante : Alice LACAN, Université d’Évry, Université Paris Saclay, IBISC équipe AROBAS
- Direction de thèse : Blaise HANCZAR (PR Univ. Évry, IBISC équipe AROBAS), Michèle SEBAG (DR CNRS, Paris-Saclay laboratoire LISN équipe TAU)