Victoria BOURGEAIS soutient sa thèse de doctorat le vendredi 14 octobre 2022: "Interprétation de l'apprentissage profond pour la prédiction de phénotypes à partir de données d'expression de gènes"

Victoria BOURGEAIS soutient sa thèse de doctorat le vendredi 14 octobre 2022 à 14h. La soutenance se déroule au Petit Amphithéatre du site IBGBI. Il est aussi possible d’assister à la soutenance via Collaborate : https://eu.bbcollab.com/guest/fcc5ad8b8ae74fefb31ac6c918ee5d81 Dans ce cas, prière de garder les micros et caméras fermés durant la présentation et les échanges avec le jury.

Titre : Interprétation de l’apprentissage profond pour la prédiction de phénotypes à partir de données d’expression de gènes

Résumé:

L’apprentissage profond est une avancée majeure de l’intelligence artificielle de ces dernières années. Ses domaines de prédilection sont principalement l’analyse d’image et le traitement du langage naturel. Un des futurs enjeux majeurs de cette approche est son application à la médecine de précision. Cette nouvelle forme de médecine permettra de personnaliser chaque étape du parcours de soin d’un patient en fonction de ses caractéristiques, notamment moléculaires telles que les données d’expression de gènes qui informent de l’état cellulaire d’un patient. Les modèles d’apprentissage profond sont néanmoins considérés comme des boîtes noires où aucune explication n’est fournie à la prédiction calculée. L’Union Européenne a adopté récemment un texte imposant aux algorithmes d’apprentissage automatique d’être capables d’expliquer leurs décisions aux utilisateurs. Il y a donc un réel besoin de rendre les réseaux de neurones plus interprétables et cela est particulièrement vrai dans le domaine médical pour différentes raisons. D’une part, il faut s’assurer que le modèle se base sur des représentations fiables des patients et ne se concentre pas sur des artefacts non pertinents présents dans les données d’apprentissage. D’autre part, un réseau de neurones performant pour la prédiction d’un certain phénotype peut avoir identifié une signature dans les données qui pourrait ouvrir sur de nouvelles pistes de recherche.

Dans l’état de l’art actuel, il existe deux approches pour interpréter les réseaux neurones : en créant des modèles qui sont par essence interprétables, ou en ayant recours a posteriori à une méthode tierce dédiée à l’interprétation du réseau de neurones déjà appris. Quelle que soit la méthode choisie, l’explication fournie consiste généralement en l’identification des variables d’entrée et des neurones importants pour la prédiction. Or, dans le cas d’une application sur les données d’expression de gènes, cela n’est pas suffisant, car ces données sont difficilement compréhensibles par l’homme.

Nous proposons ainsi trois nouvelles méthodes originales d’apprentissage profond, interprétables par construction. L’architecture de ces méthodes est définie à partir d’une ou plusieurs bases de connaissances. Un neurone y représente un objet biologique et les connexions entre les neurones correspondent aux relations entre les objets biologiques. Ces méthodes ont été évaluées sur des tâches de diagnostic à partir de jeux de données d’expression de gènes réelles et ont montré leur compétitivité par rapport aux méthodes d’apprentissage automatique de l’état de l’art. Nos modèles fournissent des explications intelligibles composées des neurones les plus importants et des concepts biologiques qui leur sont associés. Cette caractéristique permet aux experts d’utiliser nos outils dans un cadre médical.

Mots clés : données d’expression de gènes, apprentissage profond, médecine de précision, interprétation, connaissances a priori

Composition du jury de thèse

Membre du jury	Titre	Lieu d’exercice	Fonction dans le jury
Antoine CORNUEJOLS	Professeur des Universités	AgroParisTech	Examinateur
Florence D’ALCHE-BUC	Professeure des Universités	Télécom Paris	Examinatrice
Blaise HANCZAR	Professeur des Universités	Université d’Évry, Université Paris-Saclay	Directeur de thèse
Flora JAY	Chargée de Recherche	CNRS	Examinatrice
Grégoire MONTAVON	Chercheur associé	TU Berlin	Rapporteur
Jean-Philippe VERT	Chercheur associé	Mines ParisTech	Rapporteur
Farida ZEHRAOUI	Maîtresse de Conférences	Université d’Évry, Université Paris-Saclay	Co-encadrante & membre invitée

Date : vendredi 14/10/2022, 14h
Lieu : Petit Amphithéatre du site IBGBI [Plan d’accès au format PDF] et soutenance via Collaborate: https://eu.bbcollab.com/guest/fcc5ad8b8ae74fefb31ac6c918ee5d81
Doctorante : Victoria BOURGEAIS, Université d’Évry Université Paris Saclay, IBISC équipe AROB@S
Directeur de thèse : Blaise HANCZAR (PR Univ. Évry, IBISC équipe AROB@S)
Co-encadrante de thèse & Membre invitée: Farida ZEHRAOUI (MCF Univ. Évry, IBISC équipe AROB@S)
Consulter le document de thèse sur HAL