Tina ISSA soutient sa thèse de doctorat le lundi 7 octobre 2024 : « Optimisation multiobjectif et sélection de variables pour l’apprentissage profond » (see English version above)

/, Evénements, Recherche, Soutenance de thèse/Tina ISSA soutient sa thèse de doctorat le lundi 7 octobre 2024 : « Optimisation multiobjectif et sélection de variables pour l’apprentissage profond » (see English version above)

Tina ISSA soutient sa thèse de doctorat le lundi 7 octobre 2024 : « Optimisation multiobjectif et sélection de variables pour l’apprentissage profond » (see English version above)

Tina ISSA soutient sa thèse de doctorat le lundi 7 octobre 2024, 14h. sur le site IBGBI, petit amphithéâtre. La soutenance de thèse est retransmise via Zoom ( https://univ-evry-fr.zoom.us/j/97981925638?pwd=wHI2ysgA03N74gBEt0dDEb3ZPErfXL.1 ). Prière de fermer micro et caméra pendant la retransmission. Il est à noter que la soutenance de thèse s’effectuera en anglais.

Titre: Optimisation multiobjectif et sélection de variables pour l’apprentissage profond

Résumé

Les avancées technologiques ont considérablement impacté l’analyse des données, en particulier avec l’essor du Big Data. L’apprentissage profond a émergé comme une solution puissante pour gérer la complexité et le volume des données. Les modèles profonds utilisent plusieurs niveaux d’abstraction pour extraire des motifs complexes. Leur efficacité a été démontrée dans diverses tâches, notamment la reconnaissance d’images.

Cependant en génomique, les nouvelles techniques de séquençage produisent des quantités massives de données, où le nombre de variables dépasse largement le nombre d’échantillons, donnant lieu à ce qui est couramment appelé « des données de grande dimension et faible taille d’échantillon » (HDLSS). Les méthodes classiques d’apprentissage automatique peinent à gérer ce problème, avec un risque de surapprentissage pouvant conduire à une mauvaise généralisation. L’apprentissage profond atténue ce risque en détectant des variables abstraites à plusieurs niveaux. La sélection de variables est la solution la plus répandue dans la littérature pour faire face à ce problème. Dans la majorité des approches proposées, elle est utilisée comme étape de prétraitement plutôt que directement dans l’étape d’entraînement du modèle. Les méthodes existantes qui intègrent la sélection de variables dans l’étape d’entraînement utilisent une fonction mono-objectif, ce qui peut ne pas fournir des solutions optimales en raison de la nature conflictuelle de la sélection de variables et de la tâche de classification.

L’optimisation multiobjectif dans les modèles profonds permet de prendre en compte simultanément deux objectifs : maximiser les performances du modèle et minimiser le nombre de variables. On recherche ainsi le front de Pareto constitués des solutions où aucun objectif ne peut être amélioré sans détériorer l’autre. L’utilisateur peut par la suite choisir parmi ces solutions en fonction de ses besoins. La combinaison de l’optimisation multiobjectif et de l’apprentissage profond aboutit à des modèles plus efficaces et interprétables. En médecine de précision, par exemple, cette approche aide à développer des modèles qui prédisent la maladie des patients sur la base des données omiques comme les données de mutations. En utilisant l’optimisation multiobjectif, les modèles peuvent identifier un sous-ensemble de mutations suffisant pour prédire la maladie sans surapprentissage.

Le travail présenté dans cette thèse exploite des algorithmes de descente de gradient multiobjectif pour la sélection de variables sans compromettre la puissance prédictive. L’algorithme proposé, appelé BFS, utilise une descente de gradient bi-objectifs pour générer des solutions diversifiées, utilisant deux fonctions objectif : l’entropie croisée comme mesure de performance et le sparse group lasso comme mesure de sélection de variable. Un autre algorithme, nommé AtBFS, étend BFS en intégrant une couche d’attention pour améliorer la sélection de variables. BFS a été validé sur des ensembles de données artificielles et réelles, tandis que AtBFS a été evalué sur des données de mutations somatiques. Les deux méthodes ont montré des résultats prometteurs par rapport aux approches de l’état de l’art.

En résumé, l’intégration de l’optimisation multiobjectif dans l’apprentissage profond pour la sélection de variables permet de traiter la complexité des données HDLSS, offrant un équilibre entre performance et réduction des variables. Cette approche est utile dans des domaines comme la médecine de précision, améliorant ainsi les performances et l’interprétabilité des modèles.

Composition du jury de thèse/Doctoral thesis jury composition

Membre du jury Titre Lieu d’exercice Fonction dans le jury
Éric ANGEL Professeur des Universités Université Évry Paris-Saclay  Directeur de thèse
Cristina BAZGAN Professeure des Universités Université Paris-Dauphine  Rapporteure
Khalid BENABDESLEM Professeur des Universités Université Claude Bernand Lyon 1 Rapporteur
Mustapha LEBBAH Professeur des Universités UVSQ Université Paris-Saclay  Examinateur
Kim Thang NGUYEN Professeur des Universités Université Grenoble-Alpes  Examinateur
Fariza TAHI Professeure des Universités Université Évry Paris-Saclay Examinatrice
Farida ZEHRAOUI Maître de Conférences HDR Université Évry Paris-Saclay Co-encadrante de thèse

Tina ISSA defends her doctoral thesis on Monday October 7, 2024, 2 p.m. on the IBGBI site, small amphithheater. The thesis defence will be broadcast via Zoom ( https://univ-evry-fr.zoom.us/j/97981925638?pwd=wHI2ysgA03N74gBEt0dDEb3ZPErfXL.1 ). Please close your microphone and camera during the broadcast. It should be noted that the thesis will be defended in English.

Title: Multiobjective optimization and feature selection in deep learning

Abstract:

Technological advancements have significantly impacted data analysis, particularly with the rise of Big Data. Deep learning has emerged as a powerful solution for managing the complexity and volume of data. Deep learning models use multiple levels of abstraction to extract complex patterns. Their effectiveness has been demonstrated in various tasks, including image recognition.

However, in genomics, new sequencing techniques produce massive amounts of data where the number of variables far exceeds the number of samples, leading to what is commonly referred to as « high-dimensional, low-sample size » (HDLSS) data. Traditional machine learning methods struggle with this problem, with a risk of overfitting that can lead to poor generalization. Deep learning mitigates this risk by detecting abstract variables at multiple levels. Feature selection is the most widely used solution in the literature to address this problem. Most proposed approaches use it as a preprocessing step rather than directly in the model’s training step. Existing methods that integrate feature selection into the training use a single objective function, which may not provide an optimal solution due to the conflicting nature of feature selection and the classification task.

Multiobjective optimization in deep learning models allows simultaneously considering two objectives: maximizing model performance and minimizing the number of variables. We aim to find the Pareto front consisting of solutions where no objective can be improved without deteriorating the other. The user can then choose among these solutions based on their needs. Combining multiobjective optimization and deep learning results in more efficient and interpretable models. In precision medicine, for example, this approach helps develop models that predict patient disease based on omics data, such as mutation data. Using multiobjective optimization, models can identify a sufficient subset of mutations to predict the disease without overfitting.

The work presented in this thesis exploits multiobjective gradient descent algorithms for feature selection without compromising predictive power. The proposed algorithm, called BFS, uses biobjective gradient descent to generate solutions utilizing two objective functions: cross entropy as a performance measure and sparse group lasso as a feature selection measure. Another algorithm, named AtBFS, extends BFS by integrating an attention layer to improve feature selection. BFS has been validated on artificial and real datasets, while AtBFS has been evaluated on somatic mutation data. Both methods have shown promising results compared to state-of-the-art approaches.

In summary, integrating multiobjective optimization into deep learning for feature selection addresses the complexity of HDLSS data, offering a balance between performance and feature reduction. This approach is useful in fields like precision medicine, thereby improving model performance and interpretability.

  • Date: lundi 07/10/2024, 14h
  • Lieu: Site IBGBI, petit amphithéâtre, 23 Boulevard de France 91000 EVRY-COURCOURONNES
  • Lien zoom de la soutenance de thèse: https://univ-evry-fr.zoom.us/j/97981925638?pwd=wHI2ysgA03N74gBEt0dDEb3ZPErfXL.1
  • Doctorante : Tina ISSA (Université d’Évry, Université Paris Saclay, IBISC équipe AROB@S)
  • Directeur de thèse: Eric ANGEL (PR Univ. Évry, IBISC équipe AROB@S)
  • Co-encadrante de thèse : Farida ZEHRAOUI (MCF HDR Univ. Évry, IBISC équipe AROB@S)

WP to LinkedIn Auto Publish Powered By : XYZScripts.com