Accéder directement au contenu Accéder directement à la navigation
Thèse

Variable selection and outlier detection viamixed integer programming

Résumé : Deux points clés de l’apprentissage machine et des statistiques modernes sont la modélisation parcimonieuse et la robustesse. La modélisation parcimonieuse permet la construction de modèles statistiques plus performant et économes en ressources. Dans un même temps, les modèles statistiques doivent être robustes ; ils doivent être performants lorsque les données sont bruitées afin de permettre de prendre des décisions fiables. Si la parcimonie et la robustesse sont souvent étroitement liées, la relation qui les unit et les compromis qui en découlent ne sont pas toujours explicitement formulés. Par exemple, des pénalités convexes comme celle du Lasso sont souvent motivés par des considérations de sélection de variable, mais le succès de ces méthodes est aussi dû à leur robustesse. Dans cette thèse, nous travaillons à l’amélioration de la qualité des estimateurs dans le cadre de l’apprentissage supervisé simultanément en termes de robustesse et de parcimonie. Nous proposons des méthodes qui réalisent simultanément les deux tâches de sélection de variables et de détection de points aberrants. Ce problème est formulé dans différents contextes sous la forme de problèmes d’optimisation utilisant la programmation mixte en nombres entiers (MIP), dont la résolution bénéficie de l’amélioration significative des solveurs MIP. Nous nous concentrons d’abord sur la proposition d’une méthode robuste et peu répandue pour la régression linéaire. Pour résoudre le problème exactement, nous le reformulons en un problème de programmation mixte en nombres entiers. Ensuite, afin de réduire le temps de calcul, nous proposons un premier algorithme discret fournissant une solution quasi optimale en un temps très court. La solution obtenue est utilisée comme un démarrage à chaud pour le solveur MIP. Cependant, la solution proposée souffre de surapprentissage pour de faibles valeurs du rapport signal/bruit. Afin de corriger ce surapprentissage, nous utilisons une régularisation pénalisée pour améliorer ses performances lorsque le bruit est élevé. Nous proposons également un algorithme discret du premier ordre pour résoudre l’approche régularisée. Enfin, nous proposons une méthode de classification robuste parcimonieuse basée sur le classificateur classique séparateur à vaste marge (SVM) associé à la fonction de perte «charnière». Le problème obtenu est là aussi formulé comme un programme mixte en nombres entiers et s’avère efficace sur des ensembles de données réelles et synthétiques.
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-03267193
Contributeur : Abes Star :  Contact
Soumis le : mardi 22 juin 2021 - 13:28:11
Dernière modification le : mercredi 23 juin 2021 - 03:35:48

Fichier

MahdiJAMMAL.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-03267193, version 1

Citation

Mahdi Jammal. Variable selection and outlier detection viamixed integer programming. Artificial Intelligence [cs.AI]. Normandie Université; Université libanaise, 2020. English. ⟨NNT : 2020NORMIR28⟩. ⟨tel-03267193⟩

Partager

Métriques

Consultations de la notice

38

Téléchargements de fichiers

42