Soutenance de thèse de Dalia HAREB

Dalia HAREB, soutiendra sa thèse le vendredi 12 décembre 2025 à 10h dans la salle 007 du laboratoire i3S (Les Algorithmes, bât. Euclide B).

La thèse intitulée « Vision Neuromorphique Combinant Événements et Images » a été réalisée dans le pôle SPARKS, sous la direction de Jean Martinet.

La présentation sera en anglais.

Résumé :

L’intégration des machines avancées dans la vie quotidienne devient progressivement indispensable. Un élément clé de cette intégration réside dans la capacité de ces systèmes à percevoir, comprendre et naviguer de manière autonome. Parmi les modalités sensorielles, la vision occupe une place centrale, offrant une représentation riche et détaillée du monde environnant. Déployer la perception visuelle dans des systèmes autonomes tels que robots, drones ou véhicules impose cependant un compromis entre précision, consommation énergétique et latence. Les caméras classiques à trames, combinées à l’apprentissage profond, atteignent de bonnes performances mais présentent des limitations : faible résolution temporelle, flou de mouvement, saturation en forte luminosité et forte consommation de ressources.
Cette thèse propose de surmonter ces limites en combinant deux concepts inspirés biologiquement : i) les réseaux de neurones à impulsions (SNN) et ii) les caméras à événements. Les SNN utilisent des impulsions asynchrones, offrant une alternative économe en énergie aux réseaux classiques. Les caméras à événements, inspirées de la rétine biologique, capturent les variations de luminosité de manière asynchrone avec précision microseconde, grande plage dynamique et faible consommation. Cependant, en plus du manque d’informations de texture, essentielles pour l’identification des objets, les méthodes de vision par ordinateur restent optimisées pour des données denses basées sur des trames. Pour combler cette lacune, nous proposons de fusionner les deux caméras, afin de tirer parti de leurs complémentarités. Nous explorons cette fusion pour la segmentation sémantique. Les flux d’événements sont convertis en pseudo-trames traitées par un SNN. Cette approche dépasse les méthodes existantes mais reste limitée. Pour l’améliorer, nous introduisons la distillation des connaissances: un réseau neuronal conventionnel entraîné sur des images fusionnées avec des événements transfère les caractéristiques apprises au SNN traitant les événements. Cette stratégie résout efficacement le flou et l’éblouissement inhérents aux caméras à trames. Ensuite, nous exploitons la densité d’événements comme une forme d’attention visuelle, en concentrant le calcul sur les régions de trames présentant une forte activité événementielle pour améliorer l’efficacité et réduire la latence. Enfin, nous proposons un cadre de segmentation inter-trames qui tire parti de la haute résolution temporelle des événements. En exploitant les événements déclenchés entre les trames, nous capturons le mouvement sur différents intervalles temporels et l’interpolons avec les segmentations basées sur les trames. Cette thèse démontre que la fusion de la vision basée sur les événements et sur les trames avec des architectures SNN permet une perception performante, efficace et à faible latence, ouvrant la voie à des pipelines neuromorphiques pratiques pour les systèmes autonomes du futur.