Soutenance de thèse de Paul-Gauthier Noé – 26 avril 2023

Date : 26 avril à 14h30.

Lieu : Centre d’Enseignement et de Recherche en Informatique (auditorium Ada Lovelace).

Le jury sera composé de :

Frédéric Bimbot du CNRS/IRISA (Rennes),
Daniel Ramos de l’Université autonome de Madrid,
Isabel Trancoso de l’Université de Lisbonne,
David Lovell de la Queensland University of Technology (Brisbane),
Junichi Yamagishi de l’Institut national d’informatique (Tokyo),
Pierre-Michel Bousquet et Corinne Fredouille de l’Université d’Avignon,
Jean-François Bonastre et Driss Matrouf de l’Université d’Avignon, les deux superviseurs.

Titre : Représentation des preuves pour la confidentialité des attributs : mise à jour bayésienne, preuves compositionnelles et calibration.

Résumé : La confidentialité des attributs dans la technologie multimédia vise à masquer seulement une ou quelques caractéristiques personnelles, ou attributs, d’un individu plutôt que l’identité complète. À titre d’exemples, ces attributs peuvent être le sexe, la nationalité ou l’état de santé de l’individu.

Lorsque l’attribut à cacher est discret avec un nombre fini de valeurs possibles, la croyance de l’attaquant concernant l’attribut est représentée par une distribution de probabilité discrète sur l’ensemble des valeurs possibles. La règle de Bayes est connue comme un paradigme d’acquisition d’information et montre comment la fonction de vraisemblance modifie la croyance antérieure en une croyance postérieure.

Dans le cas binaire, c’est-à-dire lorsque seules deux valeurs sont possibles pour l’attribut, la fonction de vraisemblance peut être exprimée sous forme de Rapport de Vraisemblance Logarithmique (LLR). Cela est connu comme le poids des preuves et est considéré comme un bon candidat pour indiquer quelle hypothèse les données soutiennent et à quel point. La règle de Bayes peut être formulée comme une somme entre le LLR et le logarithme du rapport des probabilités antérieures, dissociant ainsi la croyance personnelle initiale et les preuves fournies par les données.

Cette thèse propose de représenter les informations sensibles divulguées par les données par une fonction de vraisemblance. Dans le cas binaire, le LLR est un bon candidat pour exprimer la fonction de vraisemblance. Cependant, cette forme attrayante de la règle de Bayes ne peut pas être généralisée directement aux cas où plus de deux hypothèses sont possibles. Afin de contourner cette difficulté, cette thèse propose de traiter les distributions de probabilité discrètes et les fonctions de vraisemblance comme des données compositionnelles. L’espace d’échantillonnage des données compositionnelles est un simplexe sur lequel une structure d’espace vectoriel euclidien, connue sous le nom de géométrie d’Aitchison, peut être définie. Avec la représentation par coordonnées donnée par l’approche Isometric-Log-Ratio (ILR), la règle de Bayes est la translation de la distribution antérieure par la fonction de vraisemblance. Dans cet espace, la fonction de vraisemblance – sous forme d’une transformation ILR du vecteur de vraisemblance (ILRL) – est considérée dans cette thèse comme les multiples hypothèses et l’extension multidimensionnelle du LLR. La norme du ILRL est la force des preuves et mesure la distance entre la distribution antérieure et la distribution postérieure. Cela peut être considéré comme une mesure de l’information divulguée par les données. Cette mesure de l’information est appelée information des preuves.

La confidentialité parfaite – venant de la confidentialité parfaite de Claude Shannon – est atteinte lorsque la croyance de l’attaquant ne change pas lors de l’observation des données : ses probabilités postérieures restent égales à ses probabilités antérieures. En d’autres termes, nous voulons que les données ne fournissent aucune preuve sur la valeur que prend l’attribut. Cette idée – également connue sous le nom de zéro-preuve – est théoriquement atteinte lorsque le LLR est nul dans un contexte binaire, et par extension lorsque le ILRL est le vecteur nul dans un cas non binaire correspondant à aucune force de preuve.

L’information – contenue dans une observation – concernant un attribut, est représentée par un ILRL. Cependant, pour représenter correctement l’information, les ILRL doivent être calibrés. Le concept de calibration a été principalement discuté pour les probabilités mais peut s’appliquer aux fonctions de vraisemblance. L’idempotence des LLRs calibrés et ses contraintes sur les distributions des LLRs distribués normalement sont des propriétés bien connues. Dans cette thèse, ces propriétés sont généralisées à l’ILRL pour des applications multi-hypothèses.

Sur la base de ces propriétés et de la nature compositionnelle de la fonction de vraisemblance, une nouvelle approche d’analyse discriminante est proposée. Tout d’abord, pour des applications binaires, l’analyse discriminante proposée cartographie les vecteurs de caractéristiques d’entrée dans un espace où la composante discriminante forme un LLR calibré. La cartographie est apprise via Normalizing Flow (NF), une cascade de réseaux neuronaux inversibles.

Cette analyse discriminante peut être utilisée pour la reconnaissance de formes standard mais aussi à des fins de confidentialité. Comme la cartographie est inversible, le LLR peut être mis à zéro – ce qui est conforme à la formulation de zéro-preuve de la confidentialité – et les données peuvent ensuite être remises dans l’espace des caractéristiques. Cette stratégie de protection est testée sur le masquage du sexe du locuteur dans des plongements de locuteurs basés sur des réseaux neuronaux. Les plongements protégés résultants sont testés pour la vérification automatique des locuteurs (ASV) et pour des applications de conversion vocale.

Étant donné que les propriétés du LLR s’étendent naturellement à l’ILRL grâce à la géométrie d’Aitchison du simplexe, l’analyse discriminante proposée est facilement généralisée aux cas où plus de deux classes, ou hypothèses, sont impliquées. Nous appelons cette nouvelle approche l’Analyse Discriminante Compositionnelle (CDA). Elle cartographie les données dans un espace où les composants discriminants forment des fonctions de vraisemblance calibrées exprimées par les ILRL.

La famille de transformations inversibles fournies par le NF peut être utilisée pour apprendre un mapping de calibration pour le LLR. Cela est brièvement discuté à la fin de cette thèse. Bien que ce travail soit présenté d’abord dans le contexte de la préservation de la vie privée, nous croyons que cela ouvre plusieurs directions de recherche dans la reconnaissance de formes, la calibration de probabilités et de vraisemblances pour des applications multi-classes, et l’apprentissage d’une représentation interprétable de l’information.