- Jean-François Bonastre, Professeur, Avignon Université, Laboratoire Informatique d’Avignon (Directeur de thèse)
- Martine Adda-Decker, Directrice de Recherche, Université Paris 3 Sorbonne Nouvelle et Laboratoire de Phonétique et Phonologie (Rapporteuse)
- Julien Pinquier, Maître de Conférence, Université Toulouse III – Paul Sabatier, Institut de Recherche en Informatique de Toulouse (Rapporteur)
- Christine Meunier, Directrice de Recherche, Laboratoire Parole et Langage, Aix-Marseille Université (Examinatrice)
Résumé : Lors d’une enquête de police ou d’un procès pénal, il arrive que des enregistrements de voix soient prélevés en vue d’être comparés à la voix des personnes suspectes. Bien souvent, les enregistrements prélevés — appelés traces — proviennent d’écoutes téléphoniques, d’appels aux services de secours ou bien de messages vocaux. Les enregistrements des personnes suspectes — appelés pièces de comparaison — proviennent généralement des services de police notamment par prélèvement de voix. Du fait que les traces et pièces de comparaison n’ont pas été réalisées dans les mêmes conditions et que les conditions d’enregistrement de la trace sont souvent peu connues voire inconnues, la variabilité entre les enregistrements à comparer n’est pas quantifiable. De nombreux facteurs entrent en jeu et concernent aussi bien les fichiers audios à comparer, le contenu linguistique, l’environnement d’environnement que le(s) locuteur(s).
Les pratiques de comparaison de voix ont évolué à travers l’histoire sans pour autant qu’elles ne répondent à un cadre scientifique ainsi que préconisé par les normes Frye et Daubert. Cela a eu pour conséquence une mise en doute de la fiabilité des expertises vocales (affaire Trayvon Martin) d’une part ; et l’usage de pratiques fallacieuses (affaire Élodie Kulik) pouvant mener à des erreurs judiciaires d’autre part. De nos jours, le Service national de police scientifique (SNPS) et l’Institut de recherche criminelle de la Gendarmerie nationale (IRCGN) ont établi des protocoles qualité pour assurer que leurs expertises reposent sur la littérature scientifique. L’objectif de cette thèse est de définir un cadre scientifique où la fiabilité des résultats d’une comparaison de voix est connue. Pour ce faire, nous travaillons sur trois points : l’influence de certains facteurs sur la performance d’une comparaison de voix, la perception humaine de l’identité d’un locuteur, et la caractérisation des voix.
Le premier point que nous abordons est l’influence de certains facteurs sur la performance d’une comparaison de voix. Nous étudions ces facteurs individuellement puis en combinaison avec un autre facteur. Les résultats obtenus montrent que certains facteurs sont plus influents sur la performance que d’autres. Cependant, une variabilité s’applique au niveau des locuteurs. En effet, les facteurs étudiés n’affectent pas la performance de la même manière chez tous les locuteurs.
Dans un second temps, nous étudions la perception humaine des locuteurs. Pour cela, nous avons mis en place une expérience perceptive de regroupement d’enregistrements en locuteurs. Pour répondre à la tâche, nous avons défini une mesure de pureté du regroupement. Nous avons également comparé les résultats obtenus avec ceux d’une comparaison de voix automatique. Les résultats ont montré une disparité dans le regroupement en locuteurs notamment liée à la langue maternelle des auditeurs. L’approche automatique obtient de meilleurs résultats que les auditeurs.
Enfin, nous nous intéressons à la caractérisation des voix. Nous avons mis au point un nouveau système utilisant pour détecter le type de phonation, d’abord sur les voyelles pré-pausales, puis l’ensemble des phonèmes voisés. Ce nouveau système utilise PASE+ pour l’extraction de multiples paramètres et un perceptron multi-couches (MLP) pour la classification. Nous avons comparé ce système avec un système plus classique reposant sur l’extraction des Mel-Frequency Cepstral Coefficients (MFCC) et une machine à vecteurs de support (SVM) pour assurer la classification. Les résultats obtenus mettent en évidence la supériorité du système nouvellement créé face au système classique. La généralisation sur l’ensemble des phonèmes voisés a permis de montrer que les locutrices avaient plutôt une voix modale et les locuteurs plutôt une voix non modale.
De manière générale, cette thèse a permis de montrer que la comparaison de voix est un domaine complexe et que les résultats obtenus peuvent être influencés par de nombreux facteurs. La volonté de standardiser les pratiques de comparaison de voix requiert une connaissance approfondie de ces facteurs et de leur intrication. Cependant, dans ce travail de thèse, seule une poignée de facteurs a été étudiée. Il est donc nécessaire de poursuivre les recherches dans cette direction afin de pouvoir standardiser les pratiques de comparaison de voix et garantir des résultats fiables.