Speaker identity cloning and protection
Grâce aux avancées récentes en traitement automatique de la parole et du langage, les humains sont de plus en plus fréquemment en position d’interagir par la voix avec des agents artificiels intelligents. Le nombre d’applications utilisant ainsi la voix est en forte expansion et ce mode d’interaction est de plus en plus accepté. De nos jours, les systèmes vocaux peuvent proposer des messages synthétisés d’une telle qualité qu’il est difficile de les discerner de messages enregistrés par un humain. Ils sont également capables de comprendre des requêtes exprimées en langage naturel, toutefois en restant dans leur cadre applicatif précis. Enfin, ces systèmes reconnaissent ou identifient fréquemment leurs utilisateurs par leur voix.
Ce projet s’intéresse à la notion d’identité vocale. Cela concerne en premier lieu la génération de voix et la reconnaissance du locuteur. La génération de voix correspond à l’ensemble des modules des interfaces vocales permettant de produire de extraits de parole qui sonnent comme une voix naturelle donnée. Ces modules incluent des technologies de synthèse vocale et de conversion de voix, les deux pouvant produire des échantillon de voix correspondant à l’identité vocale d’une personne ciblée. La reconnaissance du locuteur relève de la biométrie vocale et consiste à déterminer ou à vérifier l’identité d’une personne par sa voix. La génération de voix et la reconnaissance du locuteur sont deux technologies pouvant générer des conflits, entre elles ou avec d’autres aspects des interfaces vocales. La génération de voix cherche à produire artificiellement de la parole sonnant comme « naturelle » et produite par une personne donnée quand la reconnaissance du locuteur cherche à vérifier l’authenticité d’un message vocal et l’identité de la personne qui l’a produit. Un système de reconnaissance du locuteur peut être employé pour entrainer un système de génération de voix ce qui a pour conséquence que la voix synthétique produite par le système final peut tromper ledit système de biométrie vocale… Un second conflit apparait quand la reconnaissance du locuteur est employée aà l’insu du locuteur. Pour se protéger de cela, une approche « d’anonymisation vocale », qui concerne à la fois des aspects de reconnaissance du locuteur et de génération de voix doit être développée pour supprimer l’identité d’un locuteur d’un message vocal tout en préservant a minima son contenu linguistique mais aussi ses aspects naturels, son émotivité, sa « couleur' »… Les trois aspects, génération, reconnaissance d’identité et anonymisation sont étroitement liés et doivent être pris en compte conjointement.
VoicePersonae vise à combler le déficit technologique entre les différents aspects de la notion « d’identité vocale » présentés précédemment. Ce projet propose (a) de modéliser « l’identité vocale » (b) d’améliorer la sécurité et la robustesse des systèmes de biométrie vocale (c) de protéger la vie privée des utilisateurs. VoicePersonae va réunir des approches encore disparates de génération multi-locuteurs de voix, alliant la synthèse et la transformation de voix. Pour cela, VoicePersonae exploitera les dernières technologies de reconnaissance du locuteur. VoicePersonae renforcera la sécurité et la robustesse de la biométrie vocale en exploitant les résultats obtenus pour contrer les attaques utilisant de la génération de voix. Cela sera réalisé en estimant que les fraudeurs connaissent les technologies que nous employons, en employant la finesse de la modélisation de « l’identité vocale » développée dans ce projet. Enfin, VoicePersonae proposera la première solution explicite d’anonymisation vocale pour protéger les données personnelles. Pour stimuler ce champs de « identité vocale » et plus précisément la tâche d’anonymisation vocale, VoicePersonae organisera le premier défis ouvert sur l’anonymisation et la re-identification de la parole.
Liste des partenaires :
- Eurecom
- NII National Institute of Informatics (Japon)
- LIA Laboratoire d’Informatique d’Avignon