Apprentissage auto-supervisé efficient pour des technologies de la parole inclusives et innovantes
L’apprentissage auto-supervisé (Self-Supervised Learning ou SSL) a émergé récemment comme une méthode d’intelligence artificielle (IA) incroyablement prometteuse. Grâce à cette méthode, les colossales masses de données non annotées qui sont accessibles peuvent être utilisées par des systèmes d’IA pour dépasser les performances connues jusque-là. En particulier, le domaine du traitement automatique de la parole (TAP) se voit rapidement transformé par l’arrivée du SSL grâce, notamment, aux investissements industriels massifs et l’explosion des données, tous deux mis à disposition par une poignée d’entreprises. Les gains en performance sont impressionnants, mais la complexité des modèles SSL impose aux chercheurs et industriels du secteur de se doter d’une capacité de calcul hors normes réduisant drastiquement à la fois l’accès à la recherche fondamentale sur cette thématique, ainsi que son déploiement dans des produits du quotidien. Par exemple, une grande partie des travaux utilisant un modèle SSL pour le TAP reposent sur un système entretenu et mis à disposition par une seule et même entreprise (wav2vec 2.0). L’intégralité du cycle de vie de la technologie, en partant de ses fondations théoriques jusqu’à son déploiement pratique, en passant par l’analyse des aspects sociétaux, dépend donc uniquement d’institutions ayant les moyens physiques et financiers de soutenir l’intensité du développement de cette technique. Le projet E-SSL vise à redonner à la communauté scientifique et aux industriels du TAP le contrôle nécessaire sur l’apprentissage auto-supervisé afin d’assurer son évolution et un déploiement égalitaire en facilitant à la fois la recherche académique et son transfert vers l’industrie. En pratique, E-SSL intègre de façon holistique trois problèmes clés de l’apprentissage auto-supervisé pour le TAP incluant son efficience computationnelle effective, son impact sociétal ainsi que la faisabilité de son extension aux produits de demain.Le projet BRUEL concerne l’évaluation/certification des systèmes d’identification par la voix face aux attaques adverses.
En effet, les systèmes de reconnaissance automatique du locuteur sont vulnérables non seulement à la parole produite artificiellement par synthèse vocale, mais aussi à d’autres formes d’attaques telles que la conversion d’identité vocale et la relecture. Les artefacts créés lors de la création ou la manipulation de ces attaques frauduleuses constituent les marques laissées dans le signal par les algorithmes de synthèse vocale permettant ainL’apprentissage auto-supervisé (Self-Supervised Learning ou SSL) a émergé récemment comme une méthode d’intelligence artificielle (IA) incroyablement prometteuse. Grâce à cette méthode, les colossales masses de données non annotées qui sont accessibles peuvent être utilisées par des systèmes d’IA pour dépasser les performances connues jusque-là. En particulier, le domaine du traitement automatique de la parole (TAP) se voit rapidement transformé par l’arrivée du SSL grâce, notamment, aux investissements industriels massifs et l’explosion des données, tous deux mis à disposition par une poignée d’entreprises. Les gains en performance sont impressionnants, mais la complexité des modèles SSL impose aux chercheurs et industriels du secteur de se doter d’une capacité de calcul hors normes réduisant drastiquement à la fois l’accès à la recherche fondamentale sur cette thématique, ainsi que son déploiement dans des produits du quotidien. Par exemple, une grande partie des travaux utilisant un modèle SSL pour le TAP reposent sur un système entretenu et mis à disposition par une seule et même entreprise (wav2vec 2.0). L’intégralité du cycle de vie de la technologie, en partant de ses fondations théoriques jusqu’à son déploiement pratique, en passant par l’analyse des aspects sociétaux, dépend donc uniquement d’institutions ayant les moyens physiques et financiers de soutenir l’intensité du développement de cette technique. Le projet E-SSL vise à redonner à la communauté scientifique et aux industriels du TAP le contrôle nécessaire sur l’apprentissage auto-supervisé afin d’assurer son évolution et un déploiement égalitaire en facilitant à la fois la recherche académique et son transfert vers l’industrie. En pratique, E-SSL intègre de façon holistique trois problèmes clés de l’apprentissage auto-supervisé pour le TAP incluant son efficience computationnelle effective, son impact sociétal ainsi que la faisabilité de son extension aux produits de demain.si de distinguer la voix réelle originale d’une voix usurpée.
Dans ces conditions, la détection de l’usurpation d’identité requiert d’évaluer les contre-mesures d’usurpation d’identité en même temps que les systèmes de reconnaissance du locuteur. Le projet BRUEL ambitionne de proposer la première méthodologie d’évaluation/certification des systèmes d’identification par la voix basée sur une approche Critères Communs.
Liste des partenaires :
- Université Paris Dauphine (LAMSADE)
- LIA Laboratoire d’Informatique d’Avignon