Le prochain séminaire de l’équipe SLG aura lieu le 15/03/2024, entre 10h et 11h.
Nous recevrons Antoine Caubrière, de l’entreprise Orange, qui présentera ses travaux récents.
Titre : Représentation de la parole multilingue par apprentissage auto-supervisé dans un contexte exclusivement sub-saharien.
Résumé : Le groupe Orange est présent dans plus d’une dizaine de pays d’Afrique subsaharienne avec une ambition d’avoir des offres en phase avec les besoins des clients sur cette zone. Pour fournir des services localisés et accessibles aux personnes peu digitalisées et peu lettrées, Orange mise sur le développement d’agents conversationnels vocaux, permettant d’informer et d’accompagner ses clients et collaborateurs. La mise en œuvre d’un tel service nécessite en premier lieu une brique technologique de reconnaissance et compréhension de la parole. La diversité linguistique forte du continent africain associée aux problématiques de faible volume de données annotées disponible, constitue un des chalenges de la mise en œuvre de technologie de traitement de la parole pour ces langues.
Une des solutions peut être l’exploitation des techniques d’apprentissage par auto-supervision. Exploiter cet apprentissage permet l’entraînement d’un extracteur de représentation riche de la parole. Ce type d’approche utilise une grande quantité de données non transcrites pour le pré-entrainement d’un modèle avant son adaptation à des tâches finales. De nombreux modèles auto-supervisés sont partagés au sein de la communauté scientifique, mais malheureusement les langues sub-sahariennes restent fortement sous-représentées dans leurs jeux d’apprentissage multilingues (MMS, XLSR…).
Fort de ce constat, nos travaux récents se sont concentrés sur l’élaboration d’un système auto-supervisé exclusivement sur des données de langues sub-saharienne. Nous avons capté en ligne des données diffusées en 21 langues et variantes permettant l’apprentissage auto-supervisées de représentation de la parole. En se basant sur la sous partie sub-saharienne du corpus FLEURS, nous dérivons les modèles obtenus sur la tâche de reconnaissance de la parole.