Nous sommes heureux d’annoncer le lancement de (https://speechbrain.github.io/), un toolkit tout-en-un liant PyTorch et le traitement automatique de la parole. Basé sur le succès de son prototype PyTorch-Kaldi, nous souhaitons accroitre les fonctionnalités ainsi que l’efficacité de ce projet.
Plus précisément, le but est de créer un outil unique, flexible et surtout facile à prendre en main, qui puisse être utiliser pour rapidement développer des systèmes état de l’art pour la parole. Nous connaissons tous, dans nos sous-domaines respectifs, de nombreux outils éparpillés, plus ou moins complexes (souvent plus que moins), et il est donc d’un intérêt certain de construire un projet unique, capable de réunir et de combler tous les besoins de la communauté. Quelques exemples sont: ASR (end-to-end et DNN-HMM), identification / vérification du locuteur, séparation de la parole, traitement de signaux multi-microphones, apprentissages “self-supervised” et non supervisé, extraction de caractéristiques via GPUs, et autres.
Le projet sera dans un premier temps dirigé par le MILA (via Dr. Ravanelli Mirco, présent à la dernière retraite du LIA), et est actuellement soutenu par Samsung, Dolby ainsi que Nvidia. Le LIA participe également depuis le début à cet outil, via mon implication dans la création et gestion de PyTorch-Kaldi et SpeechBrain. Aussi, il serait bon d’envisager d’étoffer cette collaboration qui pourrait créer de forts liens avec le MILA, tout en permettant de gagner de l’expertise sur le meilleur toolkit de traitement automatique de la parole (évidemment…)!
Facebook (PyTorch), IBM Research, et FluentAI collaborent également à l’aboutissement de ce projet.
Pour tout renseignement, vous pouvez directement venir me voir au C011, ou bien contacter: speechbrainproject@gmail.com