Soutenance de thèse – Jarod Duret – 27/03/2025

25 mars 2025

Titre: Traduction de la parole vers la parole expressive La soutenance aura lieu le jeudi 27 mars à 13h15 dans l’amphithéâtre Blaise situé dans le batiment du CERI. Cette soutenance se déroulera en français. Abstract :Cette thèse explore la préservation de l’expressivité dans la traduction automatique parole vers parole (speech-to-speech translation — S2ST), sans recours au texte en tant que représentation intermédiaire. L’objectif est de développer un système capable de transférer non seulement le contenu linguistique, mais également les caractéristiques émotionnelles et expressives de l’énoncé source vers la langue cible.L’approche développée s’articule autour de deux composantes. Premièrement, l’utilisation d’unités discrètes de parole, extraites de modèles auto-supervisés, permettant de capturer efficacement le contenu phonétique. Deuxièmement, un encodeur multilingue d’émotions, ayant pour objectif d’extraire des caractéristiques expressives indépendantes de la langue. Ces représentations sont ensuite intégrées dans le processus de synthèse vocale afin de conditionner la génération de celle-ci. Jury :Anthony Larcher, PR à LIUM, Le Mans Université, RapporteurDamien Lolive, PR à IRISA, Université de Vannes, RapporteurLoïc Barrault, Docteur à Meta AI, ExaminateurFethi Bougares, Docteur à Elyadata, ExaminateurMarie Tahon, PR à LIUM, Le Mans Université, ExaminatriceMarcely Zanon-Boito, Docteur à NAVER LABS EUROPE, ExaminatriceYannick Estève, PR à LIA, Avignon Université, Directeur de thèseTitouan Plus d'infos

Séminaire SLG – Yanis Labrak – 27/03/2025

17 mars 2025

La prochaine réunion de l’équipe SLG aura lieu le jeudi 27 Mars prochain, en salle S4 de 12h00 à 13h00. Title: Text-Speech Language Models with Improved Cross-Modal Transfer by Aligning Abstraction LevelsAbstract: Text-Speech Language Models (TSLMs), language models trained to jointly process and generate text and speech, aim to enable cross-modal knowledge transfer to overcome the scaling limitations of unimodal speech LMs. The predominant approach to TSLM training expands the vocabulary of a pre-trained text LM by appending new embeddings and linear projections for speech, followed by fine-tuning on speech data. We hypothesize that this method limits cross-modal transfer by neglecting feature compositionality, preventing text-learned functions from being fully leveraged at appropriate abstraction levels. To address this, we propose augmenting vocabulary expansion with modules that better align abstraction levels between speech and text across the model’s layers. Representation analyses and improved multimodal performance suggest that our method enhances cross-modal transfer, even surpassing or rivaling state-of-the-art TSLMs trained using orders of magnitude more compute.  

Séminaire CORNET – Giuseppe Di Molfetta – 10/03/2025

6 mars 2025

Dans le cadre de séminaires de l’équipe CORNET,  nous aurons le plaisird’accueillir M Giuseppe DI MOLFETTA ce lundi 10/03 à 12h00  Salle 6 CERI Titre: Quantum Computing : a gentle introduction Résumé : A short, self-consistent one-hour seminar to introduce quantumcomputing and some simple applications in algorithmics in a non-formalway. No pre-requisites required, the presentation will cater for apotentially heterogeneous audience.