Soutenance de thèse d’Imen Ben-Amor – 25/04/2024

15 avril 2024

Lieu: Centre d’Enseignement et de Recherche en Informatique (CERI), Amphi ADA – 339 Chemin des Meinajaries, CERI, 84000 Avignon. You can also attend the defense via video conference, using this link . You can fin the slides here. The jury members are the following: Pr. Tomi KINNUNEN, University of Eastern Finland – RapporteurPr. Alessandro VINCIARELLI, University of Glasgow – RapporteurPr. Tanja SCHULTZ, University Bremen- ExaminatricePr. Didier MEUWLY, Netherlands Forensic Institute, University of Twente- ExaminateurPr. Corinne FREDOUILLE, LIA, Université d’Avignon- ExaminatricePr. JEAN-FRANCOIS BONASTRE, Inria, LIA, Université d’Avignon – Directeur de thèse TITLE: Deep modeling based on voice attributes for explainable speaker recognition. Application in the forensic domain. Abstract:Automatic speaker recognition (ASpR) has been integrated into critical applications, ranging from customised assistant services to security systems and forensic investigations. It aims to automatically determine whether two voice samples originate from the same speaker. These systems primarily rely on complex deep neural networks (DNN) and present their results by a single value. Despite the high performance demonstrated by DNN-based ASpR systems, they struggle to provide transparent insights into the nature of speech representations, its encoding, and its use in decision-making process. This lack of transparency presents significant challenges in addressing ethical and legal Plus d'infos

Séminaire SLG – Antoine Caubrière – 15/03/2024

11 mars 2024

Le prochain séminaire de l’équipe SLG aura lieu le 15/03/2024, entre 10h et 11h. Nous recevrons Antoine Caubrière, de l’entreprise Orange, qui présentera ses travaux récents. Titre : Représentation de la parole multilingue par apprentissage auto-supervisé dans un contexte exclusivement sub-saharien. Résumé : Le groupe Orange est présent dans plus d’une dizaine de pays d’Afrique subsaharienne avec une ambition d’avoir des offres en phase avec les besoins des clients sur cette zone. Pour fournir des services localisés et accessibles aux personnes peu digitalisées et peu lettrées, Orange mise sur le développement d’agents conversationnels vocaux, permettant d’informer et d’accompagner ses clients et collaborateurs. La mise en œuvre d’un tel service nécessite en premier lieu une brique technologique de reconnaissance et compréhension de la parole. La diversité linguistique forte du continent africain associée aux problématiques de faible volume de données annotées disponible, constitue un des chalenges de la mise en œuvre de technologie de traitement de la parole pour ces langues. Une des solutions peut être l’exploitation des techniques d’apprentissage par auto-supervision. Exploiter cet apprentissage permet l’entraînement d’un extracteur de représentation riche de la parole. Ce type d’approche utilise une grande quantité de données non transcrites pour le pré-entrainement d’un modèle avant Plus d'infos

Séminaire SLG – 15/02/2024

13 février 2024

Thibault Roux organisera un débat à propos du sujet ci-dessous: « Les progrès récents de la technologie ont soulevé beaucoup de questionnements et d’inquiétudes vis-à-vis de l’impact sur nos sociétés. De nombreuses personnes s’inquiètent de son utilisation militaire, pour la surveillance de masse ou de la désinformation. D’un point de vue plus global, Nick Bostrom, philosophe, théorise l’hypothèse du monde vulnérable qui prédit que la Science détruira l’humanité.Dans ce débat, nous interrogerons nos propres biais en tant que chercheurs et chercheuses, et tenterons de répondre aux questions éthiques que soulève cette hypothèse. Est-ce que la Science est une menace pour l’humanité ? Faut-il arrêter la Science ? Ou plus sérieusement, peut-on trouver une solution pour ne pas s’autodétruire ? »

Séminaire SLG – Ryan Whetten – 01/02/2024

25 janvier 2024

La prochaine réunion SLG aura lieu en salle S5 le jeudi 1er février, de 12h00 à 13h00. Ryan Whetten y présentera ses travaux, dont vous trouverez une brève introduction ci-dessous. ——————————————————————— Open Implementation and Study of BEST-RQ for Speech Processing Abstract: Self-Supervised Learning (SSL) has proven to be useful in various speech tasks. However, these methods are generally very demanding in terms of data, memory, and computational resources. Recently, Google came out with a model called BEST-RQ (BERT-based Speech pre-Training with Random-projection Quantizer). Despite BEST-RQ’s great performance and simplicity, details are lacking in the original paper and there is no official easy-to-use open-source implementation. Furthermore, BEST-RQ has not been evaluated on other downstream tasks aside from ASR. In this presentation, we will discuss the details of my implementation of BEST-RQ and then see results from our preliminary study on four downstream tasks. Results show that a random projection quantizer can achieve similar downstream performance as wav2vec 2.0 while decreasing training time by over a factor of two.

Séminaire SLG – Paul Gauthier Noé – 18/01/2024

10 janvier 2024

On 18 January from 12 am, we will host a talk from Dr. Paul Gauthier Noé on « Explaining probabilistic predictions … ». The presentation will be hosted on room S6.   More details will follow…   Bio: Paul Gauthier Noe just received a PhD in Computer Science in Avignon Université under the supervision of Prof. Jean-François Bonastre and Dr. Driss Matrouf. He was working for the international JST-ANR VoicePersonae project and his main research interests are Speaker verification, Bayesian decision theory, Calibration of probabilities and Privacy in Speech.

Séminaire SLG – Fenna Poletiek – 12/01/2024

8 janvier 2024

On 12 January from 12 am, we will host a virtual talk from Dr. Fenna Poletiek from Institute of Psychology at Leiden University on « Language learning in the lab ».   The presentation will be hosted on room S6.   Abstract: Language learning in the lab Language learning skills have been considered a defining feature of humanness. In this view language cannot be acquired by mere associative or statistical learning processes, only, like many other skills are learned by human and nonhuman primates during development. Indeed, the high (recursive) complexity of human grammars have been shown to make them impossible to learn by exposure to language exemplars only. Some research suggests, however, that at least some statistical learning is recruited in language acquisition (Perruchet & Pacton, 2006). And primates have been shown to mimic complex grammatical patterns after being trained on a sequence of stimulus responses (Rey et al., 2012). We performed series of studies with artificial languages in the lab, to investigate associative and statistical learning processes that support language learning. The results thus far suggest a fine tuned cooperation between three crucial features of the natural language learning process: first, learning proceeds ‘starting small’ with short simple sentences growing in complexity Plus d'infos

DrBERT – Modèle de langage biomédical en français

19 décembre 2023

DrBERT est un modèle de langage de pointe pour le domaine biomédical en français, basé sur l’architecture RoBERTa pré-entraînée sur le corpus biomédical français NACHOS. DrBERT a été évalué sur 11 applications biomédicales pratiques distinctes pour la langue française, comprenant la reconnaissance d’entités nommées (NER), l’étiquetage morpho-syntaxique (POS), la classification binaire/multi-classe/multi-étiquettes, et la réponse à des questions à choix multiples. Les résultats ont montré que DrBERT améliorait les performances de la plupart des tâches par rapport aux techniques antérieures, indiquant que la stratégie de pré-entraînement à partir de zéro demeure la plus efficace pour les modèles de langage BERT en français biomédical. DrBERT a été entraîné et évalué par Yanis Labrak (LIA, Zenidoc), Adrien Bazoge (LS2N), Richard Dufour (LS2N), Mickael Rouvier (LIA), Emmanuel Morin (LS2N), Béatrice Daille (LS2N) et Pierre-Antoine Gourraud (Université de Nantes). Site : https://drbert.univ-avignon.fr/

NACHOS – Corpus Biomédical français

19 décembre 2023

NACHOS est un corpus biomédical français. Il est uniquement disponible pour la recherche académique. Si vous êtes intéressé, contactez Mickael Rouvier. Veuillez inclure votre nom, prénom, affiliation, coordonnées et une brève description de la manière dont vous comptez utiliser NACHOS. Site : https://drbert.univ-avignon.fr/

Projet DAPADAF-E

13 décembre 2023

Validity of a task of acoustic-phonetic decoding on anatomic deficits in paramedical assessment of speech disorders for patients treated for oral or oropharyngeal cancer Plus d'infos

Seminaire SLG – St Germes Bengono Obiang – 21/12/2023

12 décembre 2023

Le prochain SLG meeting se tiendra en salle S1 le jeudi 21 décembre, de 12h00 à 13h00.   Nous aurons le plaisir d’accueillir St Germes BENGONO OBIANG, doctorant travaillant sur le traitement de la parole, plus particulièrement sur la reconnaissance des tons dans les langues peu dotées. Il est encadré par Norbert TSOPZE et Paulin MELATAGIA de l’Université de Yaoundé 1, ainsi que par Jean-François BONASTRE et Tania JIMENEZ du LIA.   Résumé : Many sub-Saharan African languages are categorized as tone languages and for the most part, they are classified as low resource languages due to the limited resources and tools available to process these languages. Identifying the tone associated with a syllable is therefore a key challenge for speech recognition in these languages. We propose models that automate the recognition of tones in continuous speech that can easily be incorporated into a speech recognition pipeline for these languages. We have investigated different neural architectures as well as several features extraction algorithms in speech (Filter banks, Leaf, Cestrogram, MFCC). In the context of low-resource languages, we also evaluated Wav2vec models for this task. In this work, we use a public speech recognition dataset on Yoruba. As for the results, Plus d'infos

1 2 3 4 5