Projet DAPADAF-E

13 décembre 2023

Validity of a task of acoustic-phonetic decoding on anatomic deficits in paramedical assessment of speech disorders for patients treated for oral or oropharyngeal cancer Plus d'infos

Seminaire SLG – St Germes Bengono Obiang – 21/12/2023

12 décembre 2023

Le prochain SLG meeting se tiendra en salle S1 le jeudi 21 décembre, de 12h00 à 13h00.   Nous aurons le plaisir d’accueillir St Germes BENGONO OBIANG, doctorant travaillant sur le traitement de la parole, plus particulièrement sur la reconnaissance des tons dans les langues peu dotées. Il est encadré par Norbert TSOPZE et Paulin MELATAGIA de l’Université de Yaoundé 1, ainsi que par Jean-François BONASTRE et Tania JIMENEZ du LIA.   Résumé : Many sub-Saharan African languages are categorized as tone languages and for the most part, they are classified as low resource languages due to the limited resources and tools available to process these languages. Identifying the tone associated with a syllable is therefore a key challenge for speech recognition in these languages. We propose models that automate the recognition of tones in continuous speech that can easily be incorporated into a speech recognition pipeline for these languages. We have investigated different neural architectures as well as several features extraction algorithms in speech (Filter banks, Leaf, Cestrogram, MFCC). In the context of low-resource languages, we also evaluated Wav2vec models for this task. In this work, we use a public speech recognition dataset on Yoruba. As for the results, Plus d'infos

Soutenance de thèse d’Anais Chanclu – 11 décembre 2023

5 décembre 2023

Soutenance de thèse Anais Chanclu Date : lundi 11 décembre 2023 à 14h30  Lieu : Salle des thèses sur le campus Hannah Arendt. Titre : Reconnaître les personnes à leur voix : définition d’un cadre scientifique pour garantir la fiabilité des résultats d’une comparaison de voix dans le cadre criminalistique   Jury : Jean-François Bonastre, Professeur, Avignon Université, Laboratoire Informatique d’Avignon (Directeur de thèse) Martine Adda-Decker, Directrice de Recherche, Université Paris 3 Sorbonne Nouvelle et Laboratoire de Phonétique et Phonologie (Rapporteuse) Julien Pinquier, Maître de Conférence, Université Toulouse III – Paul Sabatier, Institut de Recherche en Informatique de Toulouse (Rapporteur) Christine Meunier, Directrice de Recherche, Laboratoire Parole et Langage, Aix-Marseille Université (Examinatrice) Résumé : Lors d’une enquête de police ou d’un procès pénal, il arrive que des enregistrements de voix soient prélevés en vue d’être comparés à la voix des personnes suspectes. Bien souvent, les enregistrements prélevés — appelés traces — proviennent d’écoutes téléphoniques, d’appels aux services de secours ou bien de messages vocaux. Les enregistrements des personnes suspectes — appelés pièces de comparaison — proviennent généralement des services de police notamment par prélèvement de voix. Du fait que les traces et pièces de comparaison n’ont pas été réalisées dans les Plus d'infos

Soutenance de thèse de Thibault Cordier – 13 octobre 2023

13 octobre 2023

Date : vendredi 13 octobre à 9h,  Lieu : salle des thèses à l’Université d’Avignon, Campus Hannah Arendt (centre-ville). Titre : “Hierarchical Imitation and Reinforcement Learning for Multi-Domain Task-Oriented Dialogue Systems”. La soutenance peut être suivie en live stream via le lien suivant : https://v-au.univ-avignon.fr/live. Résumé : Dans cette thèse, nous étudions les systèmes de dialogue orientés tâches qui sont des systèmes conçus pour aider les utilisateurs à accomplir des tâches spécifiques, telles que la réservation d’un vol ou d’un restaurant. Ils s’appuient généralement sur un paradigme d’apprentissage par renforcement pour modéliser le dialogue permettant au système de raisonner sur les objectifs et les préférences de l’utilisateur, et de sélectionner les actions qui conduiront au résultat souhaité. Nous nous concentrons spécifiquement sur l’apprentissage à partir d’un nombre limité d’interactions, ce qui est crucial en raison de la rareté et du coût des interactions humaines. Les algorithmes standards d’apprentissage par renforcement nécessitent généralement une grande quantité de données d’interaction pour obtenir de bonnes performances. Pour relever ce défi, nous visons à rendre les systèmes de dialogue plus efficaces en termes d’échantillonnage dans leur entraînement. Nous nous sommes inspirés principalement des idées d’imitation et de hiérarchie. Notre première contribution explore l’intégration de l’imitation dans l’apprentissage Plus d'infos

Soutenance de thèse de Paul-Gauthier Noé – 26 avril 2023

26 avril 2023

Date : 26 avril à 14h30. Lieu : Centre d’Enseignement et de Recherche en Informatique (auditorium Ada Lovelace). Le jury sera composé de : Titre : Représentation des preuves pour la confidentialité des attributs : mise à jour bayésienne, preuves compositionnelles et calibration. Résumé : La confidentialité des attributs dans la technologie multimédia vise à masquer seulement une ou quelques caractéristiques personnelles, ou attributs, d’un individu plutôt que l’identité complète. À titre d’exemples, ces attributs peuvent être le sexe, la nationalité ou l’état de santé de l’individu. Lorsque l’attribut à cacher est discret avec un nombre fini de valeurs possibles, la croyance de l’attaquant concernant l’attribut est représentée par une distribution de probabilité discrète sur l’ensemble des valeurs possibles. La règle de Bayes est connue comme un paradigme d’acquisition d’information et montre comment la fonction de vraisemblance modifie la croyance antérieure en une croyance postérieure. Dans le cas binaire, c’est-à-dire lorsque seules deux valeurs sont possibles pour l’attribut, la fonction de vraisemblance peut être exprimée sous forme de Rapport de Vraisemblance Logarithmique (LLR). Cela est connu comme le poids des preuves et est considéré comme un bon candidat pour indiquer quelle hypothèse les données soutiennent et à quel point. La Plus d'infos

Soutenance de thèse de Sondes Abderrazek – 2 mai 2023

2 mars 2023

Date : 2 mai à 14h00. Lieu : Avignon, Centre d’Enseignement et de Recherche en Informatique (Auditorium Ada Lovelace). Membres du jury : Titre : Évaluation de l’intelligibilité de la parole à l’aide de l’apprentissage profond : vers une interprétation améliorée en phonétique clinique. Résumé : L’intelligibilité de la parole est un élément essentiel de la communication efficace. Elle fait référence au degré auquel le message voulu par un locuteur peut être compris par un auditeur. Cette capacité peut être entravée en raison de troubles de la parole, ce qui entraîne une réduction de la qualité de vie des individus. Dans le cas du cancer de la tête et du cou (HNC), la parole peut être affectée en raison de la présence de tumeurs dans le système de production de la parole, mais la principale cause d’altération de la parole est généralement le traitement des tumeurs, notamment la chirurgie, la radiothérapie, la chimiothérapie, ou une combinaison de ces traitements. Dans de tels cas, l’évaluation de la qualité de la parole est cruciale pour évaluer le déficit de communication des patients et élaborer des plans de traitement ciblés. En pratique clinique, les mesures perceptuelles sont considérées comme la référence pour évaluer Plus d'infos

Projet ANR ESSL

1 janvier 2023

L’apprentissage auto-supervisé (Self-Supervised Learning ou SSL) a émergé récemment comme une méthode d’intelligence artificielle (IA) incroyablement prometteuse. Grâce à cette méthode, les colossales masses de données non annotées qui sont accessibles peuvent être utilisées par des systèmes d’IA pour dépasser les performances connues jusque-là. En particulier, le domaine du traitement automatique de la parole (TAP) se voit rapidement transformé par l’arrivée du SSL grâce, notamment, aux investissements industriels massifs et l’explosion des données, tous deux mis à disposition par une poignée d’entreprises. Plus d'infos

Projet ANR BRUEL

1 janvier 2023

Le projet BRUEL concerne l’évaluation/certification des systèmes d’identification par la voix face aux attaques adverses.

En effet, les systèmes de reconnaissance automatique du locuteur sont vulnérables non seulement à la parole produite artificiellement par synthèse vocale, mais aussi à d’autres formes d’attaques telles que la conversion d’identité vocale et la relecture. Les artefacts créés lors de la création ou la manipulation de ces attaques frauduleuses constituent les marques laissées dans le signal par les algorithmes de synthèse vocale permettant ainsi de distinguer la voix réelle originale d’une voix usurpée. Plus d'infos

Projet ANR EVA

1 janvier 2023

La description d’une voix en quelques mots reste une tâche très arbitraire. On peut parler avec une voix ‘profonde’, ‘soufflée’, ‘claire’ ou ‘rauque’, mais la caractérisation complète d’une voix nécessiterait un ensemble précis d’attributs rigoureusement définis constituant une ontologie. Cependant, une telle grille de description n’existe pas. L’apprentissage automatique appliqué à la parole souffre de la même faiblesse : dans la plupart des tâches de traitement automatique, lorsqu’un locuteur est modélisé, des représentations globales abstraites sont utilisées sans rendre leurs caractéristiques explicites. Plus d'infos

Projet ANR TRADEF

31 décembre 2022

La guerre de 4ème génération (4GW) est connue comme étant la guerre de l’information impliquant des populations non nécessairement militaires. Elle est menée par des groupes nationaux ou transnationaux qui suivent des idéologies fondées sur des convictions culturelles, sur la religion, sur les intérêts économiques ou politiques avec comme objectif de semer le chaos dans un endroit visé du monde. Plus d'infos

1 2 3 4