DrBERT – Modèle de langage biomédical en français

19 décembre 2023

DrBERT est un modèle de langage de pointe pour le domaine biomédical en français, basé sur l’architecture RoBERTa pré-entraînée sur le corpus biomédical français NACHOS. DrBERT a été évalué sur 11 applications biomédicales pratiques distinctes pour la langue française, comprenant la reconnaissance d’entités nommées (NER), l’étiquetage morpho-syntaxique (POS), la classification binaire/multi-classe/multi-étiquettes, et la réponse à des questions à choix multiples. Les résultats ont montré que DrBERT améliorait les performances de la plupart des tâches par rapport aux techniques antérieures, indiquant que la stratégie de pré-entraînement à partir de zéro demeure la plus efficace pour les modèles de langage BERT en français biomédical. DrBERT a été entraîné et évalué par Yanis Labrak (LIA, Zenidoc), Adrien Bazoge (LS2N), Richard Dufour (LS2N), Mickael Rouvier (LIA), Emmanuel Morin (LS2N), Béatrice Daille (LS2N) et Pierre-Antoine Gourraud (Université de Nantes). Site : https://drbert.univ-avignon.fr/

NACHOS – Corpus Biomédical français

19 décembre 2023

NACHOS est un corpus biomédical français. Il est uniquement disponible pour la recherche académique. Si vous êtes intéressé, contactez Mickael Rouvier. Veuillez inclure votre nom, prénom, affiliation, coordonnées et une brève description de la manière dont vous comptez utiliser NACHOS. Site : https://drbert.univ-avignon.fr/

Soutenance de thèse de Julio Perez-Garcia – 18 décembre 2023

14 décembre 2023

Lieu :  University of Avignon, Campus Hannah Arendt, Salle des Thèses Date : Monday, December 18, 2023 at 14:00. Titre : Contribution to security and privacy in the Blockchain-based Internet of Things: Robustness, Reliability, and Scalability. Résumé : The Internet of Things (IoT) is a diverse network of objects or ”things” typically interconnected via the Internet. Given the sensitivity of the information exchanged in IoT applications, it is essential to guarantee security and privacy. This problem is aggravated by the open nature of wireless communications, and the power and computing resource limitations of most IoT devices. At the same time, existing IoT security solutions are based on centralized architectures, which raises scalability issues and the single point of failure problem, making them susceptible to denial-of-service attacks and technical failures. Blockchain has emerged as an attractive solution to IoT security and centralization issues. Blockchains replicate a permanent, append-only record of all transactions occurring on a network across multiple devices, keeping them synchronized through a consensus protocol. Blockchain implementation may involve high computational and energy costs for devices. Consequently, solutions based on Fog/Edge computing have been considered in the integration with IoT. This approach shifts the higher computational load and higher energy consumption Plus d'infos

Projet DAPADAF-E

13 décembre 2023

Validity of a task of acoustic-phonetic decoding on anatomic deficits in paramedical assessment of speech disorders for patients treated for oral or oropharyngeal cancer Plus d'infos

Seminaire SLG – St Germes Bengono Obiang – 21/12/2023

12 décembre 2023

Le prochain SLG meeting se tiendra en salle S1 le jeudi 21 décembre, de 12h00 à 13h00.   Nous aurons le plaisir d’accueillir St Germes BENGONO OBIANG, doctorant travaillant sur le traitement de la parole, plus particulièrement sur la reconnaissance des tons dans les langues peu dotées. Il est encadré par Norbert TSOPZE et Paulin MELATAGIA de l’Université de Yaoundé 1, ainsi que par Jean-François BONASTRE et Tania JIMENEZ du LIA.   Résumé : Many sub-Saharan African languages are categorized as tone languages and for the most part, they are classified as low resource languages due to the limited resources and tools available to process these languages. Identifying the tone associated with a syllable is therefore a key challenge for speech recognition in these languages. We propose models that automate the recognition of tones in continuous speech that can easily be incorporated into a speech recognition pipeline for these languages. We have investigated different neural architectures as well as several features extraction algorithms in speech (Filter banks, Leaf, Cestrogram, MFCC). In the context of low-resource languages, we also evaluated Wav2vec models for this task. In this work, we use a public speech recognition dataset on Yoruba. As for the results, Plus d'infos

PANG : Enumération de sous-graphes pour la détection d’anomalies dans les graphes

7 décembre 2023

Pang (Pattern-Based Anomaly Detection in Graphs) est un algorithme qui représente et classe une collection de graphes en fonction de leurs motifs fréquents (sous-graphes). Les détails de cet algorithme sont décrits dans l’article ci-dessous. Ce travail a été réalisé dans le cadre du projet ANR DeCoMaP (Détection de la corruption dans les marchés publics — ANR-19-CE38-0004). Plus d'infos

Soutenance de thèse d’Anais Chanclu – 11 décembre 2023

5 décembre 2023

Soutenance de thèse Anais Chanclu Date : lundi 11 décembre 2023 à 14h30  Lieu : Salle des thèses sur le campus Hannah Arendt. Titre : Reconnaître les personnes à leur voix : définition d’un cadre scientifique pour garantir la fiabilité des résultats d’une comparaison de voix dans le cadre criminalistique   Jury : Jean-François Bonastre, Professeur, Avignon Université, Laboratoire Informatique d’Avignon (Directeur de thèse) Martine Adda-Decker, Directrice de Recherche, Université Paris 3 Sorbonne Nouvelle et Laboratoire de Phonétique et Phonologie (Rapporteuse) Julien Pinquier, Maître de Conférence, Université Toulouse III – Paul Sabatier, Institut de Recherche en Informatique de Toulouse (Rapporteur) Christine Meunier, Directrice de Recherche, Laboratoire Parole et Langage, Aix-Marseille Université (Examinatrice) Résumé : Lors d’une enquête de police ou d’un procès pénal, il arrive que des enregistrements de voix soient prélevés en vue d’être comparés à la voix des personnes suspectes. Bien souvent, les enregistrements prélevés — appelés traces — proviennent d’écoutes téléphoniques, d’appels aux services de secours ou bien de messages vocaux. Les enregistrements des personnes suspectes — appelés pièces de comparaison — proviennent généralement des services de police notamment par prélèvement de voix. Du fait que les traces et pièces de comparaison n’ont pas été réalisées dans les Plus d'infos

BRÉF – Base Révisée des Élu·es de France

4 décembre 2023

La Base de données Révisée des Élu·es de France (BRÉF) à partir d’une source principale, le Répertoire National des Élus (RNE) et de plusieurs sources secondaires, les bases de données de l’Assemblée Nationale, du Sénat et du Parlement Européen. Cette base a vocation à être étendue ultérieurement, en exploitant plus complètement ces sources secondaires, et à plus long terme en intégrant de nouvelles bases de données et des apports ponctuels. Plus d'infos

Détection d’abus dans des conversations en ligne

4 décembre 2023

Ce logiciel a été conçu pour détecter les messages abusifs dans les conversations en ligne. Deux approches principales sont mises en œuvre : l’une basée sur le contenu textuel et l’autre sur les graphes conversationnels, qui peuvent également être utilisées conjointement. Ce logiciel a été appliqué à un corpus de messages de discussion écrits en français, malheureusement impossible à publier en raison de questions légales. Cependant, les graphes conversationnels extraits de ces textes sont disponibles publiquement sur Zenodo. URL : https://github.com/CompNet/Alert Date de production : 2018–2023 Publications liées : Noé Cécillon, Vincent Labatut, Richard Dufour et Georges Linarès. « Graph embeddingsfor Abusive Language Detection ». In : Springer Nature Computer Science2:37 (2021). DOI: 10.1007/s42979-020-00413-7. ⟨hal-03042171⟩ Noé Cécillon, Vincent Labatut, Richard Dufour et Georges Linarès. « AbusiveLanguage Detection in Online Conversations by Combining Content- and Graph-basedFeatures ». In : International Workshop on Modeling and Mining Social Media Driven Complex Networks (Soc2Net). T. 2. Frontiers in Big Data 8. Munich, DE, 2019. DOI: 10.3389/fdata.2019.00008. ⟨hal-02130205⟩ (article à citer si vous utilisez le logiciel) Noé Cécillon, Vincent Labatut, Richard Dufour et Georges Linarès. « TuningGraph2vec with Node Labels for Abuse Detection in Online Conversations ». In :11ème Conférence sur les modèles et l’analyse Plus d'infos