DrBERT – Modèle de langage biomédical en français

19 décembre 2023

DrBERT est un modèle de langage de pointe pour le domaine biomédical en français, basé sur l’architecture RoBERTa pré-entraînée sur le corpus biomédical français NACHOS. DrBERT a été évalué sur 11 applications biomédicales pratiques distinctes pour la langue française, comprenant la reconnaissance d’entités nommées (NER), l’étiquetage morpho-syntaxique (POS), la classification binaire/multi-classe/multi-étiquettes, et la réponse à des questions à choix multiples. Les résultats ont montré que DrBERT améliorait les performances de la plupart des tâches par rapport aux techniques antérieures, indiquant que la stratégie de pré-entraînement à partir de zéro demeure la plus efficace pour les modèles de langage BERT en français biomédical. DrBERT a été entraîné et évalué par Yanis Labrak (LIA, Zenidoc), Adrien Bazoge (LS2N), Richard Dufour (LS2N), Mickael Rouvier (LIA), Emmanuel Morin (LS2N), Béatrice Daille (LS2N) et Pierre-Antoine Gourraud (Université de Nantes). Site : https://drbert.univ-avignon.fr/

NACHOS – Corpus Biomédical français

19 décembre 2023

NACHOS est un corpus biomédical français. Il est uniquement disponible pour la recherche académique. Si vous êtes intéressé, contactez Mickael Rouvier. Veuillez inclure votre nom, prénom, affiliation, coordonnées et une brève description de la manière dont vous comptez utiliser NACHOS. Site : https://drbert.univ-avignon.fr/

Soutenance de thèse de Julio Perez-Garcia – 18 décembre 2023

14 décembre 2023

Lieu :  University of Avignon, Campus Hannah Arendt, Salle des Thèses Date : Monday, December 18, 2023 at 14:00. Titre : Contribution to security and privacy in the Blockchain-based Internet of Things: Robustness, Reliability, and Scalability. Résumé : The Internet of Things (IoT) is a diverse network of objects or ”things” typically interconnected via the Internet. Given the sensitivity of the information exchanged in IoT applications, it is essential to guarantee security and privacy. This problem is aggravated by the open nature of wireless communications, and the power and computing resource limitations of most IoT devices. At the same time, existing IoT security solutions are based on centralized architectures, which raises scalability issues and the single point of failure problem, making them susceptible to denial-of-service attacks and technical failures. Blockchain has emerged as an attractive solution to IoT security and centralization issues. Blockchains replicate a permanent, append-only record of all transactions occurring on a network across multiple devices, keeping them synchronized through a consensus protocol. Blockchain implementation may involve high computational and energy costs for devices. Consequently, solutions based on Fog/Edge computing have been considered in the integration with IoT. This approach shifts the higher computational load and higher energy consumption Plus d'infos

Projet DAPADAF-E

13 décembre 2023

Validity of a task of acoustic-phonetic decoding on anatomic deficits in paramedical assessment of speech disorders for patients treated for oral or oropharyngeal cancer Plus d'infos

Seminaire SLG – St Germes Bengono Obiang – 21/12/2023

12 décembre 2023

Le prochain SLG meeting se tiendra en salle S1 le jeudi 21 décembre, de 12h00 à 13h00.   Nous aurons le plaisir d’accueillir St Germes BENGONO OBIANG, doctorant travaillant sur le traitement de la parole, plus particulièrement sur la reconnaissance des tons dans les langues peu dotées. Il est encadré par Norbert TSOPZE et Paulin MELATAGIA de l’Université de Yaoundé 1, ainsi que par Jean-François BONASTRE et Tania JIMENEZ du LIA.   Résumé : Many sub-Saharan African languages are categorized as tone languages and for the most part, they are classified as low resource languages due to the limited resources and tools available to process these languages. Identifying the tone associated with a syllable is therefore a key challenge for speech recognition in these languages. We propose models that automate the recognition of tones in continuous speech that can easily be incorporated into a speech recognition pipeline for these languages. We have investigated different neural architectures as well as several features extraction algorithms in speech (Filter banks, Leaf, Cestrogram, MFCC). In the context of low-resource languages, we also evaluated Wav2vec models for this task. In this work, we use a public speech recognition dataset on Yoruba. As for the results, Plus d'infos

Stage M2 : Cyberstratégies de tromperie utilisant l’optimisation stochastique et les graphes dynamiques

10 décembre 2023

Informations générales: Durée : 5 à 6 mois, allocation d’environ 600 euros. Le stagiaire travaillera au Laboratoire d’informatique de l’Université d’Avignon, à Avignon. Il est possible de négocier quelques périodes de télétravail. Ce projet sera suivi d’un programme de doctorat de 3 ans. Date de début : Février/Mars 2024. Contexte : La cyberduperie est une stratégie de défense, complémentaire aux approches conventionnelles, utilisée pour renforcer la posture de sécurité d’un système. L’idée de base de cette technique est de dissimuler et/ou falsifier délibérément une partie de ce système en déployant et en gérant des leurres (par exemple, « honeypots », « honeynets », etc.), c’est-à-dire des applications, des données, des éléments de réseau et des protocoles qui semblent légitimes aux acteurs malveillants faisant partie intégrante du système, et vers lesquels leurs attaques sont dirigées de manière erronée. L’avantage d’une stratégie de cyberduperie efficace est double : d’une part, elle épuise les ressources des attaquants tout en permettant aux outils de sécurité du système de prendre les contre-mesures nécessaires ; d’autre part, elle fournit des informations précieuses sur les tactiques et techniques des attaquants, qui peuvent être utilisées pour améliorer la résilience du système face aux attaques futures et mettre à jour les politiques de Plus d'infos

Stage M2 : Impact de l’agrégation régionale sur les performances de flexibilité de la planification énergétique

10 décembre 2023

Contexte : Des problèmes à grande échelle existent pour le système électrique, tant à court terme (par exemple, le problème de la Programmation Pluriannuelle des Investissements) qu’à long terme (planification système, par exemple la « Planification d’Expansion de la Génération »). Dans ces problèmes concernant le système électrique moderne et futur, la question de l’intégration de la flexibilité de la consommation d’énergie est cruciale. Cette flexibilité, consistant à planifier de manière « optimale » le profil de puissance d’appareils électriques particuliers (les plus courants et adaptés à cette fin étant les véhicules électriques (VE) et les chauffe-eau (CH) pour les consommateurs résidentiels), permet d’atteindre un équilibre offre-demande avec un coût total diminué, par rapport au cas où seuls les actifs de production sont contrôlables. Envisager les flexibilités liées aux « petits » consommateurs individuels (encore une fois, VE ou CH), leur très grand nombre rend inapproprié de les modéliser individuellement dans les problèmes typiques d’optimisation du système électrique, pour des raisons de faisabilité : il semble donc pertinent de considérer un modèle agrégé des flexibilités de consommation. Ensuite, la question du « bon niveau » de modélisation par agrégation est d’une importance particulière. Les techniques d’agrégation/désagrégation sont largement étudiées dans le contexte des réseaux électriques intelligents. Objectif : Plus d'infos

PANG : Enumération de sous-graphes pour la détection d’anomalies dans les graphes

7 décembre 2023

Pang (Pattern-Based Anomaly Detection in Graphs) est un algorithme qui représente et classe une collection de graphes en fonction de leurs motifs fréquents (sous-graphes). Les détails de cet algorithme sont décrits dans l’article ci-dessous. Ce travail a été réalisé dans le cadre du projet ANR DeCoMaP (Détection de la corruption dans les marchés publics — ANR-19-CE38-0004). Plus d'infos

Soutenance de thèse d’Anais Chanclu – 11 décembre 2023

5 décembre 2023

Soutenance de thèse Anais Chanclu Date : lundi 11 décembre 2023 à 14h30  Lieu : Salle des thèses sur le campus Hannah Arendt. Titre : Reconnaître les personnes à leur voix : définition d’un cadre scientifique pour garantir la fiabilité des résultats d’une comparaison de voix dans le cadre criminalistique   Jury : Jean-François Bonastre, Professeur, Avignon Université, Laboratoire Informatique d’Avignon (Directeur de thèse) Martine Adda-Decker, Directrice de Recherche, Université Paris 3 Sorbonne Nouvelle et Laboratoire de Phonétique et Phonologie (Rapporteuse) Julien Pinquier, Maître de Conférence, Université Toulouse III – Paul Sabatier, Institut de Recherche en Informatique de Toulouse (Rapporteur) Christine Meunier, Directrice de Recherche, Laboratoire Parole et Langage, Aix-Marseille Université (Examinatrice) Résumé : Lors d’une enquête de police ou d’un procès pénal, il arrive que des enregistrements de voix soient prélevés en vue d’être comparés à la voix des personnes suspectes. Bien souvent, les enregistrements prélevés — appelés traces — proviennent d’écoutes téléphoniques, d’appels aux services de secours ou bien de messages vocaux. Les enregistrements des personnes suspectes — appelés pièces de comparaison — proviennent généralement des services de police notamment par prélèvement de voix. Du fait que les traces et pièces de comparaison n’ont pas été réalisées dans les Plus d'infos

BRÉF – Base Révisée des Élu·es de France

4 décembre 2023

La Base de données Révisée des Élu·es de France (BRÉF) à partir d’une source principale, le Répertoire National des Élus (RNE) et de plusieurs sources secondaires, les bases de données de l’Assemblée Nationale, du Sénat et du Parlement Européen. Cette base a vocation à être étendue ultérieurement, en exploitant plus complètement ces sources secondaires, et à plus long terme en intégrant de nouvelles bases de données et des apports ponctuels. Plus d'infos

1 2