DrBERT est un modèle de langage de pointe pour le domaine biomédical en français, basé sur l’architecture RoBERTa pré-entraînée sur le corpus biomédical français NACHOS.
DrBERT a été évalué sur 11 applications biomédicales pratiques distinctes pour la langue française, comprenant la reconnaissance d’entités nommées (NER), l’étiquetage morpho-syntaxique (POS), la classification binaire/multi-classe/multi-étiquettes, et la réponse à des questions à choix multiples. Les résultats ont montré que DrBERT améliorait les performances de la plupart des tâches par rapport aux techniques antérieures, indiquant que la stratégie de pré-entraînement à partir de zéro demeure la plus efficace pour les modèles de langage BERT en français biomédical.
DrBERT a été entraîné et évalué par Yanis Labrak (LIA, Zenidoc), Adrien Bazoge (LS2N), Richard Dufour (LS2N), Mickael Rouvier (LIA), Emmanuel Morin (LS2N), Béatrice Daille (LS2N) et Pierre-Antoine Gourraud (Université de Nantes).