Titre : « Représentations et fonctions d’activation réelles et hyper-complexes dans les réseaux de neurones pour le traitement du signal ».
Date: jeudi 11 décembre 2025 à 8h
Lieu : salle des thèses de l’Université d’Avignon, campus Hannah Arendt.
Résumé:
Ce manuscrit de thèse porte sur des problématiques d’intelligence artificielle (IA) et plus spécifiquement, sur les réseaux de neurones artificiels. Ces réseaux de neurones sont des modèles mathématiques centrales dans les processus modernes d’IA, se complexifiant à mesure que les tâches pour lesquelles ces réseaux sont utilisés se diversifient et se démocratisent. L’usage moderne de ces réseaux de neurones, appliqués à des tâches de langage, a donné naissance aux Large Modèles de Langage (LLM). Ces modèles peuvent comporter des milliards de paramètres, posant ainsi des questions de sobriété et d’économie de moyens.
La première partie de ce manuscrit consiste en un état de l’art concernant les architectures de réseaux de neurones réels (réels ici caractérise le domaine mathématique dans lequel on opère, l’ensemble des nombres réels), les réseaux de neurones de quaternions et les fonctions d’activation. Les différentes architectures neuronales et notions mathématiques employées par la suite y sont décrites.
La seconde partie présente les différentes solutions aux problématiques soulevées lors de la mise en contexte des travaux de cette thèse dans la partie précédente. Cette partie porte à la fois sur la théorie et les expérimentations en se concentrant sur les architectures des réseaux de neurones. Dans un premier temps, les architectures basées sur les transformers et les encodeurs sont évaluées dans un contexte de langage fortement bruité, en explorant des pistes d’amélioration des performances spécifiques au jeu de données, ainsi que d’entraînement simultané. Dans un second temps, il est proposé une méthode mathématique pour calculer l’exponentielle d’une matrice de quaternions, afin d’introduire une nouvelle structure de fonctions d’activation pour les réseaux de neurones de quaternion.
La troisième partie porte sur les fonctions d’activation spécifiquement. D’abord, cette partie analyse l’usage de Fonctions d’Activation Rationnelles (RAF), qui sont des fonctions d’activations s’adaptant au fil de l’apprentissage, afin de réduire le nombre de paramètres d’apprentissage du modèle. Puis de nouvelles fonctions RAF basées sur des fonctions exponentielles sont aussi comparées aux RAF classiques et aux fonctions d’activations usuelles. Ensuite, ces RAF sont évaluées dans un contexte de réseaux de neurones de quaternions, en introduisant une structure inédites de fonctions d’activations quaternioniques, les RAF ‘Component-Specific’ (CSQRAF). Ces RAF et CSQRAF montrent des performances prometteuses sur les évaluations réalisées.
La dernière partie conclue ces travaux de recherche en proposant un certain nombre de perspectives sur chacun des thèmes abordés.
Abstract:
This thesis manuscript addresses issues in artificial intelligence (AI), and more specifically, in artificial neural networks. These neural networks are mathematical models that lie at the core of modern AI processes, becoming increasingly complex as the range of tasks for which they are used expands and becomes more accessible. The modern use of these neural networks, particularly when applied to language-related tasks, has led to the emergence of Large Language Models (LLMs). These models can contain billions of parameters, thus raising questions about computational efficiency and resource economy.
The first part of this manuscript presents a state of the art on real-valued neural network architectures (where « real » characterizes the mathematical domain of operation, namely the set of real numbers), quaternion neural networks, and activation functions. The various neural architectures and mathematical concepts employed later in this work are described in this section.
The second part introduces the different solutions to the challenges identified during the contextualization of this thesis work in the previous section. This part covers both theoretical and experimental aspects, focusing on neural network architectures. First, transformer- and encoder-based architectures are evaluated in the context of highly noisy language data, exploring performance improvement strategies specific to the dataset as well as simultaneous training methods. Second, a mathematical method is proposed to compute the exponential of a quaternion matrix, enabling the introduction of a new class of activation functions for quaternion neural networks.
The third part specifically focuses on activation functions. It begins by analyzing the use of Rational Activation Functions (RAFs), which are adaptive activation functions designed to reduce the number of trainable parameters in the model. New exponential-based RAFs are also introduced and compared to classical RAFs and standard activation functions. Subsequently, these RAFs are evaluated in the context of quaternion neural networks by introducing a novel family of quaternion activation functions, the Component-Specific Quaternion RAFs (CSQRAFs). Both RAFs and CSQRAFs demonstrate promising performance in the conducted evaluations.
Finally, the last part concludes this research work by proposing several perspectives and future research directions for each of the themes addressed throughout this thesis.
Publications:
1- Transformers pour l’Identification de Thèmes et de Mentions dans des Conversations Téléphoniques Bruitées, N. André, A. Racamond, M. Morchid, CORIA-RJCRI 2024
2- Quaternion Rational Activations Functions, N.André, M.Morchid, IEEE EMBS Neural Engineering Conference 2025
3- Exponential-Based Rational Activations Functions}, N. André, M. Morchid, ICTAI 2025