Projet DECODA

 

Appel ANR – CONTINT 2009

 

 

 

·       DEpouillement automatique de COnversations provenant de centres D'Appels

·       Speech Analytics in recorded call-center conversations

 

1.    Contexte et positionnement du projet

La fouille de données sonores est un nouveau domaine de recherche au confluent de trois thématiques : la Reconnaissance Automatique de la Parole, le Traitement Automatique de la Langue Naturelle et la Fouille de Données. Le premier niveau de traitement consiste à traduire le signal de parole en une ou plusieurs séquences de symboles. Ces symboles représentent à la fois les hypothèses lexicales sur le contenu linguistique des messages traités et les informations caractérisant les dimensions acoustiques de ces messages : environnement sonore, bruit, type et qualité de parole, locuteur et marques prosodiques. Ce premier niveau de traitement est effectué par les modules de Traitement du Signal et de Reconnaissance Automatique de la Parole (RAP). Les hypothèses lexicales produites, représentées par des graphes de mots, sont ensuite analysées par des modules de Traitement Automatique de la Langue Naturelle (TALN). Enfin, la fouille de données permet de révéler, à partir d'un important corpus de données, les relations statistiques liant ces données, par exemple les associations, permettant en cela de catégoriser et structurer la masse d'information traitée. Les informations prises en entrée sont ici toutes les données extraites durant l'application des modules de RAP et de TALN aux messages oraux.

 

La multiplication récente des centres d'appels et le faible coût du stockage de données audio ont permis l'enregistrement de bases de données de messages oraux de très grande taille. Du point de vue des entreprises, ces centres d'appels constituent une interface stratégique compte tenu de l'importance croissante de la relation client dans leurs politiques industrielles. D'ailleurs, des produits d'analyse automatique ou semi-automatique des interactions client/téléconseiller, appelée "Speech Analytics", sont désormais proposés par plusieurs entreprises principalement américaines (Nuance, Verint, CallMiner, BBN-Avoke, Nexidia, Autonomy eTalk). Ces produits répondent aux deux principales applications de "Speech Analytics" :

-         analyse ponctuelle de gros corpus de dialogues enregistrés à des fins de fouille de donnée comme, par exemple, le diagnostique d'un problème constaté ou encore l'extraction de connaissances sur les performances des centres d'appels et les comportements des utilisateurs ;

-         analyse périodique d'un centre d'appel afin de proposer des outils de surveillance ou "monitoring" du fonctionnement du centre.

 

Tous ces produits nécessitent l'annotation manuelle de volumes important de données afin d'entraîner et adapter les modèles de reconnaissance et de classification. Cette tâche doit être faite périodiquement  afin de prendre en compte l'évolution des fonctionnalités des centres d'appels, entraînant par là même un coût important d'utilisation de ces outils.

Le but du projet DECODA est de permettre le développement et la gestion sur le long terme à moindre coût de tels services en permettant d'alléger l'effort d'annotation nécessaire. Le projet propose de développer des systèmes de fouille robuste de données audio, dans le cadre applicatif de centres d'appels, en utilisant à la fois des ressources linguistiques génériques et des méthodes d'apprentissage peu supervisé

Le cadre applicatif visé est celui du centre d'appel de la RATP, partenaire du projet. Ce projet se situe en "recherche fondamentale" dans la mesure où les deux principaux verrous scientifiques visés sont ambitieux : problème de robustesse des méthodes de compréhension de la parole fortement spontanée dans le cadre de dialogues opérateur/client ; problème de la limitation de l'effort d'annotation de données grâce à l'emploi de méthodes peu ou non-supervisées pour l'apprentissage et l'adaptation des modèles.

 

 

2.    Description scientifique et technique

2.1.   état de l'art

L'objectif de cette section est de décrire le contexte scientifique dans lequel s'insère cette proposition, située à l'intersection de trois thématiques : l'Apprentissage Automatique (AA), le Traitement Automatique des Langues Naturelles (TALN) et la Reconnaissance Automatique de la Parole (RAP).

 

Articulation entre le TALN et l'AA

Le Traitement Automatique des Langues Naturelles (TALN) a longtemps évolué en parallèle avec la linguistique formelle, en particulier depuis les travaux fondateurs de Noam Chomsky dans les années cinquante [chomsky, 1957]. La division du travail entre les deux disciplines était simple : la linguistique formelle fournissait les outils formels pour la description des langues (que l'on désigne habituellement par le terme de formalismes linguistiques) tandis que le TALN s'attelait à décrire et implémenter des processus reposant sur ces formalismes afin de réaliser certaines tâches, dont l'exemple le plus illustre est la traduction automatique, devenue assez vite Traduction Assistée par Ordinateur. Certaines faiblesses de ce mode de fonctionnement sont apparues au fil du temps et se sont cristallisées autour de trois points : la constitution de ressources, le traitement de l'ambiguïté et la robustesse.

 

Parallèlement à cette évolution du TALN, une autre voie s'est développée, fondée sur la notion de méthodes empiriques, visant à résoudre certaines tâches linguistiques sans recourir à la linguistique formelle. Cette approche se distingue fondamentalement de la première dans son rejet des formalismes linguistiques complexes. Elle repose sur des modèles linguistiques simplistes, appris automatiquement à partir de données. Cette notion d'apprentissage à partir des données a permis à la communauté TALN d'établir des liens clairs avec le domaine de l'Apprentissage Automatique qui s'intéresse à la conception d'algorithmes et de techniques permettant à un ordinateur d'apprendre à résoudre certains problèmes grâce à des exemples qui lui sont fournis en entrée. Aujourd'hui, les liens entre les deux disciplines sont solidement établis, et constituent un domaine de recherche extrêmement actif.

 

Ces modèles empiriques offrent des solutions aux problèmes mentionnés ci-dessus : l'estimation des paramètres qu'ils mettent en jeu est automatique sous réserve de la disponibilité de corpus d'apprentissage (ce qui est un problème crucial, comme nous le mettons en relief dans ce projet) et ils fournissent un score aux différentes interprétations d'un énoncé, permettant ainsi de résoudre l'ambiguïté en choisissant l'interprétation ou les quelques interprétations les mieux notées. Ces scores permettent aussi d'intégrer facilement les différents processus linguistiques impliqués dans la réalisation d'une tâche en définissant un espace de recherche contenant toutes les interprétations obtenues à chaque niveau. La décision finale peut être obtenue par la détermination du meilleur chemin à prendre dans cet espace. De plus, ces modèles empiriques reposent sur des modèles très peu contraints de la langue (en particulier de la syntaxe) ce qui leur permet de mieux réagir face à des phrases agrammaticales ou à la présence de mots mal orthographiés. Les techniques développées dans ce cadre ont été petit à petit appliquées aux différentes tâches du TAL : étiquetage morpho-syntaxique [merialdo, 1994], analyse syntaxique [charniak,1997], traduction automatique [brown,1990], etc.

 

Un des paradigmes utilisés par les méthodes empiriques pour modéliser la communication homme-machine est fondé sur les travaux de Shannon concernant les principes de la théorie de l'information [shannon,1948]. Ce paradigme est à la base des modèles de Reconnaissance Automatique de la Parole. Dans cette approche, la parole est vue comme traversant un canal bruité à partir d'une source émettant une séquence d'événements linguistiques (mots, sens, actes communicatifs,  etc.) vers un récepteur devant débruiter le signal reçu pour décoder la séquence d'événements émise. Cette modélisation probabiliste est exprimée par la probabilité P(W|A) représentant la probabilité de la séquence de mots W émise étant donnée la séquence d'observations acoustiques A représentant le signal vocal. Deux types de modèles sont utilisés pour estimer cette probabilité : d'une part les modèles acoustiques permettant de donner la probabilité qu'une suite particulière de mots ait été prononcée étant donné un signal vocal ; d'autre part les modèles linguistiques, appelés aussi modèles de langage ou modèle de langue, estimant la probabilité qu'une séquence de mots appartienne au langage modélisé.

 

Reconnaissance et Compréhension de la parole

La tâche de compréhension de la parole spontanée repose sur les deux domaines du TALN et de la RAP présentés ci-dessus. Elle consiste à traiter un enregistrement vocal afin de construire une représentation partielle de son sens, utile pour une application donnée.

Cette notion de compréhension doit être définie en fonction des contextes d'élocution et d'utilisation des messages vocaux.  Par exemple, dans un cadre de dialogue homme-machine, la compréhension d'un message nécessite sa traduction dans une représentation formelle utilisée par le gestionnaire de dialogue. Ainsi, on peut définir la compréhension comme l'ensemble des analyses visant à caractériser, étiqueter, structurer et finalement représenter formellement l'information contenue dans un message en fonction des contextes d'élocution et d'utilisation de ceux-ci.

Le problème de l'obtention d'une représentation sémantique formelle à partir d'un message peut être vu selon deux paradigmes :

  • soit la représentation formelle est la conséquence d'un processus d'analyse ;
  • soit elle est obtenue par un processus de traduction automatique, de la langue naturelle vers le langage formel choisi.

 

Les approches à base de grammaires illustrent le premier paradigme : celles-ci ont pour but de donner une valeur de vérité à un symbole non-terminal étant donné la présence d'autres symboles terminaux et non-terminaux. Des symboles représentant des entités sémantiques peuvent être ajoutés à ces grammaires en complément de ceux définissant des structures syntaxiques. On peut ainsi obtenir, à l'issue d'une phase d'analyse syntaxique, des hypothèses sémantiques à partir d'une séquence de mots issus d'un module de RAP. Même si idéalement ces grammaires devraient être dépendantes du contexte puisque l'interprétation d'un message oral se fait toujours par rapport à son contexte d'élocution, on utilise généralement des grammaires hors contextes pour des contraintes d'efficacité.

Afin de prendre en compte l'ambiguïté d'analyse et l'imprécision dans la séquence de mots issus de la RAP, ces grammaires peuvent être rendues stochastiques en utilisant un corpus d'apprentissage.

 

Une autre approche, fondée sur le concept d'analyse locale développée dans [Abney, 1998], consiste à n'utiliser que des contraintes syntaxiques locales pour extraire les composants sémantiques nécessaires à la compréhension d'un message. La composition de ces concepts en une interprétation est effectuée par un autre niveau où n'interviennent plus de contraintes syntaxiques.

 

Enfin, une approche plus récente applique cette notion d'étiquetage de surface ou "shallow parsing" à l'analyse sémantique en proposant des stratégies de "semantic shallow parsing" consistant à détecter des rôles sémantiques dans un énoncé, ces rôles constituant une représentation sémantique de haut niveau indépendante d'une application en particulier. Cette approche a été initiée par les travaux de [Gildea et Jurafsky, 2002] et [Pradhan et al., 2004]. Le texte est tout d'abord analysé à l'aide d'analyseurs syntaxiques de surface puis des classifieurs prenant de nombreux paramètres en entrée vont prédire les rôles sémantiques présents dans la phrase qui vont permettre de construire une structure à base de prédicats représentant l'interprétation de la phrase.

 

Selon le second paradigme le problème de la compréhension est ramené à une tâche d'étiquetage ou de classification qui va traduire automatiquement les observations reçues en entrée vers le langage formel choisi. Parmi les premiers systèmes implémentant cette approche, on peut citer le système Chronus développé pour la tâche ATIS et utilisant des arbres de classification sémantiques (ou Semantic Classification Trees – SCT) [Kuhn et De Mori, 1995]. Depuis, de très nombreux systèmes suivent cette approche, par exemple des systèmes de routage d'appel comme le système d'AT&T How May I Help You? qui utilise des classifieurs à base de SVM ou de Boosting [Haffner et al., 2003].

 

Enfin, suivant les travaux de [Vidal et al., 1993] et [Levin et Pieraccini, 1995], le problème de la compréhension peut être ramené à un problème de classification ou d'étiquetage de séquences, le but étant d'associer à une séquence de mots, une séquence de concepts modélisant le sens avec une probabilité.

 

Différents modèles d'étiquetage de séquences peuvent être utilisés, on trouvera dans [Raymond et Riccardi, 2007] une comparaison de différentes méthodes d'étiquetage à base de HMM, de CRF et de SVM, toutes comparées sur deux corpus : ATIS pour l'anglais et MEDIA pour le français.

 

Ces différentes méthodes ne sont pas exclusives. Comme montré récemment par le projet Européen LUNA (http://www.ist-luna.eu/), dont l'Université d'Avignon avait la responsabilité scientifique, il est souvent  intéressant de combiner plusieurs approches pour répondre au problème de la robustesse du module d'interprétation aux erreurs de la reconnaissance et aux particularités de l'oral spontanée.

 

La fouille de données audio ou "Speech Analytics"

A partir des résultats obtenus en reconnaissance et en compréhension de la parole, la fouille de données audio consiste à extraire de vastes corpus de parole des informations plus ou moins riche selon le degré d'analyse requis. Si les campagnes TREC sur la recherche documentaire ont montré que les moteurs de recherche textuelle étaient peu affectés par les erreurs de reconnaissance, lorsqu'on les appliquait sur des transcriptions automatiques de parole de type "broadcast news", il n'en va pas de même lorsque les informations recherchées sont d'un grain plus fin, tel que la recherche d'entités [Favre et al., 2005] et de relations entre entités.

 

Le type de parole que l'on trouve dans les enregistrements de centres d'appels est aussi très différent de celui des données diffusées de type "broadcast news" : il n'y a pas de locuteurs professionnels et la parole est essentiellement spontanée.

 

Enfin, l'oral ne peut se résoudre à sa seule transcription en mots : les canaux acoustiques et prosodiques, ainsi que le contexte de production des messages (par exemple dans le cadre d'un dialogue entre un opérateur et un client) sont des éléments essentiels d'interprétation des messages.

 

Dans cette direction, plusieurs travaux ont essayé de tirer parti à la fois des informations acoustiques et des informations linguistiques pour interpréter des messages, par exemple pour la détection d'opinion dans des dialogues oraux [Lee and Narayanan]. Dans ce même cadre applicatif, l'Université d'Avignon a travaillé en collaboration avec France Télécom R&D à des modèles de décodage intégrant directement la recherche des opinions dans la phase de décodage de parole [Béchet et al., 2006]. L'analyse de dialogue prenant en compte l'interaction en même temps que le contenu linguistique de chaque tour de parole a aussi été étudiée à l'Université d'Avignon [Béchet et al., 2004].

 

 

2.2.   Objectifs du projet

Jusqu'à une date récente le type de données traitées par les applications de fouille de données sonores étaient principalement des émissions radiophoniques ou télévisuelles (essentiellement des journaux d'information). En effet ces données présentent le double avantage d'être disponibles en énorme quantité et d'être relativement facile à traiter par les systèmes de RAP (locuteurs professionnels, beaucoup de parole préparée). Sur ce type de données, les trois niveaux d'analyse représentés par l'étape de transcription, l'analyse linguistique et la fouille de données sont généralement effectués de manière séquentielle : les émissions sont transcrites en mots par le module de RAP, le texte produit est analysé par les modules de TALN, la fouille de données est effectuée sur le texte étiqueté. Les applications visées sont des applications de recherche d'information.

 

La multiplication des centres d'appels et le faible coût du stockage de données audio ont permis l'enregistrement de base de données de messages oraux de très grande taille contenant soit des interactions humain-humain (entre un opérateur et un client) ; soit des interactions humain-machines (pour les systèmes de dialogue oral déployés) ; soit des messages oraux laissés sur des répondeurs. Du point de vue scientifique ce type de données est particulièrement intéressant car il représente de la parole entièrement spontanée énoncée dans un cadre sémantique restreint au service vocal appelé. Ainsi les difficultés de traitement inhérentes à la parole spontanée (hésitation, corrections, marqueurs de discours, agrammaticalité, bruit) sont compensées par la connaissance a priori disponible sur le contenu sémantique de ces messages.

 

La nécessité de disposer de méthodes robustes permettant d'appréhender ces données "difficiles" conditionne bien souvent le type de méthode pouvant être employées : ce sont les méthodes basées sur un apprentissage statistique sur corpus qui sont privilégiées. Le point faible de ces méthodes est la nécessité de disposer de corpus annotés (en entités, concepts, structures sémantiques, etc.) en taille suffisante pour pouvoir entraîner les modèles. Ces annotations sont à la fois coûteuses (en temps d'annotation) et difficiles à obtenir car nécessitant des annotateurs "experts".

 

D'un point de vue applicatif, ce dernier point est l'un des freins important au développement à faible coût de solutions d'analyse de corpus pour les centres d'appels.

 

D'un point de vue scientifique, le manque de données manuellement annotées pour entraîner des modèles de fouille de données sonores ouvre la voie à trois pistes de recherche prometteuses :

  • Apprentissage actif ("active learning")
    • Comment sélectionner automatiquement les exemples à étiqueter pour un apprentissage optimal des modèles ?
  • Apprentissage collaboratif ("co-training") et adaptation dynamique
    • Comment utiliser une communauté d'apprenant pour améliorer des modèles existants en utilisant du corpus non-annoté ?
    • Comment permettre aux modèles de prendre en compte de manière dynamique de nouvelles données d'apprentissage ou des retours (positifs ou négatifs) sur des résultats d'étiquetage provenant d'utilisateurs pour les systèmes mis en service ?
  • Utilisation de ressources linguistiques génériques pour l'étiquetage automatique de corpus.

 

Les deux premiers points sont des thèmes de recherche très actifs dans la communauté scientifique de l'Apprentissage Automatique. Le but de ce projet est d'étudier leurs applications à la problématique de la fouille de données sonores.

Le troisième point est aussi une problématique de recherche très active dans la mesure où la mise à disposition de vastes corpus et de ressources linguistiques riches telles que des dictionnaires syntaxiques de type DicoValence ou des ressources sémantiques telles que WordNet, FrameNet ou Propbank permet d'envisager de développer des outils d'analyse génériques ou du moins demandant une supervision limitée pour être portés sur un nouveau domaine d'application.

 

Dans ce cadre, les deux principaux verrous scientifiques auxquels s'attaque ce projet sont :

  • augmentation de la robustesse dans l'extraction d'informations de haut niveau à partir de corpus oraux contenant de la parole spontanée ;
  • limitation de l'effort d'annotation de corpus par la mise au point et l'emploi de méthodes faiblement supervisées ;

 

Les résultats escomptés du projet DECODA devront illustrer ces deux points à travers les deux prototypes développés et évalués au sein du projet :

-         le prototype d'analyse de corpus "off line" devra afficher des performances acceptables en terme de classification en thème et sous-thème d'appels ainsi qu'en extraction d'entités. Les courbes de performance en fonction du nombre de dialogues transcrits et annotés devront montrer clairement l'apport des méthodes d'apprentissage actif et collaboratif.

-         Le prototype "on line" pourra être vu comme un outil d'aide à l'annotation, soulageant l'effort des opérateurs et des superviseurs du centre d'appel. Il sera également pour nous l'occasion d'évaluer les capacités des modèles développés à prendre en compte dynamiquement cette annotation partielle interactive pour s'adapter automatiquement à l'évolution des appels gérés par le centre.

 

 

 

3.    Bibliographie

 

  • [Abney, 1998] S. Abney, 1998. Parsing by Chunks. Dans les actes de 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics COLING/ACL, Volume 9, 41–47. ACL.
  • [Balcan et al., 2005] M.F. Balcan and A. Blum. A PAC-style model for learning from labeled and unlabeled data. In Proc of COLT'2005, pp111-126, 2005.
  • [Béchet et al., 2004] Frederic Bechet and Giuseppe Riccardi and Dilek Hakkani-Tur, Mining Spoken Dialogue Corpora for System Evaluation and Modelling, Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, EMNLP'2004, pp. 134-141, 24-26 July, Barcelona, Spain
  • [Béchet et al., 2006] Frédéric Béchet, Géraldine Damnati, Nathalie Camelin, Renato de Mori, Spoken opinion extraction for detecting variations in user satisfaction, IEEE/ACL Workshop on Spoken Language Technology (SLT'06), Décembre 2006, Aruba
  • [Blum and Mitchell, 1998] Combining labeled and unlabeled data with co-training. Proceedings of Computational Learning Theory,1998. (COLT 1998) pp92-100.
  • [Brown, 1990] P.F. Brown, S.A. Della Pietra, V.J. Della Pietra, F. Jelinek, J.D. Lafferty, R.L. Mercer, and P.S. Roossin. A statistical approach to machine translation. Computational Linguistics, 16(2) :79–85, 1990.
  • [Breiman, 1984] L. Breiman. Classification and Regression Trees. Chapman & Hall/CRC, 1984.
  • [Camelin et al., 2006] N. Camelin, G. Damnati, F. Bechet, et R. D. Mori, 2006. Opinion mining in a telephone survey corpus. Dans les actes de Proceedings of the International Conference on Spoken Langage Processing (ICSLP), Pittsburgh, PA, USA, 1041–1044.
  • [Charniak, 1997]  E. Charniak. Statistical techniques for natural language parsing. AI Magazine, 18(4) :33–44, 1997.
  •  [Cheng et al., 2007] J. Cheng and K. Wang. Active learning for image retrieval with Co-SVM. Pattern Recognition, 40(1):330-334, 2007.
  •  [Chomsky, 1957] N. Chomsky. Syntactic structures (Trad : Structures syntaxiques, Points Seuil), 1957.
  • [Coppola et al., 2008] Bonaventura Coppola, Alessandro Moschitti,  Sara Tonelli, Giuseppe Riccardi, "Automatic FrameNet-Based Annotation of Conversational Speech", Proceeding of IEEE/ACL workshop SLT'2008, Goa, India
  • [Duvert et al., 2008] Frederic Duvert, Marie-Jean Meurs, Christophe Servan, Frederic Bechet, Fabrice Lefevre, Renato De Mori "Semantic composition process in a speech understanding system" Proceedings of the International Conference on Acoustic Speech and Signal Processing, 2008, Las Vegas, USA
  • [Favre et al., 2005] Benoît Favre, Frédéric Béchet, Pascal Nocéra, Robust Named Entity Extraction from Spoken Archives, Proceedings of the joint conference Human Language Technology – Empirical Methods for Natural Language Processing (HTL-EMNLP'05), Vancouver, Canada, 2005
  •  [Fiscus, 1997] J.G. Fiscus. A post-processing system to yield reduced word error rates: Recognizer Output Voting Error Reduction (ROVER). In Proc. of the Workshop on the IEEE Automatic Speech Recognition and Understanding, pp347-354, 1997.
  • [Garner et al., 1995] S. R. Garner, S.J. Cunningham, G. Holmes, C.G. Nevill-Manning and I.H. Witten. WEKA: The Waikato Environment for Knowledge Analysis. In Proc. of the New Zealand Computer Science Research Students Conference, pp57-64, 1995. http://www.cs.waikato.ac.nz/~ml/index.html
  • [Gilad-Bachrach et al., 2005] R. Gilad-Brachrach, A. Navot and N. Tishby. Query by Committee Made Real. In Proc. of NIPS 2005.
  • [Gildea et Jurafsky, 2002] D. Gildea et D. Jurafsky, 2002. Automatic labeling of semantic roles. Computational Linguistics 28(3), 245–288.
  • [Haffner et al., 2003] P. Haffner, G. Tur, et J. Wright, 2003. Optimizing SVMs for complex call classification. Dans les actes de Proceedings of the International Conference on Acoustics, Speech and Signal Processing (ICASSP), Hong-Kong.
  • [Kuhn et De Mori, 1995] R. Kuhn et R. De Mori, 1995. The application of semantic classification trees to natural language understanding. IEEE Trans. on Pattern Analysis and Machine Intelligence 17(449-460).
  • [Lafferty, 2001] John Lafferty, Andrew McCallum, and Fernando Pereira. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In Proc. 18th International Conf. on Machine Learning, pages 282–289. Morgan Kaufmann, San Francisco, CA, 2001.
  •  [Lamprier et al., 2007]           Lamprier, S., Amghar, T., Levrat, B., Saubion, F.: Document length normalization by statistical regression. In: ICTAI 2007, vol. (2), pp. 19–26. IEEE, Los Alamitos (2007)
  • Lecouteux & al] B. Lecouteux, G. Linarès, P. Nocera, J.F. Bonastre, "Imperfect transcript driven speech recognition", 2006 ICSLP 2006, Pitsburg (USA)
  • [Lee and Narayanan] C. Lee and S. Narayanan, “Toward detecting emotions in spoken dialogs,” Speech and Audio Processing, IEEE Transactions on, vol. 13, no. 2, pp. 293–303, 2005,
  • [Levin et Pieraccini, 1995] E. Levin et R. Pieraccini, 1995. Concept-based spontaneous speech understanding system. Dans les actes de Proceedings of the European Conference on Speech Communication and Technology (Eurospeech), Madrid, Spain, 555–558.
  • [McAllester, 1999] D.A. McAllester. Some PAC-Bayesian Theorems. Machine Learning 37(3): 355-363, 1999.
  • [Merialdo, 1994] B. Merialdo. Tagging English text with a probabilistic model. Computational Linguistics, 20(2) :155–171, 1994.
  • [Muslea, 2002] I. Muslea. Active learning with multiple views. PhD Thesis, University of Southern California, 2002.
  • [Pradhan et al., 2004] S. Pradhan,W.Ward, K. Hacioglu, J. Martin, et D. Jurafsky, 2004. Shallow semantic parsing using support vector machines. Dans les actes de conference Human Language Technology HLT/NAACL.
  • [Ratnaparkhi, 1996] A. Ratnaparkhi et al. A maximum entropy model for part-of-speech tagging. Proceedings of the Conference on Empirical Methods in Natural Language Processing, pages 133–142, 1996.
  • [Raymond et Riccardi, 2007] C. Raymond et G. Riccardi, 2007. Generative and discriminative algorithms for spoken language understanding. Dans les actes de Proceedings of the International Conference on Speech Communication and Technology (Interspeech), Volume 2.
  • [Riccardi and Hakkani-Tur, 2004] Giuseppe Riccardi and Dilek Hakkani-Tür. Active Learning: Theory and Applications to Automatic Speech Recognition. IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL. 13, NO. 4, JULY 2005.
  • [Rouvier & al, 2008]  M. Rouvier, G. Linarès, and B. Lecouteux. On-the-y term spotting by phonetic ltering and request-driven decoding. In IEEE Workshop on Spoken Language Technology, 2008, GOA
  • [Shannon, 1948] C. Shannon. A mathematical theory of communcation. Bell Systems Technical Journal, 1948.
  • [Seung et al., 1992] H. S. Seung, M. Opper and H. Sompolinsky. Query by committee. In Proc. of the 5th annual ACM Workshop on Computational Learning Theory, 1992.
  • [Schapire et al. 1999] R. E. Schapire and Y. Singer.  Improved boosting algorithms using confidence-rated predictions. Machine Learning 37(3):297-336, 1999. 
  • [Schapire, 2000] Robert E. Schapire and Yoram Singer. BoosTexter : A boosting-based system for text categorization. Machine Learning, 39 :135–168, 2000.
  • [Singhal et al., 1996]  Singhal, A., Salton, G., Mitra, M., Buckley, C.: Document length normalization. Information Processing and Management 32(5), 619–633 (1996)
  •  [Vapnik, 2000] V.N. Vapnik. The Nature of Statistical Learning Theory. Springer, 2000
  • .[Vidal et al., 1993] E. Vidal, R. Pieraccini, et E. Levin, 1993. Learning associations between grammars : a new approach to natural language understanding. Dans les actes de Proceedings of the European Conference on Speech Communication and Technology (Eurospeech), Berlin, Germany.
  • [Wang et al., 2007] W. Wang and Z.H. Zhou. Analyzing co-training style algorithms. In Proc. of ECML'2007.