Damien Nouvel - Recherche

Damien Nouvel

MCF en TAL, Inalco, Paris, France

When a measure becomes a target, it ceases to be a good measure (M. Strathern / C. Goodhart)

Traitement automatique des langues et analyse du discours

Le projet TALAD (ANR PRCE 2017-2021) se focalise sur les interactions entre le Traitement Automatique des Langues (TAL) et l'Analyse du Discours (AD). Il vise à renforcer les travaux et collaborations entre deux communautés relativement étanches afin de déterminer comment le TAL peut outiller l'AD dans ses explorations et, en retour, quel éventail de phénomènes complexes l'AD peut offrir comme problématique de traitement TAL des corpus.

Ce projet se focalise sur les nominations, avec un apport TAL sur la détection des entités coréférentes et un travail en AD sur le repérage et la caractérisation des nomination. Les laboratoires impliqués sont AGORA (Cergy), PRAXILING (Montpellier), ERTIM (Paris), LI (Tours) et l'entreprise est Reticular qui fournira des données (interviews radios) et vers qui sera réalisé le transfert technologique en fin de projet.

Translittération et désambiguisation lexicale

Je travaille en ce moment sur les mécanismes de translittération (ou romanisation) pour l'arabe et de désambiguisation lexicale (POS, tons, gloses) pour le bambara, une langue mandingue. Dans les deux cas, l'un des objectifs est de parvernir à déterminer quelle est la forme correcte d'un mot selon son contexte.

Il s'agit donc de se donner les moyens de traiter des langues sur lesquelles la compétence linguistique est faible (en arabe) voire inexistante (en bambaraà), et qui sont de surcroit peu dotées. La collaboration avec des locuteurs de ces langues est indispensable, ce qui donne lieu à de nombreuses interactions avec des linguistes.

La translittération consiste à transférer des mots entre systèmes d'écriture, en l'occurrence de l'arabe vers une écriture latine (ou romaine). Ce mécanisme s'appuie sur des correspndances entre la langue écrite et la langue orale pour chaque langue et chaque système d'écriture, or celles-ci sont souvent imparfaites. Dans le cas de l'arabe, la grande majorité des textes ne comportent de diacritiques : pour un mot donné en arabe, il faut au préalable ajouter les diacritiques (selon le contexte) avant de pouvoir le translittérer en caractères latins (consonnes et voyelles).

La désambiguisation lexicale porte sur l'ajout d'informations pour les mots de textes (ici en bambara). Notre projet vise à ajouter les tons et à déterminer la glose, pour chaque mot du texte selon son contexte. Ceci suppose de faire appel à des ressources lexicales, nous avons par ailleurs utilisé des approches d'apprentissage automatique grâce à la disponibilité d'un corpus annoté.

Annotation sémantique pour l'extraction d'information

Dans le cadre du projet Systematic ProjEstimate (Estimation de projets logiciels), l'objectif est d'apporter le traitement automatique de corpus de documents de spécifications (cahiers des charges, spécifications fonctionnelles) afin de fournir des indicateurs pour les méthodes d'estimation de coût logiciel (SLOC, COCOMO, IFPUG). Nos travaux sur le sujet cherchent à repérer des construction syntaxico-sémantiques à assimiler aux schémas associés au logiciels à développer. A cet effet, nous avons mis en place une architecture reposant sur l'utilisation d'un analyseur syntaxique état de l'art.

En l'absence de volumes suffisants de données de la part des partenaires, nous avons mené des expériences préliminaires sur une thématique approchante : le repérage des processus en jeu lors de l'élaboration de recettes de cuisine (campagne DEFT 2013). Nos expériences visaient à déterminer quelles transformations de structures syntaxiques aident pour l'extration d'information. L'utilisation conjointe d'un analyseur syntaxique, de méthodes tournées vers la fouille de données et d'apprentissage automatique montrent l'intérêt de s'appuyer sur des structures syntaxico-sémantiques pour ce type de tâche.

Par ailleurs, mon implication récente dans le projet ANR VERA (adVanced ERror Analysis for speech recognition) m'a donné l'opportunité de travailler sur l'intégration entre annotation sémantique et reconnaissance de la parole. L'objectif est d'exploiter les réseaux de confusion et les paramètres acoustiques fournis par les systèmes de reconnaissance vocale afin d'améliorer conjointement la transcription automatique et la reconnaissance des entités nommées. A cette occasion, des liens se font entre mes travaux de thèse, ceux menés à Alpage et mes activités actuelles au LIMSI. Dans ce contexte, j'ai l'intention de faire un travail expérimental, à la fois quantitatif et qualitatif, sur les combinaisons possibles de méthodes symboliques et statistiques pour l'extraction d'information.

Incomplétude lexicale

Dans le cadre du projet ANR EDyLex, nous avons travaillé sur les moyens à mettre en œuvre afin d'être en mesure de déterminer automatiquement les propriétés utiles de formes inconnues des lexiques. Leur étude sur un flux de dépêches montre qu'ils ne tarissent pas : un lexique n'est jamais réellement complet, à la fois car la langue est capable de générer de nombreuses formes selon les besoins et parce que les termes utilisés dans la langue évoluent au cours du temps. Il s'agit donc de déterminer permet de traiter la langue de manière plus dynamique, à la volée.

Ces "néologismes" peuvent être des formes simples comme les bolos, la télémise à jour (de sa carte Vitale), l'itinérance, ambiancer, le swag, ou composées commme les socialo-socialistes, être sarko-compatible ou encore les cyclo-nudistes (et beaucoup, beaucoup d'autres).

Divers mécanismes ont été exploités pour les analyser : utilisation de lexiques externes, décomposition par analogie, décomposition par règles, analyse morphologique (préfixes ou trait d'union). Dans de nombreux cas, il devient alors possible, même lorsque la forme n'existe pas dans le lexique de référence, d'obtenir une analyse correcte et de déterminer leur classe flexionnelle. Pour le cas particulier des noms propres, il semble indispensable de passer par l'interrogation d'encyclopédies en ligne (comprendre : Wikipedia) si l'on veut par exemple déterminer leur type.

Reconnaissance d'entités nommées

Parmi les tâches d'extraction d'information, la Reconnaissance d'Entités Nommées (REN) consiste à reconnaître (rechercher et catégoriser) toutes les Entités Nommées (EN) d'un texte : des expressions que nous supposons stables (désignation) et opérables (vocation a être partie d'un raisonnement logique). Ces éléments sont considérés comme des objets qui, lorsqu'ils sont identifiées, permettent de construire le sens d'un texte. Lorsque l'on parvient à les reconnaître, elles peuvent être exploitées telles quelles ou servir à des traitement ultérieurs du document considéré.

Sont généralement considérées commen Entités Nommées :

les noms propres : noms de personnes, d'organisations (sociétés, institutions, etc.), de lieux mais aussi les noms marques, produits, etc.
les descriptions définies : expressions numériques (montants, quantités), expressions de temps (date, horaire, intervalles), fonctions (poste, rôle), mais cette classe est plus "ouverte" et plus variée selon l'application considérée.

La REN est une tâche étudiée depuis une quinzaine d'années. Les approches automatiques, initialement élaborées par introspection à l'aide de connaissances humaines, sont aujourd'hui également guidés par les données, généralement à l'aide de modèles numérique automatiquement paramétrés (maximum d'entropie, HMM, CRF, SVM). Couramment, des dictionnaires (listes) de noms propres, des prétraitements linguistiques (morpho-syntaxe, lexiques) sont utilisés pour enrichir les textes en entrée afin d'y reconnaître les entités.

Notre travail cherche à concilier les deux approches, en extrayant automatiquement des connaissances (à l'aide de corpus annotés) qui formeront la base de règles d'un système automatiquement paramétré. Pour ce faire, nous considérons que chaque marqueur d'annotation (balise) est une instruction locale, et, par suite, qu'une entité nommée est une expression linguistique structurée à l'aide de ces instructions.

Pour ceux qui se penchent sur la question des entités nommées et ne savent par où commencer, voici une suggestion de références comme point de départ :

Historique et état de l'art :
- Grishman, R., & Sundheim, B. (1996, August). Message Understanding Conference-6: A Brief History. In COLING (Vol. 96, pp. 466-471).
- Nadeau, D., & Sekine, S. (2007). A survey of named entity recognition and classification. Lingvisticae Investigationes, 30(1), 3-26.
Tâche et approaches (triées par date):
- Bikel, D. M., Schwartz, R., & Weischedel, R. M. (1999). An algorithm that learns what's in a name. Machine learning, 34(1-3), 211-231.
- Mikheev, A., Moens, M., & Grover, C. (1999, June). Named entity recognition without gazetteers. In Proceedings of the ninth conference on European chapter of the Association for Computational Linguistics (pp. 1-8). Association for Computational Linguistics.
- Miller, D., Boisen, S., Schwartz, R., Stone, R., & Weischedel, R. (2000, April). Named entity extraction from noisy input: speech and OCR. In Proceedings of the sixth conference on Applied natural language processing (pp. 316-324). Association for Computational Linguistics.
- Tjong Kim Sang, E. F., & De Meulder, F. (2003, May). Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition. In Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Volume 4 (pp. 142-147). Association for Computational Linguistics.
- McCallum, A., & Li, W. (2003, May). Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons. In Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Volume 4 (pp. 188-191). Association for Computational Linguistics.
- Bunescu, R. C., & Pasca, M. (2006, April). Using Encyclopedic Knowledge for Named entity Disambiguation. In EACL (Vol. 6, pp. 9-16).
- Ratinov, L., & Roth, D. (2009, June). Design challenges and misconceptions in named entity recognition. In Proceedings of the Thirteenth Conference on Computational Natural Language Learning (pp. 147-155). Association for Computational Linguistics.

Exploration de données

Lorsque l'on souhaite traiter d'importants volumes d'informations afin d'y chercher des connaissances, il est souvent fait appel à des méthodes de fouille de données. Effectivement, ces méthodes permettent d'explorer les données, selon la problématique étudiée, afin d'en extraire des connaissance objectivement et exhaustivement, autant que possible.

Dans notre contexte, nous cherchons des règles d'annotation (à l'image des règles d'association), qui ont pour objectif de trouver et de mettre à disposition des motifs corrélés aux marqueurs d'entités nommées. Nous nous appuyons sur des algorithmes qui énumèrent tous les contextes possibles autours de entités, et sélectionnent ceux qui sont fréquents.

Par ailleurs, nous déclinons l'exploration des données par utilisation d'une formulation alternative : les motifs de segments. Ceux-ci font abstraction des répétitions au sein des données, en s'appuyant sur une hypothèse de structuration des données au sein d'une hiérarchie. Ils permettent alors de réduire la combinatoire en cours d'extraction, ceci plus particulièrement lorsque les données sont riches d'informations.

Une fois ces règles extraites, il s'agit de les appliquer à des textes, afin de déterminer si elles sont effectivement capables de réaliser la tâche de manière à la fois précise (sans faux-positifs / entités détectées qui n'en sont pas) et couvrantes (sans faux-négatifs / entités manquées). Pour en savoir plus, je vous invite à consulter nos dernières publications ou à me contacter via ce formulaire ou par email à l'adresse damien point nouvel at univ tiret tours point fr .

Doctorat

Voici quelques informations à propos de mon doctorat :

Titre : Reconnaissance des entités nommées par exploration de règles d'annotation
Manuscrit et slides de soutenance disponibles dans les publications
Résumé : Ces dernières décennies, le développement considérable des technologies de l'information et de la communication a modifié en profondeur la manière dont nous avons accès aux connaissances. Face à l'afflux de données et à leur diversité, il est nécessaire de mettre au point des technologies performantes et robustes pour y rechercher des informations. A cet effet, les entités nommées (personnes, lieux, organisations, dates, expressions numériques, marques, fonctions, etc.) sont sollicitées dans l'objectif de catégoriser, d'indexer, ou, plus généralement, de manipuler des contenus. L'identification de ces éléments est souvent réalisée à l'aide de procédures dites d'annotation. Notre travail porte sur la reconnaissance et l'annotation des entités nommées au sein de transcriptions d'émissions radiodiffusées ou télévisuelles. A cet effet, nous explorons des données dans lesquelles sont relevées les entités nommées, pour extraire des règles d'annotation (qui s'appuient sur des instructions locales) afin d'élaborer un système de reconnaissance automatique des entités nommées. En première partie, nous abordons la problématique du traitement automatique du langage et des entités nommées en particulier. Nous revenons sur la relation qu'entretien l'automate avec le langage et décrivons les analyses généralement conduites pour traiter le langage naturel. Nous abordons ensuite la problématique des entités nommées (rétrospective des notions recouvertes, typologies, évaluation et annotation) et proposons une caractérisation de leur nature linguistique. Nous concluons cette partie par un positionnement à l'égard des approches état de l'art du domaine et par notre proposition, centrée sur les marqueurs (balises) de début ou de fin d'annotation. En seconde partie, nous exposons le formalisme d'exploration de données que nous adoptons. Nous commençons par le situer au sein des méthodes de fouille de texte. Puis nous nous dotons d'un cadre formel pour explorer les motifs, en particulier ceux qui sont corrélés aux marqueurs d'annotation, que nous nommons règles d'annotation. Enfin, nous présentons les modèles que nous utilisons lorsqu'il s'agit d'exploiter ces règles extraites afin de réaliser l'annotation d'un texte donné. La dernière partie décrit le système implémenté, mXS, et les résultats obtenus. Nous détaillons en premier lieu les modules de traitements, ressources lexicales et corpus à notre disposition pour mener les expériences. Nous présentons ensuite la mise en oeuvre et les résultats pour l'exploration des données et pour l'extraction des règles d'annotation. Enfin, nous fournissons des résultats chiffrés relatifs aux performances obtenues par mXS, ainsi que des indicateurs supplémentaires quant au comportement du système à divers point de vue et dans diverses configurations. Ils montrent que l'approche que nous proposons est compétitive et qu'elle ouvre des perspectives dans le cadre du traitement du langage et de l'annotation automatique.
Composition du jury :
- M. Jean-Yves Antoine, Professeur des universités, Université François Rabelais de Tours (directeur)
- M. Frédéric Béchet, Professeur des universités, Aix Marseille Université (examinateur)
- M. Bruno Crémilleux, Professeur des universités, Université de Caen (rapporteur)
- Mme Nathalie Friburger, Maître de conférences, Université François Rabelais de Tours (encadrante)
- Mme Sophie Rosset, Directrice de recherche, LIMSI-CNRS (rapporteure)
- M. Arnaud Soulet, Maître de conférences, Université François Rabelais de Tours (encadrant)

Dans le cadre de cette thèse, nous avons organisé en 2011 une journée d'étude, grâce à l'ATALA (Association pour le Traitement Automatique des Langues), dont le thème était "Reconnaissance d'Entités Nommées, Nouvelles Frontières et Nouvelles Approches". En voici le programme [pdf] ou plus de détails sur la page dédiée du site BDTLN (avec les slides / poster des participants).

Salutations mes homonymes et liens vers ceux qui ont un site, un carreleur en Bretagne, un docteur en économie, d'autres à venir 👋