MCF en TAL, Inalco, Paris, France
Se demander si un ordinateur peut penser est aussi intéressant que se demander si un sous-marin peut nager (E. Dijkstra)
Le projet TALAD (ANR PRCE 2017-2021) se focalise sur les interactions entre le Traitement Automatique des Langues (TAL) et l'Analyse du Discours (AD). Il vise à renforcer les travaux et collaborations entre deux communautés relativement étanches afin de déterminer comment le TAL peut outiller l'AD dans ses explorations et, en retour, quel éventail de phénomènes complexes l'AD peut offrir comme problématique de traitement TAL des corpus.
Ce projet se focalise sur les nominations, avec un apport TAL sur la détection des entités coréférentes et un travail en AD sur le repérage et la caractérisation des nomination. Les laboratoires impliqués sont AGORA (Cergy), PRAXILING (Montpellier), ERTIM (Paris), LI (Tours) et l'entreprise est Reticular qui fournira des données (interviews radios) et vers qui sera réalisé le transfert technologique en fin de projet.
Je travaille en ce moment sur les mécanismes de translittération (ou romanisation) pour l'arabe et de désambiguisation lexicale (POS, tons, gloses) pour le bambara, une langue mandingue. Dans les deux cas, l'un des objectifs est de parvernir à déterminer quelle est la forme correcte d'un mot selon son contexte.
Il s'agit donc de se donner les moyens de traiter des langues sur lesquelles la compétence linguistique est faible (en arabe) voire inexistante (en bambaraà), et qui sont de surcroit peu dotées. La collaboration avec des locuteurs de ces langues est indispensable, ce qui donne lieu à de nombreuses interactions avec des linguistes.
La translittération consiste à transférer des mots entre systèmes d'écriture, en l'occurrence de l'arabe vers une écriture latine (ou romaine). Ce mécanisme s'appuie sur des correspndances entre la langue écrite et la langue orale pour chaque langue et chaque système d'écriture, or celles-ci sont souvent imparfaites. Dans le cas de l'arabe, la grande majorité des textes ne comportent de diacritiques : pour un mot donné en arabe, il faut au préalable ajouter les diacritiques (selon le contexte) avant de pouvoir le translittérer en caractères latins (consonnes et voyelles).
La désambiguisation lexicale porte sur l'ajout d'informations pour les mots de textes (ici en bambara). Notre projet vise à ajouter les tons et à déterminer la glose, pour chaque mot du texte selon son contexte. Ceci suppose de faire appel à des ressources lexicales, nous avons par ailleurs utilisé des approches d'apprentissage automatique grâce à la disponibilité d'un corpus annoté.
Dans le cadre du projet Systematic ProjEstimate (Estimation de projets logiciels), l'objectif est d'apporter le traitement automatique de corpus de documents de spécifications (cahiers des charges, spécifications fonctionnelles) afin de fournir des indicateurs pour les méthodes d'estimation de coût logiciel (SLOC, COCOMO, IFPUG). Nos travaux sur le sujet cherchent à repérer des construction syntaxico-sémantiques à assimiler aux schémas associés au logiciels à développer. A cet effet, nous avons mis en place une architecture reposant sur l'utilisation d'un analyseur syntaxique état de l'art.
En l'absence de volumes suffisants de données de la part des partenaires, nous avons mené des expériences préliminaires sur une thématique approchante : le repérage des processus en jeu lors de l'élaboration de recettes de cuisine (campagne DEFT 2013). Nos expériences visaient à déterminer quelles transformations de structures syntaxiques aident pour l'extration d'information. L'utilisation conjointe d'un analyseur syntaxique, de méthodes tournées vers la fouille de données et d'apprentissage automatique montrent l'intérêt de s'appuyer sur des structures syntaxico-sémantiques pour ce type de tâche.
Par ailleurs, mon implication récente dans le projet ANR VERA (adVanced ERror Analysis for speech recognition) m'a donné l'opportunité de travailler sur l'intégration entre annotation sémantique et reconnaissance de la parole. L'objectif est d'exploiter les réseaux de confusion et les paramètres acoustiques fournis par les systèmes de reconnaissance vocale afin d'améliorer conjointement la transcription automatique et la reconnaissance des entités nommées. A cette occasion, des liens se font entre mes travaux de thèse, ceux menés à Alpage et mes activités actuelles au LIMSI. Dans ce contexte, j'ai l'intention de faire un travail expérimental, à la fois quantitatif et qualitatif, sur les combinaisons possibles de méthodes symboliques et statistiques pour l'extraction d'information.
Dans le cadre du projet ANR EDyLex, nous avons travaillé sur les moyens à mettre en œuvre afin d'être en mesure de déterminer automatiquement les propriétés utiles de formes inconnues des lexiques. Leur étude sur un flux de dépêches montre qu'ils ne tarissent pas : un lexique n'est jamais réellement complet, à la fois car la langue est capable de générer de nombreuses formes selon les besoins et parce que les termes utilisés dans la langue évoluent au cours du temps. Il s'agit donc de déterminer permet de traiter la langue de manière plus dynamique, à la volée.
Ces "néologismes" peuvent être des formes simples comme les bolos, la télémise à jour (de sa carte Vitale), l'itinérance, ambiancer, le swag, ou composées commme les socialo-socialistes, être sarko-compatible ou encore les cyclo-nudistes (et beaucoup, beaucoup d'autres).
Divers mécanismes ont été exploités pour les analyser : utilisation de lexiques externes, décomposition par analogie, décomposition par règles, analyse morphologique (préfixes ou trait d'union). Dans de nombreux cas, il devient alors possible, même lorsque la forme n'existe pas dans le lexique de référence, d'obtenir une analyse correcte et de déterminer leur classe flexionnelle. Pour le cas particulier des noms propres, il semble indispensable de passer par l'interrogation d'encyclopédies en ligne (comprendre : Wikipedia) si l'on veut par exemple déterminer leur type.
Parmi les tâches d'extraction d'information, la Reconnaissance d'Entités Nommées (REN) consiste à reconnaître (rechercher et catégoriser) toutes les Entités Nommées (EN) d'un texte : des expressions que nous supposons stables (désignation) et opérables (vocation a être partie d'un raisonnement logique). Ces éléments sont considérés comme des objets qui, lorsqu'ils sont identifiées, permettent de construire le sens d'un texte. Lorsque l'on parvient à les reconnaître, elles peuvent être exploitées telles quelles ou servir à des traitement ultérieurs du document considéré.
Sont généralement considérées commen Entités Nommées :
La REN est une tâche étudiée depuis une quinzaine d'années. Les approches automatiques, initialement élaborées par introspection à l'aide de connaissances humaines, sont aujourd'hui également guidés par les données, généralement à l'aide de modèles numérique automatiquement paramétrés (maximum d'entropie, HMM, CRF, SVM). Couramment, des dictionnaires (listes) de noms propres, des prétraitements linguistiques (morpho-syntaxe, lexiques) sont utilisés pour enrichir les textes en entrée afin d'y reconnaître les entités.
Notre travail cherche à concilier les deux approches, en extrayant automatiquement des connaissances (à l'aide de corpus annotés) qui formeront la base de règles d'un système automatiquement paramétré. Pour ce faire, nous considérons que chaque marqueur d'annotation (balise) est une instruction locale, et, par suite, qu'une entité nommée est une expression linguistique structurée à l'aide de ces instructions.
Pour ceux qui se penchent sur la question des entités nommées et ne savent par où commencer, voici une suggestion de références comme point de départ :
Lorsque l'on souhaite traiter d'importants volumes d'informations afin d'y chercher des connaissances, il est souvent fait appel à des méthodes de fouille de données. Effectivement, ces méthodes permettent d'explorer les données, selon la problématique étudiée, afin d'en extraire des connaissance objectivement et exhaustivement, autant que possible.
Dans notre contexte, nous cherchons des règles d'annotation (à l'image des règles d'association), qui ont pour objectif de trouver et de mettre à disposition des motifs corrélés aux marqueurs d'entités nommées. Nous nous appuyons sur des algorithmes qui énumèrent tous les contextes possibles autours de entités, et sélectionnent ceux qui sont fréquents.
Par ailleurs, nous déclinons l'exploration des données par utilisation d'une formulation alternative : les motifs de segments. Ceux-ci font abstraction des répétitions au sein des données, en s'appuyant sur une hypothèse de structuration des données au sein d'une hiérarchie. Ils permettent alors de réduire la combinatoire en cours d'extraction, ceci plus particulièrement lorsque les données sont riches d'informations.
Une fois ces règles extraites, il s'agit de les appliquer à des textes, afin de déterminer si elles sont effectivement capables de réaliser la tâche de manière à la fois précise (sans faux-positifs / entités détectées qui n'en sont pas) et couvrantes (sans faux-négatifs / entités manquées). Pour en savoir plus, je vous invite à consulter nos dernières publications ou à me contacter via ce formulaire ou par email à l'adresse damien point nouvel at univ tiret tours point fr .
Voici quelques informations à propos de mon doctorat :
Dans le cadre de cette thèse, nous avons organisé en 2011 une journée d'étude, grâce à l'ATALA (Association pour le Traitement Automatique des Langues), dont le thème était "Reconnaissance d'Entités Nommées, Nouvelles Frontières et Nouvelles Approches". En voici le programme [pdf] ou plus de détails sur la page dédiée du site BDTLN (avec les slides / poster des participants).