MCF en TAL, Inalco, Paris, France
Se demander si un ordinateur peut penser est aussi intéressant que se demander si un sous-marin peut nager (E. Dijkstra)
Dans le cadre de mon doctorat, j'ai élaboré, développé et évalué un système de reconnaissance automatique des entités nommées (pour le moment, pour le français) qui s'appuie sur l'extraction de règles d'annotation (fouille de patrons). Ce système présente l'avantage de permettre la visualisation et la manipulation de motifs (hiérarchiques, séquentiels) corrélés à des marqueurs (balises) d'annotation extraits automatiquement.
mXS annote les entités nommées sur des textes en français par utilisation d'un modèle appris sur le corpus Etape. Sur un système Linux ou Mac, la procédure devrait être relativement simple (et est détaillée dans le fichier README) :
Vous pouvez télécharger une version du système en ligne sur github, ici. C'est une version alpha mais qui devrait connaître pas mal d'évolutions dans les semaines à venir, n'hésitez pas à me contacter afin que je vous indique comment l'installer et l'utiliser !
Le système est décrit, notamment, dans la publication : Recognizing Named Entities using Automatically Extracted Transduction Rules (Nouvel et.al. 2011) [pdf]. Merci à Arnaud Soulet pour avoir fourni le squelette du système, et à Nathalie Friburger pour les éléments récupérés de CasEN.