Séminaires>2010-2011

Séminaires

Les séminaires de l'année universitaire 2010-2011
auront lieu le lundi matin, à 10:30,
au bâtiment Copernic 4ème étage, salle de séminaire
au LIGM, Université Paris-Est.

Responsables du séminaire : Anthony SIGOGNE et Myriam RAKHO (nom[at]univ-mlv.fr),
tel. : 01 60 95 77 17.



Lundi 21 novembre 2011	Rosa CETRO	LIGM, Université Paris-Est Marne-la-Vallée	Lexique-grammaire et Unitex : quels apports pour une description terminologique bilingue de qualité ?	Télécharger

Nous nous proposons de faire une présentation générale de notre travail de thèse, qui se situe au carrefour entre linguistique, terminologie et informatique. La description linguistique des éléments scientifiques et techniques du lexique (les termes) a été l’objet d’un vif débat chez les intellectuels depuis le XVIIe siècle. La formulation de la Théorie Générale de la Terminologie par l’autrichien E. Wüster, au début du XXe siècle, a établi des principes méthodologiques rigoureux dans le traitement des termes et a contribué à donner à la terminologie le statut de discipline scientifique. L’informatique a joué un rôle crucial dans le développement de la terminologie, surtout dans les vingt dernières années, non seulement d’un point de vue pratique, mais aussi en fournissant des pistes de réflexion théoriques, soulignant l’importance de la syntaxe. La méthodologie du lexique-grammaire, dans laquelle les faits de syntaxe ont une importance considérable, a rarement été exploitée pour des travaux en langues de spécialité et terminologie. A l’appui de deux corpus comparables (français-italien) ayant trait à la médecine thermale, nous décrirons quelques unités terminologiques de ce domaine (noms, verbes et adjectifs) selon cette méthodologie. Nous verrons également comment le logiciel Unitex, non conçu expressément pour la terminologie, peut viser des applications dans cette discipline. La combinaison des deux méthodes (lexique-grammaire et traitement de textes par Unitex), en intégration aux pratiques terminologiques courantes, peut améliorer les travaux de description terminologique bilingue.


Lundi 28 novembre 2011	Adrien Durand/Lidia Varga	LIGM, Université Paris-Est Marne-la-Vallée	Développement de plate-forme open-source de création rapide de grammaires locales Le projet de recherche [Gram]Lab	Télécharger

L’objectif du projet GramLab est de mettre à disposition de la communauté scientifique et industrielle une plateforme de création rapide de grammaires locales comprenant des outils et des ressources linguistiques de traitement du langage gratuits et open source, facilement adaptables, manipulables par tous développeurs. Les utilisateurs visés dans le projet sont avant tout les linguistes-informaticiens producteurs de grammaires et les PME du traitement de l’information, mais aussi tous ceux qui s’y intéressent (professeur de langue étrangère, terminologue, linguiste, etc.). Le projet est porté par quatre PME (KWAGA, LINGWAY, ACTIMOS, KWAM) et un laboratoire de recherche (Laboratoire d’Informatique Gaspard-Monge, UPE-MLV). L’Association des Professionnels des Industries de la Langue (APIL) participe comme sous- traitant dans le projet. Les grammaires locales (M. Gross, 1997) utilisées en traitement de l’information par méthodes hybride et symbolique se présentent sous la forme de graphes et sont exécutées à l’aide d’automates. Le logiciel Unitex, un système de traitement de corpus open-source, multi plate-forme, multilingue, basé sur la technologie des automates, imaginé au LADL (Laboratoire d’Automatique Documentaire et Linguistique) par Maurice Gross, puis développé à LIGM par S. Paumier, 2003, http://igm.univ-mlv.fr/~unitex sert de noyau pour le développement de la plate-forme GramLab. Après une présentation générale du projet, nous nous concentrerons sur le développement de module d’automates de séquences qui permet la construction de graphes de grammaires locales à partir de corpus qualifié préparé par le linguiste.


Lundi 05 décembre 2011	Cristian Martinez	IFRIS/ESIEE	Perspectives for Modeling and Automatically Processing Multi-source Textual Information Derived from Scientific and Technical Databases	Télécharger

How efficient is modeling and automatically processing multi-source scientific and technical information mediated by a large set of documents ? Scientific and technical text analysis has been receiving rising attention within the social sciences through an increasing amount of text in electronic format and the explosion of digital databases/libraries. This textual data may principally come from articles and patents, but also from specialized databases such as financial and scientific projects databases, economics news, surveys, and far more from bibliographic websites or the blogosphere. In order to allow efficient access and use of this information, several challenges must be overcome: at an organizational level it is necessary to constitute work teams, policies and agreements, and to facilitate the access to information collected and produced. At a technical level, the approach to how to process heterogeneous textual data should be discussed, along with other aspects, such as the treatment of large-scale corpus, reduction of noise contained, possible duplication, multilingualism, and several further computer/user processing tasks. But where should we start? The automatic processing of multi-source scientific and technical information involves various computer sciences disciplines: data & knowledge engineering, text mining, natural language processing, information retrieval and visualization, or software ergonomics. To begin with, it is necessary to propose a sort of ‘meeting point ’: a framework where to bring together these disciplines in a focused way. Unfortunately, the heterogeneous and dynamic nature of the information, does not make that task easier. In this talk, we will present an approach to gathering, modeling, and preserving large-scale textual information, by linking bits of information, normalizing them and enriching this data. We are going to talk about an open source modular framework (in pre-alpha developement), called Scilmarin, designed to allow the automatic processing of large-scale multi-source textual information derived from scientific and technical databases. Also, we will present XML, a draft specification to model scientific and technical data. Finally, we will explore the possibility of Scilmarin to assume tasks involving automatic language processing, using other software tools such as Unitex.


Lundi 12 décembre 2011	Myriam RAKHO	LIGM, Université Paris-Est Marne-la-Vallée	Un corpus de verbes annoté sémantiquement avec le Lexique-Grammaire	Télécharger

La désambiguïsation sémantique des mots polysémiques (mots qui possèdent la qualité d'avoir plusieurs sens possibles) consiste à assigner à l'un de ces mots dans un contexte donné (phrase, paragraphe) celui de ses sens qu'il instancie. Il s'agit, par exemple pour le verbe comprendre, de reconnaître automatiquement la phrase Le principe de précaution ne comprend pas la politisation de la science comme une instance du sens “1 Contenir, renfermer en soi” et la phrase Vous devez comprendre que nous ne vous laisserons pas faire cela comme une instance du sens “ 2 Se rendre compte de, que”. Dans le cadre multilingue, les différentes traductions possibles des mots dans une langue cible donnée sont utilisées pour représenter l'inventaire de leurs sens. Si la langue cible est l'anglais, le verbe comprendre a donc pour étiquettes de sens les verbes understand, realise, see, gather, grasp, sympathise, appreciate, include, involve, imply, etc.. L'un des inconvénients de cette approche provient du fait que la correspondance entre les sens d'un mot polysémique et leurs équivalents en langue cible est rarement biunivoque. Un même sens peut être traduit par plusieurs équivalents en langue cible et, inversement, un même équivalent en langue cible peut traduire plusieurs sens d'un mot. Jusqu'à présent, la solution à ce problème consistait à découper l'ensemble des traductions possibles d'un mot en sous-ensembles, chacun correspondant à l'un de ses sens. Par exemple, le sens (1) du verbe “comprendre” serait associé à la classe {involve, imply, include} alors que le sens (2) serait associé à la classe {understand, realise, see, gather, grasp}. Nous proposons une nouvelle forme d'étiquettes de sens : les entrées des mots dans les tables du Lexique-Grammaire. Le Lexique-Grammaire (LG) (Gross, 1975; Boons et al., 1976; Guillet et Leclère, 1992; Leclère, 2004) est un lexique du français dans lequel les différents sens possibles des mots sont décrits en termes de propriétés lexicales, syntaxiques et sémantiques : un mot polysémique a autant d'entrées dans les tables du Lexique-Grammaire qu'il a de sens possibles. Notre étude porte sur 20 verbes polysémiques du français sélectionnés lors de la campagne ARCADE pour l'évaluation des systèmes d'alignement de textes multilingues et utilisés lors des campagnes Senseval/Romanseval pour l'évaluation des systèmes de désambiguïsation sémantique. Pour chacun de ces verbes, nous avons extrait du corpus multilingue EuroParl l'ensemble des contextes en français dans lesquels il apparaît ainsi que leur traduction en anglais. Nous avons ensuite associé quatre étiquettes de sens à chacun de ces contextes : la traduction du verbe polysémique en question dans la version en anglais du contexte et l'entrée du verbe dans le Lexique-Grammaire qu'il représente, une “lexie” de la forme entrée_dans_le_LG#traduction (le résultat de la concaténation des deux premières étiquettes de sens) et une classe de lexies (l'ensemble des lexies qui sont associées à une même entrée du mot dans le Lexique-Grammaire. Nous présenterons ce corpus ainsi que les premiers résultats de nos expériences en désambiguïsation sémantique.


Lundi 16 janvier 2012	Anthony Sigogne	LIGM, Université Paris-Est Marne-la-Vallée	Exploitation des cadres de sous-catégorisation des lexiques du français dans l'optique d'améliorer un analyseur syntaxique probabiliste

Les grammaires hors contexte probabilistes [PCFG], fréquemment utilisées dans le cadre de l'analyse syntaxique, subissent l'effet d'un problème appelé dispersion des données qui représente la difficulté d'estimer les probabilités des règles rares extraites du corpus. Ce problème est également un problème lexical. Plus la morphologie d'une langue est riche, plus les lexiques extraits de corpus arborés pour cette langue seront de grande taille. Néanmoins, l'effet de dispersion lexicale des données peut être réduit en utilisant les techniques de regroupement lexical. Suivant une idée développée dans (Koo et al., 2008), (Candito et al., 2009; Candito et al., 2010) ont proposé une méthode consistant à regrouper les mots du corpus en classes lexicales obtenues automatiquement par un algorithme statistique non-supervisé (Brown et al., 1992) à partir d’un corpus brut. Ils ont également proposé deux autres méthodes. La première consiste à supprimer les marques morphologiques dites peu importantes pour déterminer les projections syntaxiques en constituants. La deuxième consiste à remplacer chaque mot du corpus par la combinaison de l’étiquette morpho-syntaxique et du lemme. Ces trois méthodes améliorent significativement les performances. Plus récemment, (Sigogne et al., 2011) ont décrit une méthode basée sur des données extraites d'un lexique syntaxique du français, le Lexique-Grammaire (Gross, 1994). Cela consiste à remplacer une forme verbale du corpus par la combinaison de son étiquette et des ses identifiants de tables. Les gains obtenus par cette méthode en utilisant uniquement les tables de verbes sont significatifs. Nous proposons une approche de regroupement lexical à partir d'informations extraites des principaux lexiques syntaxiques du français. Un mot du corpus est remplacé par la combinaison de son étiquette morpho-syntaxique et de sa classe lexicale. Ces classes sont obtenues en regroupant les formes distinctes des lexiques selon leur cadre de sous-catégorisation. Nous avons distingué deux ensembles de lexiquesd' apès leur format de données. Pour le premier groupe, composé de Dicovalence (Mertens, 2010), du Lefff (Sagot, 2010) et du Lglex-Lefff, la représentation du cadre de sous-catégorisation a été réduite au vecteur des fonctions syntaxiques liées aux arguments possibles des entrées. Pour le deuxième groupe, composé du seul Lglex (Constant et al., 2010), la représentation du cadre de sous-catégorisation a été réduite au vecteur des prépositions introduisant les arguments indirects des entrées. Nous montrons qu'en appliquant ces méthodes uniquement sur les verbes du corpus, nous sommes capable d'améliorer significativement les performances d'un analyseur PCFG sur le français. Références bibliographiques : P. F. Brown, V. J. Della, P. V. Desouza, J. C. Lai, and R. L. Mercer. 1992. Class-based n-gram models of natural language. In Computational linguistics, 18(4), pages 467-479. M. Candito and B. Crabbe. 2009. Improving generative statistical parsing with semi-supervised word clustering. In Proceedings of IWPT'09, pages 138-141. M. Candito and D. Seddah. 2010. Parsing word clusters. In Proceedings of the first NAACL HLT Workshop on Morphologically-Rich Languages (SPRML2010), p. 76-84, Los Angeles, California. M. Constant and E. Tolone. 2010. A generic tool to generate a lexicon for NLP from Lexicon-Grammar tables. In Michele De Gioia, editor, Actes du 27e Colloque international sur le lexique et la grammaire (L'Aquila, 10-13 septembre 2008). M. Gross. 1994. Constructing Lexicon-grammars. In Atkins and Zampolli, editors, Computational Approaches to the Lexicon, pages 213-263. T. Koo, X. Carreras, and M. Collins. 2008. Simple semi-supervised dependency parsing. In Proceedings of ACL-08. P. Mertens. 2010. Restrictions de selection et realisations syntagmatiques dans DICOVALENCE. Conversion vers un format utilisable en TAL. In TALN 2010. B. Sagot. 2010. The Lefff, a freely available and large-coverage morphological and syntactic lexicon for French. In Proceedings of LREC'10. A. Sigogne, M. Constant, and E. Laporte. 2011. French parsing enhanced with a word clustering method based on a syntactic lexicon. In Proceedings of SPMRL'11, pages 22-27, Dublin, Ireland.


Lundi 19 mars 2012	Amalia TODIRASCU	LILPA/Université de Strasbourg	Un système d'extraction multilingue de collocations	Télécharger



Lundi 5 mai 2012	Philippe Gambette	LIGM, Université Paris-Est Marne-la-Vallée	Nuages arborés et analyse textuelle	Télécharger

Le nuage arboré est un outil de visualisation des mots d'un texte. Comme dans un nuage de mots, les mots ont une taille de caractères des mots qui reflète leur fréquence ou leur importance dans le texte, mais ils sont de plus placés autour d'un arbre qui reflète leur proximité dans le texte. Nous présenterons tout d'abord la méthodologie générale de construction de ces nuages arborés. Nous évoquerons ensuite diverses possibilités d'utilisation, au-delà du simple résumé visuel du texte fourni en entrée. L'interaction avec d'autres logiciels de textométrie en analyse littéraire sera notamment illustrée. Nous nous focaliserons ensuite sur deux questions techniques relatives à la construction de ces nuages arborés : le choix de la formule de cooccurrence, et le choix de la méthode permettant de calculer les longueurs des arêtes de l'arbre. Une interface en ligne permettant de construire facilement des nuages arborés est accessible sur www.treecloud.org.


Lundi 21 mai 2012	Pierre André BUVET	Université Paris 13	Ressources linguistiques pour le TAL : l'exemple des prédicats d'affect	Télécharger

Nous discuterons de la nécessité de recourir à des ressources linguistiques exhaustives et suffisamment renseignées pour le traitement automatiquement des langues. Nous établirons comment la subjectivité des textes peut-être détectée à partir, notamment, de la description des prédicats d'affect. Nous évoquerons le cadre théorique de cette description et sa représentation, principalement, sous forme de grammaires locales et de dictionnaires électroniques.


Lundi 11 juin 2012	Agatha SAVARY	Université François Rabelais Tours)	Annotation d'entités nommées dans le Corpus National du Polonais	Télécharger

Le Corpus National du Polonais, développé par l'Académie Polonaise des Sciences, est une grande collection de textes de 1,5 milliard de mots, de différents genres, dans laquelle des objets de différents types sont annotés linguistiquement : les phrases, les segments, les items morphosyntaxiques, les mots syntaxiques, les phrases syntaxiques, les entités nommées et les sens des mots. Un sous ensemble de 1 million de mots de ce corpus a été annoté manuellement. Nous évoquerons la méthodologie générale de construction d'un tel corpus multi-niveau, ainsi que la définition de son format conforme à la norme TEI P5. Ensuite nous présenterons de manière plus détaillée le schéma d'annotation des entités nommées. Seront discutés certains choix méthodologiques novateurs, tels que l'annotation des dérivés (adjectifs relatifs et gentilés des noms propres), ainsi que des unités imbriquées et discontinues. Nous montrerons des exemples de phénomènes linguistiques et extra-linguistiques qui défient le schéma d'annotation pré-établi. Les corpus annotés sont fréquemment utilisés pour l'entraînement d'outils à base d'apprentissage automatique qui peuvent ensuite servir à l'annotation de nouveaux corpus. Cependant, la représentation d'annotations fines selon des méthodes classiques en apprentissage, telles la méthode IOB, n'est pas toujours banale, notamment en ce qui concerne des unités non contiguës ou possédant des composants qui se chevauchent. Nous allons présenter des propositions de solutions à ces problèmes implantées dans un outil d'annotation automatique d'entités nommées NERF, basé sur les CRF (Conditional Random Fields).

Anthony SIGOGNE et Myriam RAKHO

Séminaires

Les séminaires de l'année universitaire 2010-2011auront lieu le lundi matin, à 10:30,au bâtiment Copernic 4ème étage, salle de séminaireau LIGM, Université Paris-Est.

Les séminaires de l'année universitaire 2010-2011
auront lieu le lundi matin, à 10:30,
au bâtiment Copernic 4ème étage, salle de séminaire
au LIGM, Université Paris-Est.