Séminaires>2009-2010

Séminaires

Les séminaires de l'année universitaire 2009-2010
auront lieu le lundi matin, à 10:30,
au bâtiment Copernic 4ème étage, salle de séminaire
à l'IGM, Université Paris-Est.

Responsables du séminaire : Anthony SIGOGNE et Myriam RAKHO (nom[at]univ-mlv.fr),
tel. : 01 60 95 77 17.



 

Lundi 26/10/2009 Thierry POIBEAU Université Paris-Nord La métonymie des entités nommées, ou les nodosités de la sémantique lexicale Télécharger
 
La métonymie des entités nommées est un phénomène bien connu ("France" peut désigner, dans un contexte donné, une unité géographique, ou politique, une équipe de soule ou de rink hockey, etc.) qui a récemment fait l'objet d'études en traitement automatique. Les entités nommées posent donc en miniature des problèmes classiques de sémantique lexicale : comment déterminer les nuances de sens ? Comment peut-on les repérer automatiquement ? Quel est le sens "initial" d'une unité (si tant est qu'une telle notion existe) ? etc.

Je commencerai par rappeler brièvement les travaux menés au LIPN pour la reconnaissance des entités nommées et les performances obtenues sur différents jeux de données (Poibeau, 2008). J'aborderai ensuite la question de la métonymie et je présenterai une stratégie d'analyse automatique (Brun et al. 2008, Poibeau, 2006). Je conclurai par des questions plus générales de sémantique lexicale.

Références :
- Caroline Brun, Maud Ehrmann, Guillaume Jacquet (2008) "Résolution de Métonymie des Entités Nommées: proposition d'une méthode hybride". Conférence Traitement Automatique des Langues (TALN 2008), Avignon.
- Thierry Poibeau (2006) "Dealing with Metonymic Readings of Named Entities". The 28th Annual Conference of the Cognitive Science Society (COGSCI 2006). Vancouveur.
- Thierry Poibeau (2008) "Des Mots au Texte. Analyse sémantique pour l'accès à l'information". Mémoire d'Habilitation.
 

Lundi 16/11/2009 Marie CHAGNOUX Université Pierre et Marie Curie, LIP6
 
Les applications du TAL qui visent à accéder au contenu sémantique de documents (recherche d'information, résumé par extraction, etc.) traitent généralement l'information au niveau local. Or, isoler un segment textuel de sa structure globale rompt la continuité référentielle et peut engendrer de nombreux problèmes pour la compréhension des informations ainsi identifiées.

Nous proposons donc un cadre méthodologique pour repérer et représenter la dynamique textuelle liée sous forme d'arbre discursif où le texte est alors représenté comme un ensemble de segments en relation d'inclusion ou de succession. Cette approche permet de visualiser le cheminement qui s'opère entre des référentiels distincts au fur et à mesure de la lecture syntagmatique, en insistant sur les opérations de rupture repérées par des indices linguistiques. La profondeur de l'arbre associé à un texte témoigne de la complexité des différents référentiels en jeu et il est alors possible de situer tout segment textuel dans une organisation globale qui détermine fortement son acceptation sémantique.

L'un des objectifs de cette approche, que nous illustrerons en détail dans cette présentation, est de faire émerger automatiquement d'un corpus les textes sujets à controverses.
 

Lundi 07/12/2009 Nicolas TURENNE MIG (Mathématique Informatique Génome)/INRA Modeling Noun-Phrases Dynamics in Specialized Text Collections Télécharger
 
La biologie est entrée dans une nouvelle ère avec des nouvelles approches de traitement d'information et d'expériences à haut-débit. Cela  conduit à un taux élevé de production de publications et l'émergence de grandes bases de données disponibles en anglais permettant de construire n'importe quelle collection de textes d'un domaine spécialisé. Pour traiter de telles données textuelles, des analyses systématiques des propriétés du langage peuvent être utiles et tirer parti de la description des distributions. Dans cet exposé, comme les publications scientifiques sont marquées temporellement nous présentons l'analyse des profils distributionnels des groupes nominaux (i.e. "termes de contenus") au cours du temps. Ainsi, premièrement, l'analyse des termes dépendant du temps révèle un comportement spécifique intéressant prenant en compte l'occurrence séquentielle des formes. La distribution des termes semble avoir une forme linéaire. Deuxièmement nous avons aussi observé que les associations de termes de contenu sont distribuées de manière différente au cours du temps, i.e. comme un mélange de distributions beta.
 

Lundi 11/01/2010 Éric de la CLERGERIE Alpage/INRIA Comment améliorer une chaîne de traitement syntaxique ? Télécharger
 
Au travers de mon expérience sur l'analyseur syntaxique du français FRMG et sur les campagnes d'évaluation syntaxique conduite dans les actions EASy et Passage, je vais illustrer quelques méthodologies mises en place pour améliorer la qualité et les performances de la chaîne. En particulier, l'accent sera mis sur les techniques de fouilles d'erreurs dans les résultats d'analyse de larges corpus. Mais l'emploi de corpus annotés de référence sera aussi exploité.
 

Lundi 18/01/2010 Jean-Michel FORTIS HTL/Sorbonne La polysémie des adpositions : l’approche cognitive et ses problèmes
 
La présentation commencera par un aperçu sur l’émergence de la thématique de l’espace dans la linguistique cognitive, et décrira brièvement les différents axes selon lesquels la question des adpositions a été abordée. Dans une seconde partie, les modèles d’analyse sémantique seront introduits, confrontés et critiqués. Le traitement de la polysémie par ces modèles sera notamment illustré par des études qui ont été consacrées aux prépositions on, sur et over. On montrera que ces analyses tendent à laisser proliférer la polysémie et laissent certaines questions en suspens. Plutôt que de fournir un nouveau modèle d’analyse, il s’agira dans cet exposé de s’interroger sur les problèmes théoriques qu’enveloppent les analyses sémantiques menées dans le cadre de la linguistique cognitive.
 

Lundi 22/02/2010 Sylvain Kahane
et Kim Gerdes
Modyco, Paris Ouest Nanterre
et LPP, ILPGA Sorbonne Nouvelle
Les grammaires topologiques ou la modélisation de l'ordre des mots Télécharger
 
Les grammaires topologiques proposent une modélisation de l'ordre des mots par des règles de correspondance entre une structure de dépendance syntaxique non ordonnées et structure hiérarchique de constituants topologiques ordonnées. Nous présenterons le modèle formel et son implémentation tout en nous attachant aux fondements théoriques du modèle topologique et de la structure topologique. Nous montrerons en particulier comment le modèle permet de décrire l'organisation complexe des énoncés en français parlé.
 

Lundi 01/03/2010 Gregory GREFENSTETTE Exalead Sémantique appliquée Télécharger
 
Nous présentons les aspects sémantiques incorporés dans notre moteur de recherche CloudView, developpé par Exalead.
 

Lundi 15/03/2010 Jacqueline LÉON HTL/Paris 7 "The inkstand was in the pen /and other stories. The controversy between Bar-Hillel and the Cambridge Language Research Unit about language formalization and machine translation" Télécharger
 

Lundi 24/05/2010 Fête de la linguistique
 

Lundi 14/06/2010 Elsa TOLONE Université Paris-Est Utilisation des tables du Lexique-Grammaire dans un analyseur syntaxique Télécharger
 
Les tables du Lexique-Grammaire (Gross 1975) constituent un lexique syntaxique très riche pour le français. Les catégories grammaticales couvertes sont les verbes, les noms prédicatifs, les expressions figées et les adverbes simples et figés. Cette base de données linguistique n'est cependant pas directement exploitable informatiquement car elle est incomplète et manque de cohérence. Chaque table regroupe un certain nombre d'entrées jugées similaires car elles acceptent des propriétés communes qui ne sont pas codées dans les tables mais uniquement décrites dans la littérature. Notre objectif est donc de définir pour chaque table ces propriétés indispensables à l'utilisation des tables dans les diverses applications de Traitement Automatique des Langues (TAL). Ensuite, nous montrons comment, grâce au travail décrit dans (Constant & Tolone 2010) et (Tolone & Sagot 2009), nous avons converti les tables du Lexique-Grammaire en un lexique au format Lefff (Sagot 2010), appelé lexique LGLex, permettant ainsi son intégration dans l'analyseur syntaxique FRMG (Thomasset & de La Clergerie 2005). Nous comparons les résultats de l'analyseur syntaxique FRMG sur le corpus de référence de la campagne EASy selon qu'il utilise les entrées du Lefff ou celles des tables du Lexique-Grammaire ainsi converties.

Références :
(Constant & Tolone 2010) Matthieu Constant et Elsa Tolone. A generic tool to generate a lexicon for NLP from Lexicon-Grammar tables. Lingue d'Europa e del Mediterraneo, Grammatica comparata, pages 79-93. Aracne. 2010.
(Gross 1975) Maurice Gross. Méthodes en syntaxe : Régime des constructions complétives. Hermann. Paris, France. 1975.
(Sagot 2010) Benoît Sagot. The Lefff, a freely available and large-coverage morphological and syntactic lexicon for French. Actes du 7ème Language Resource and Evaluation Conference (LREC'10), 8 pages. La Valette, Malte. 2010.
(Thomasset & de La Clergerie 2005) François Thomasset and Éric de La Clergerie. Comment obtenir plus des méta-grammaires. Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles (TALN'05), 10 pages. Dourdan, France. 2005.
(Tolone 2009) Elsa Tolone. Les tables du Lexique-Grammaire au format TAL. Actes de la conférence MajecSTIC 2009, 8 pages. Avignon, France. 2009.
(Tolone & Sagot 2009) Elsa Tolone et Benoît Sagot. Using Lexicon-Grammar tables for French verbs in a large-coverage parser. Actes du 4ème Language & Technology Conference (LTC'09), pages 200-204. Poznań, Pologne. 2009.
 

Lundi 05/07/2010 Anthony SIGOGNE Université Paris-Est Télécharger
 
L'analyse syntaxique statistique en constituants du français est, à l'heure actuelle, au stade des premières expérimentations. Les expériences qui ont été menées dans le passé ont consisté principalement à évaluer des analyseurs sur le français mais originellement développés sur l'anglais. Les résultats ont indiqué des performances moindres sur le français, les raisons invoquées étant diverses. On pourra notamment citer la différence entre le schéma d'annotation du corpus annoté du français et celui pour l'anglais, ou encore les spécificités du français impossibles à capturer avec certains analyseurs. Mon objectif premier est donc de déterminer une chaîne de traitements syntaxiques traitant le français qui permette d'obtenir des performances se rapprochant de celles obtenues pour l'anglais. Je commencerai par présenter l'état de l'art général de l'analyse syntaxique statistique en évoquant tout d'abord les différents modèles probabilistes existants et les analyseurs basés sur ces modèles. Nous verrons que le choix du modèle en fonction de la tâche à effectuer est crucial pour les performances d'un analyseur probabiliste. J'évoquerai ensuite l'état des lieux en ce qui concerne les expériences qui ont été menées sur le français et les conclusions que nous pouvons en tirer. Ensuite, je décrirai les expériences que je désire mener dans le cadre du français d'après les remarques et les observations faîtes dans la première partie. Je présenterai la chaîne de traitements syntaxiques basée sur la séquentialisation de deux analyseurs. Le premier analyseur calcule la ou les analyses les plus probables d'une phrase et un deuxième analyseur a pour tâche le reclassement des analyses, l'analyse plus probable n'est pas forcément la meilleure en terme de performance. Puis, je finirai cette présentation par l'avancement de mon travail et les perspectives à long terme avec notamment l'intégration d'un lexique syntaxique, le Lexique-Grammaire, dans la chaîne de traitements.
 

Lundi 05/07/2010 Myriam Rakho Université Paris-Est
 
Cette présentation est un point sur ma première année en thèse. En première partie je présenterai la problématique de mon sujet de thèse, à savoir, l'ajustement des modèles linguistiques et statistiques pour la désambiguïsation automatique des mots polysémiques dans le cadre de la traduction automatique. Puis j'effectuerai un rappel sur la notion de polysémie et, par là, sur les objectifs de mon travail. La troisième partie porte sur les informations linguistiques utilisées en désambiguïsation sémantique pour décrire les contextes des mots ambigus. Après un bref état de l'art sur les différents types de connaissances linguistiques utilisées et les conclusions formulées dans la littérature les concernant, je décrirai certaines hypothèses que je projette de tester. Ces hypothèses concernent les différents types de modèles de représentation linguistique des données que je pourrais construire à partir des différents prétraitements linguistiques ainsi que les informations apportées et à apprendre pour chaque modèle de représentation. Ces hypothèses concernent également la pertinence des différents types d'informations linguistiques selon les catégories de mots (formes impersonnelles, ...) et les différentes manières possibles de combiner ces informations en fonction du mot à désambiguïser (en fonction du type de polysémie, en fonction de sa catégorie grammaticale, ...), etc. Je présenterai ensuite une liste de connaissances linguistiques que je projette d'utiliser pour augmenter encore la précision dans la description des contextes des mots. Il s'agit d'informations pour lesquelles je serai amenée à construire des ressources linguistiques. La quatrième et dernière partie, sera un état de l'art des techniques statistiques d'analyse des données et d'apprentissage utilisées pour la désambiguïsation sémantique des mots polysémiques. J'insisterai en particulier sur les méthodes que j'intégrerai dans mes expériences, pour les combiner ou pour procéder à une évaluation comparative de leurs résultats. Puis je concluerai sur l'état d'avancement de mon travail.


Anthony SIGOGNE et Myriam RAKHO