| ||||
Lundi 26/10/2009 | Thierry POIBEAU | Université Paris-Nord | La métonymie des entités nommées, ou les nodosités de la sémantique lexicale | Télécharger |
La métonymie des entités nommées est un
phénomène bien connu ("France" peut désigner, dans un
contexte donné, une unité géographique, ou politique, une
équipe de soule ou de rink hockey, etc.) qui a récemment
fait l'objet d'études en traitement automatique. Les
entités nommées posent donc en miniature des problèmes
classiques de sémantique lexicale : comment déterminer les
nuances de sens ? Comment peut-on les repérer
automatiquement ? Quel est le sens "initial" d'une unité
(si tant est qu'une telle notion existe) ? etc.
Je commencerai par rappeler brièvement les travaux menés au LIPN pour la reconnaissance des entités nommées et les performances obtenues sur différents jeux de données (Poibeau, 2008). J'aborderai ensuite la question de la métonymie et je présenterai une stratégie d'analyse automatique (Brun et al. 2008, Poibeau, 2006). Je conclurai par des questions plus générales de sémantique lexicale. Références : - Caroline Brun, Maud Ehrmann, Guillaume Jacquet (2008) "Résolution de Métonymie des Entités Nommées: proposition d'une méthode hybride". Conférence Traitement Automatique des Langues (TALN 2008), Avignon. - Thierry Poibeau (2006) "Dealing with Metonymic Readings of Named Entities". The 28th Annual Conference of the Cognitive Science Society (COGSCI 2006). Vancouveur. - Thierry Poibeau (2008) "Des Mots au Texte. Analyse sémantique pour l'accès à l'information". Mémoire d'Habilitation. |
||||
| ||||
Lundi 16/11/2009 | Marie CHAGNOUX | Université Pierre et Marie Curie, LIP6 | ||
Les applications du TAL qui visent à accéder au contenu sémantique de documents
(recherche d'information, résumé par extraction, etc.) traitent généralement
l'information au niveau local. Or, isoler un segment textuel de sa structure
globale rompt la continuité référentielle et peut engendrer de nombreux problèmes
pour la compréhension des informations ainsi identifiées.
Nous proposons donc un cadre méthodologique pour repérer et représenter la dynamique textuelle liée sous forme d'arbre discursif où le texte est alors représenté comme un ensemble de segments en relation d'inclusion ou de succession. Cette approche permet de visualiser le cheminement qui s'opère entre des référentiels distincts au fur et à mesure de la lecture syntagmatique, en insistant sur les opérations de rupture repérées par des indices linguistiques. La profondeur de l'arbre associé à un texte témoigne de la complexité des différents référentiels en jeu et il est alors possible de situer tout segment textuel dans une organisation globale qui détermine fortement son acceptation sémantique. L'un des objectifs de cette approche, que nous illustrerons en détail dans cette présentation, est de faire émerger automatiquement d'un corpus les textes sujets à controverses. |
||||
| ||||
Lundi 07/12/2009 | Nicolas TURENNE | MIG (Mathématique Informatique Génome)/INRA | Modeling Noun-Phrases Dynamics in Specialized Text Collections | Télécharger |
La biologie est entrée dans une nouvelle ère avec des nouvelles approches de traitement d'information et d'expériences à haut-débit. Cela conduit à un taux élevé de production de publications et l'émergence de grandes bases de données disponibles en anglais permettant de construire n'importe quelle collection de textes d'un domaine spécialisé. Pour traiter de telles données textuelles, des analyses systématiques des propriétés du langage peuvent être utiles et tirer parti de la description des distributions. Dans cet exposé, comme les publications scientifiques sont marquées temporellement nous présentons l'analyse des profils distributionnels des groupes nominaux (i.e. "termes de contenus") au cours du temps. Ainsi, premièrement, l'analyse des termes dépendant du temps révèle un comportement spécifique intéressant prenant en compte l'occurrence séquentielle des formes. La distribution des termes semble avoir une forme linéaire. Deuxièmement nous avons aussi observé que les associations de termes de contenu sont distribuées de manière différente au cours du temps, i.e. comme un mélange de distributions beta. | ||||
| ||||
Lundi 11/01/2010 | Éric de la CLERGERIE | Alpage/INRIA | Comment améliorer une chaîne de traitement syntaxique ? | Télécharger |
Au travers de mon expérience sur l'analyseur syntaxique du français FRMG et sur les campagnes d'évaluation syntaxique conduite dans les actions EASy et Passage, je vais illustrer quelques méthodologies mises en place pour améliorer la qualité et les performances de la chaîne. En particulier, l'accent sera mis sur les techniques de fouilles d'erreurs dans les résultats d'analyse de larges corpus. Mais l'emploi de corpus annotés de référence sera aussi exploité. | ||||
| ||||
Lundi 18/01/2010 | Jean-Michel FORTIS | HTL/Sorbonne | La polysémie des adpositions : l’approche cognitive et ses problèmes | |
La présentation commencera par un aperçu sur l’émergence de la thématique de l’espace dans la linguistique cognitive, et décrira brièvement les différents axes selon lesquels la question des adpositions a été abordée. Dans une seconde partie, les modèles d’analyse sémantique seront introduits, confrontés et critiqués. Le traitement de la polysémie par ces modèles sera notamment illustré par des études qui ont été consacrées aux prépositions on, sur et over. On montrera que ces analyses tendent à laisser proliférer la polysémie et laissent certaines questions en suspens. Plutôt que de fournir un nouveau modèle d’analyse, il s’agira dans cet exposé de s’interroger sur les problèmes théoriques qu’enveloppent les analyses sémantiques menées dans le cadre de la linguistique cognitive. | ||||
| ||||
Lundi 22/02/2010 | Sylvain Kahane et Kim Gerdes |
Modyco, Paris Ouest Nanterre et LPP, ILPGA Sorbonne Nouvelle |
Les grammaires topologiques ou la modélisation de l'ordre des mots | Télécharger |
Les grammaires topologiques proposent une modélisation de l'ordre des mots par des règles de correspondance entre une structure de dépendance syntaxique non ordonnées et structure hiérarchique de constituants topologiques ordonnées. Nous présenterons le modèle formel et son implémentation tout en nous attachant aux fondements théoriques du modèle topologique et de la structure topologique. Nous montrerons en particulier comment le modèle permet de décrire l'organisation complexe des énoncés en français parlé. | ||||
| ||||
Lundi 01/03/2010 | Gregory GREFENSTETTE | Exalead | Sémantique appliquée | Télécharger |
Nous présentons les aspects sémantiques incorporés dans notre moteur de recherche CloudView, developpé par Exalead. | ||||
| ||||
Lundi 15/03/2010 | Jacqueline LÉON | HTL/Paris 7 | "The inkstand was in the pen /and other stories. The controversy between Bar-Hillel and the Cambridge Language Research Unit about language formalization and machine translation" | Télécharger |
| ||||
Lundi 24/05/2010 | Fête de la linguistique | |||
| ||||
Lundi 14/06/2010 | Elsa TOLONE | Université Paris-Est | Utilisation des tables du Lexique-Grammaire dans un analyseur syntaxique | Télécharger |
Les tables du Lexique-Grammaire (Gross 1975) constituent un
lexique syntaxique très riche pour le français. Les catégories grammaticales
couvertes sont les verbes, les noms prédicatifs, les expressions figées et les
adverbes simples et figés. Cette base de données linguistique n'est cependant
pas directement exploitable informatiquement car elle est incomplète et manque de cohérence.
Chaque table regroupe un certain nombre d'entrées jugées similaires car elles
acceptent des propriétés communes qui ne sont pas codées dans les tables mais
uniquement décrites dans la littérature. Notre objectif est donc de définir
pour chaque table ces propriétés indispensables à l'utilisation des tables dans
les diverses applications de Traitement Automatique des Langues (TAL). Ensuite,
nous montrons comment, grâce au travail décrit dans (Constant & Tolone 2010) et
(Tolone & Sagot 2009), nous avons converti les tables du Lexique-Grammaire en un
lexique au format Lefff (Sagot 2010), appelé lexique LGLex, permettant
ainsi son intégration dans l'analyseur syntaxique FRMG (Thomasset & de La
Clergerie 2005). Nous comparons les résultats de l'analyseur syntaxique FRMG
sur le corpus de référence de la campagne EASy selon qu'il utilise les entrées
du Lefff ou celles des tables du Lexique-Grammaire ainsi converties.
Références : (Constant & Tolone 2010) Matthieu Constant et Elsa Tolone. A generic tool to generate a lexicon for NLP from Lexicon-Grammar tables. Lingue d'Europa e del Mediterraneo, Grammatica comparata, pages 79-93. Aracne. 2010. (Gross 1975) Maurice Gross. Méthodes en syntaxe : Régime des constructions complétives. Hermann. Paris, France. 1975. (Sagot 2010) Benoît Sagot. The Lefff, a freely available and large-coverage morphological and syntactic lexicon for French. Actes du 7ème Language Resource and Evaluation Conference (LREC'10), 8 pages. La Valette, Malte. 2010. (Thomasset & de La Clergerie 2005) François Thomasset and Éric de La Clergerie. Comment obtenir plus des méta-grammaires. Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles (TALN'05), 10 pages. Dourdan, France. 2005. (Tolone 2009) Elsa Tolone. Les tables du Lexique-Grammaire au format TAL. Actes de la conférence MajecSTIC 2009, 8 pages. Avignon, France. 2009. (Tolone & Sagot 2009) Elsa Tolone et Benoît Sagot. Using Lexicon-Grammar tables for French verbs in a large-coverage parser. Actes du 4ème Language & Technology Conference (LTC'09), pages 200-204. Poznań, Pologne. 2009. |
||||
| ||||
Lundi 05/07/2010 | Anthony SIGOGNE | Université Paris-Est | Télécharger | |
L'analyse syntaxique statistique en constituants du français est, à l'heure actuelle, au stade des premières expérimentations. Les expériences qui ont été menées dans le passé ont consisté principalement à évaluer des analyseurs sur le français mais originellement développés sur l'anglais. Les résultats ont indiqué des performances moindres sur le français, les raisons invoquées étant diverses. On pourra notamment citer la différence entre le schéma d'annotation du corpus annoté du français et celui pour l'anglais, ou encore les spécificités du français impossibles à capturer avec certains analyseurs. Mon objectif premier est donc de déterminer une chaîne de traitements syntaxiques traitant le français qui permette d'obtenir des performances se rapprochant de celles obtenues pour l'anglais. Je commencerai par présenter l'état de l'art général de l'analyse syntaxique statistique en évoquant tout d'abord les différents modèles probabilistes existants et les analyseurs basés sur ces modèles. Nous verrons que le choix du modèle en fonction de la tâche à effectuer est crucial pour les performances d'un analyseur probabiliste. J'évoquerai ensuite l'état des lieux en ce qui concerne les expériences qui ont été menées sur le français et les conclusions que nous pouvons en tirer. Ensuite, je décrirai les expériences que je désire mener dans le cadre du français d'après les remarques et les observations faîtes dans la première partie. Je présenterai la chaîne de traitements syntaxiques basée sur la séquentialisation de deux analyseurs. Le premier analyseur calcule la ou les analyses les plus probables d'une phrase et un deuxième analyseur a pour tâche le reclassement des analyses, l'analyse plus probable n'est pas forcément la meilleure en terme de performance. Puis, je finirai cette présentation par l'avancement de mon travail et les perspectives à long terme avec notamment l'intégration d'un lexique syntaxique, le Lexique-Grammaire, dans la chaîne de traitements. | ||||
| ||||
Lundi 05/07/2010 | Myriam Rakho | Université Paris-Est | ||
Cette présentation est un point sur ma première année en thèse. En première partie je présenterai la problématique de mon sujet de thèse, à savoir, l'ajustement des modèles linguistiques et statistiques pour la désambiguïsation automatique des mots polysémiques dans le cadre de la traduction automatique. Puis j'effectuerai un rappel sur la notion de polysémie et, par là, sur les objectifs de mon travail. La troisième partie porte sur les informations linguistiques utilisées en désambiguïsation sémantique pour décrire les contextes des mots ambigus. Après un bref état de l'art sur les différents types de connaissances linguistiques utilisées et les conclusions formulées dans la littérature les concernant, je décrirai certaines hypothèses que je projette de tester. Ces hypothèses concernent les différents types de modèles de représentation linguistique des données que je pourrais construire à partir des différents prétraitements linguistiques ainsi que les informations apportées et à apprendre pour chaque modèle de représentation. Ces hypothèses concernent également la pertinence des différents types d'informations linguistiques selon les catégories de mots (formes impersonnelles, ...) et les différentes manières possibles de combiner ces informations en fonction du mot à désambiguïser (en fonction du type de polysémie, en fonction de sa catégorie grammaticale, ...), etc. Je présenterai ensuite une liste de connaissances linguistiques que je projette d'utiliser pour augmenter encore la précision dans la description des contextes des mots. Il s'agit d'informations pour lesquelles je serai amenée à construire des ressources linguistiques. La quatrième et dernière partie, sera un état de l'art des techniques statistiques d'analyse des données et d'apprentissage utilisées pour la désambiguïsation sémantique des mots polysémiques. J'insisterai en particulier sur les méthodes que j'intégrerai dans mes expériences, pour les combiner ou pour procéder à une évaluation comparative de leurs résultats. Puis je concluerai sur l'état d'avancement de mon travail. |