Séminaires>2008-2009

Séminaires

Les séminaires de l'année universitaire 2008-2009
auront lieu le lundi matin, à 10:30,
au bâtiment Copernic 4ème étage, salle de séminaire
à l'IGM, Université Paris-Est.

Responsable du séminaire : Elsa Tolone (prénom.nom[at]univ-paris-est.fr),
tel. : 01 60 95 75 51.




Lundi 20/10/2008 Fête de la linguistique

Lundi 03/11/2008 Pollet SAMVELIAN (et Kim GERDES) Université Paris 3 Les constructions à verbe support du persan : une approche statistique Télécharger
Cet exposé porte sur les constructions à verbe support du persan et propose une méthode statistique pour leur extraction. Le nombre des verbes simples du persan est estimé à environ 250. Une fois que les verbes appartenant à un registre particulier (littéraire ou familier) sont écartés, cet ensemble est réduit de 120 à 130 verbes. Cette situation a deux conséquences :
  1. le « lexique verbal » du persan est essentiellement composé de « locutions » formées d'un verbe à contenu lexical plus ou moins faible (ou verbe support) et d'un élément préverbal (nom, adjectif, préposition, adverbe...) ;
  2. la distinction même entre « verbe lexical » et « verbe support» devient problématique, dans le mesure où très peu de verbes ont un contenu sémantique précis en l'absence de combinaison avec un élément non-verbal.
La conjonction de ces deux phénomènes rend problématique l'élaboration du lexique verbal du persan, et ce d'autant plus que ces « locutions verbales » sont très productives. En effet, la création de verbes simples par dérivation (ou conversion) à partir d'une base nominale ou adjectivale ayant cessé d'être productive en persan, les constructions à verbe support reste le seul moyen d'enrichissement du lexique verbal.

La nature collocationnelle de la relation entre le verbe et l'élément non-verbal incite à l'établissent d'un inventaire où sont consignées les propriétés syntaxiques et sémantiques associées à chaque construction (à la manière des tables du LADL ou les dictionnaires explicatifs et combinatoires de Mel'cuk et al., par exemple). La grande productivité de ces constructions implique, en revanche, l'existence des régularités syntactico-sémantiques qu'il conviendrait de mettre en évidence, par le biais, par exemple du codage des Fonctions Lexicales à la Mel'cuk.

Le présent travail propose une méthode extraction de listes de constructions à verbe support à partir de grands corpus disponibles sur le web et sans autre ressource linguistique disponible au préalable. La méthode a été appliquée au corpus du quotidien iranien *Keyhan* (choisi à cause de sa régularité de publication et son site web). Elle a été testée sur un ensemble de six verbes qui participent fréquemment à la formation des constructions à verbe support. Les premiers résultats sont extrêmement probants : les 500 premiers mots extraits pour chaque verbe fournissent tous des informations pertinentes : il s'agit, dans la majorité des cas, soit de l'élément non-verbal de la construction à verbe support, soit d'une préposition introduisant un des membres de la construction.

Nous poursuivons notre travail dans plusieurs directions :
  • Diversification des corpus, afin d'intégrer d'autres variétés du persan.
  • L'affinement des méthodes d'extraction, afin d'en améliorer les résultats.
  • L'élaboration d'une méthode de calcul de compositionnalité, afin de mettre en évidence les schémas de producivité dans la production et interprétation de ces constructions.
Les premières retombées de ce travail nourriront le dictionnaire des constructions à verbe support du persan, actuellement en cours d'élaboration. Il s'agit d'une base de données, constituée à l'origine manuellement, par le dépouillage des divers corpus (littéraires, presse, etc.). Les listes extraites automatiquement ont permis l'enrichissement de cette base avec de nouvelles entrées ou de nouvelles informations ajoutées aux entrées existantes.

Lundi 17/11/2008 Cédrick FAIRON Université Catholique de Louvain, Belgique Extension de ressources linguistiques : la mise à jour du DELAF
Les dictionnaires électroniques DELA ont été parmi les premières ressources lexicales à large couverture pour le français (Courtois 1990). Ils sont aujourd'hui diffusés sous une licence LGPL qui fixe clairement les conditions d'utilisation et facilite dès lors leur réemploi dans toutes sortes de projets. Malheureusement, l'absence de mises à jour systématiques depuis le début des années 2000 a conduit ce dictionnaire à prendre quelques rides : ne cherchez pas les mots blog, biodiversité, cybercriminalité, microcrédit, téraoctet, bancassureur ou paralympique, ils n'y sont pas, même si les réalités qu'ils dénotent sont devenues, elles, très communes. Il est donc utile de se pencher sur ce problème et d'apporter aussi vite que possible des compléments permettant de... rattraper la néologie.

Nous présenterons une expérience réalisée avec des étudiants du Master en linguistique à l'UCL (Belgique), dans le cadre d'un cours de lexicologie, et visant à identifier et étudier les "mots inconnus" d'un corpus de presse couvrant la période 2000-2006 (le DELAF servant de "corpus d'exclusion"). Nous présenterons la méthodologie de collecte des candidats qui repose sur l'usage d'un logiciel de "veille linguistique" (Fairon et Paumier 2006) et les critères de sélection des nouvelles entrées lexicales. En particulier, nous soumettrons au débat la problématique des "mots composés". Outre l'apport concret d'une liste de mots nouveaux pour le DELAF, cette expérience permet de prendre une mesure du phénomène de la néologie sur une période de 5 ans.

Le dictionnaire constitué dans le cadre de cette expérience sera prochainement livré pour une intégration dans le DELAF.

Références :
- Courtois B. (1990). Dictionnaires électroniques du français. In Courtois B. and Silberztein M. editors, Dictionnaire électronique du français. Langue française N°87: 11-22. Larousse. Paris.
- Fairon C. et Paumier S. (2006). "A framework for real-time dictionary updating", In Proceedings of LREC 2006. Genova.

Lundi 08/12/2008 Stéphanie WEISER Université Paris 10 Repérage automatique d'informations temporelles touristiques dans des pages Web Télécharger
Les expressions temporelles liées au domaine du tourisme ont des caractéristiques précises : elles ont une visée informative et sont assez spécifiques. Elles le sont d'autant plus lorsqu'elles figurent dans des pages Web. Notre travail consiste à extraire ces informations des pages Web et à les annoter afin d'alimenter la base de connaissance d'un portail touristique sur Internet. Après avoir caractérisé les informations que nous voulons détecter, nous verrons les difficultés qui peuvent se poser, au moment de l'extraction ou de l'annotation.

Sur un plan technique nous présenterons notre méthode d'extraction, et les transducteurs qui ont été réalisés à l'aide d'Unitex pour les besoins du projet.

Sur un plan théorique, nous ferons une étude comparative des expressions temporelles touristiques sur Internet et dans les guides touristiques papier. Nous étudierons également la façon dont le temps est représenté sur le Web : informations sans cesse actualisées, dates relatives, etc.

Lundi 12/01/2009 Maud EHRMANN XRCE Les Entités Nommées : proposition de définition et résolution de métonymie Télécharger
La reconnaissance et la catégorisation des Entités Nommées apparaît aujourd'hui comme un des incontournables du traitement automatique des textes. Apparue au milieu des années 1990 à la faveur des dernières conférences MUC (Message Understanding Conferences), cette tâche apparaît en effet comme fondamentale pour diverses applications participant de l'analyse de contenu et nombreux sont les travaux se consacrant à sa mise en oeuvre, obtenant des résultats plus qu'honorables. Fort de ce succès, le traitement des entités nommées s'oriente désormais vers de nouveaux défis, parmi lesquels le typage plus fin, la désambiguïsation ou encore la résolution de métonymie. Ces perspectives nouvelles rendent cependant d'autant plus cruciale la question du statut théorique de ces unités, lequel n'a guère été discuté jusqu'à aujourd'hui.

Cet exposé rendra compte de deux axes de recherche investis durant mon travail de thèse, l'un théorique, avec une proposition de définition des entités nommées, l'autre davantage expérimental, avec une méthode de résolution de métonymie des entités nommées.

Lundi 19/01/2009 André BITTAR Université Paris 7 Annotation temporelle de textes en français Télécharger
Le traitement des informations temporelles est crucial pour la compréhension de textes en langue naturelle. Le langage de spécification TimeML a été conçu afin de permettre le repérage et la normalisation des expressions temporelles et des événements dans des textes écrits en anglais. L'objectif des divers projets TimeML a été de formuler un schéma d'annotation pouvant s'appliquer à du texte libre, comme ce que l'on trouve sur le Web, par exemple. Des efforts ont été faits pour l'application de TimeML à d'autres langues que l'anglais, notamment le chinois, le coréen, l'italien, l'espagnol et l'allemand. Pour le français, il y a eu des efforts allant dans ce sens, mais ils sont encore un peu éparpillés.

Dans cet article (RECITAL 2008), nous détaillons nos travaux actuels qui visent à élaborer des ressources complètes pour l'annotation de textes en français selon TimeML - notamment un guide d'annotation, un corpus de référence (Gold Standard) et des modules d'annotation.

Lundi 16/02/2009 Priscille BALDIT Laboratoire IGN Traitement d'un corpus de réponses à des questions ouvertes à l'aide d'outils informatiques et linguistiques pour définir les attentes des randonneurs par rapport aux cartes de l'IGN Télécharger
Comment exploiter les résultats d'une enquête marketing de type qualitatif? Les méthodes existantes pour analyser un corpus de réponses à des questions ouvertes consistent généralement à codifier les données par rapport à une grille thématique. Cette technique paraît toutefois insuffisante pour explorer un contenu textuel sans a priori.

Nous présentons donc une approche axée sur l'analyse lexicométrique des textes, afin de traiter un corpus d'entretiens collectifs retranscrits sur le thème de la randonnée. Il s'agit de définir les attentes des randonneurs par rapport aux cartes IGN et de définir des profils-type. La méthodologie présentée permet d'extraire des marqueurs linguistiques pour déterminer l'opinion des personnes interrogées et les caractéristiques de leur énonciation.

Lundi 23/02/2009 Chahnez ZAKARIA Université Paris-Est Classification des e-mails de conflits dans un environnement professionnel en utilisant une ontologie Télécharger
La communication dans une entreprise distribuée géographiquement, via les outils du Travail Coopératif Assisté par Ordinateur (TCAO), a permis aux équipes de ses différentes annexes de pallier au problème de la distance. Cependant il est encore difficile pour un chef d'équipe de gérer à distance les émotions des membres de son équipe et les conflits qui peuvent survenir entre eux. De telles situations peuvent compliquer la communication et la coopération entre eux.

Pour remédier au problème de la compréhension du comportement des employés, nous exploitons les corpus générés à travers les e-mails échangés entre eux. Notre approche consiste à détecter les e-mails de conflits par leur classification, selon une ontologie de conflits relationnels.

Lundi 23/03/2009 Nathalie GORMEZANO et Sandrine PERALDI Institut ISIT Panorama de la recherche appliquée en communication interculturelle multilingue et multimedia à l'ISIT
Le Centre de recherche de l'ISIT, le CRATIL (Centre de recherche appliquée sur la traduction, l'interprétation et le langage) offre un cadre de travail pour la réalisation de projets de recherche appliquée dans le domaine de la communication multilingue. Ces projets répondent à des appels d'offre et débouchent sur des études ou des produits spécifiques qui peuvent être exploités différemment selon les contrats de recherche unissant les partenaires : l'entreprise ou l'institution, les chercheurs et le CRATIL. Ces projets sont réalisés par les étudiants de l'ISIT de dernière année, tutorés par des enseignants-chercheurs, docteurs ou doctorants et dirigés par des enseignants-chercheurs permanents.
Le CRATIL s'associe à des équipes de recherche pluridisciplinaires pour mener à bien certains projets de recherche appliquée. Les travaux se déroulent alors dans le cadre d'équipes mixtes et sont co-dirigés par les enseignants-chercheurs permanents des centres de recherche associés.
L'entreprise collabore avec le groupe de recherche tout au long du projet conformément aux clauses du contrat établi.

Les projets en cours en 2008-2009 :
  • Etude et développement en traduction automatique et post-édition
  • Projet d'édition scientifique bilingue
  • Clausier juridique bilingue sous la forme d'une base de données dynamique
  • Base terminologique et documentaire scientifique bilingue
Les partenaires :
  • CNRS
  • Grandes écoles d'ingénieur
    Les équipes mixtes pour le GDR2 sur les projets en cours :
    ISEP (Institut Supérieur d'Electronique de Paris)
    HEI (Haute Ecole d'Ingénieurs, Lille)
  • Centres de recherche
    CETRA (Centre for Translation Studies), coordination scientifique : Frieda Steurs, directrice du Département de traduction et d'interprétation de la Lessius Hogeschool (Anvers)

Lundi 30/03/2009 Kozue OGATA Université Aoyama Gakuin, Tokyo Les constructions du verbe sentir
Le verbe sentir se remarque par la diversité de ses constructions. Le Lexique-Grammaire les recense, mises à part les phrases figées, dans les tables suivantes : 
  • 31R : N0 V
  • 32CL, 32 NM, 32R3, 38L0 : N0 V N1
  • 6 : N0 V N1, N1 =: Qu P + si P ou si P + N
Nous nous intéressons à certains rapports que peuvent entretenir les constructions de ce verbe. En nous appuyant sur les recherches d'exemples dans les corpus du Monde (1994) et Frantext, nous essaierons de déterminer notamment les propriétés des emplois pronominaux de la table 6 :
  1. Je me sens l'âme rebelle           
  2. Je me sens le courage de faire cela
  et leurs rapports avec les autres constructions.

Références :
- Boons, J.-P., Guillet, A., Leclère, Ch. 1976. La structure des phrases simples en français : constructions intransitives. Genève : Droz
- Guillet, A., Leclère, Ch. 1992. La structure des phrases simples en français : constructions transitives locatives. Genève : Droz
- Gross, M. 1975. Méthodes en syntaxe. Paris : Hermann.

Lundi 27/04/2009 Olivier CURÉ Université Paris-Est Introduction aux ontologies du Web Sémantique : technologies et outils Télécharger
Cette présentation portera sur le concept d'ontologie à travers son exploitation la plus populaire actuellement : le Web Sémantique. Dans un premier temps, les concepts supportant les principales technologies seront présentées (logique de description) puis je présenterai les langages de définition d'ontologies : RDFS et OWL.

Puis nous passerons aux principaux outils :
  • éditeur d'ontologies et de bases de connaissances : Protégé
  • framework Java : Jena
  • raisonneur : Pellet
  • language de requête : SPARQL
  • "Triple Store" : Sesame

Lundi 04/05/2009 Catherine DOMINGUES Laboratoire COGIT/IGN Apport des techniques linguistiques pour la conception de cartes sur mesure Télécharger
Des outils libres et faciles d'utilisation permettent à tout utilisateur d'internet de réaliser une carte. Cependant la qualité de ces cartes n'est pas suffisante. Une carte sur mesure se doit, à la fois, de respecter les règles de cartographie et s'adapter aux besoins et aux goûts de son concepteur. Un des problèmes rencontré est la mise en correspondance de la démarche et du vocabulaire présentés dans la littérature spécialisée avec les besoins et les goûts exprimés par le concepteur de carte néophyte.

Afin de pallier cette difficulté, des travaux ont été menés au laboratoire COGIT de l'Institut géographique national (IGN) afin de rassembler un corpus textuel portant sur la conception d'une carte topographique et l'expression du ressenti des lecteurs de cartes, puis d'exploiter ce corpus avec des techniques linguistiques. Nous avons ainsi ébauché une terminologie de la cartographie et une description formalisée de carte. Une ontologie associant concepts de la cartographie (obtenus à partir de l'étude de terminologie) et règles manipulant ces concepts est en cours d'élaboration.

L'objectif de cet exposé est de présenter ces travaux afin de les soumettre à la critique et de les rapprocher de travaux en cours utilisant les mêmes méthodes.

Lundi 11/05/2009 Dana-Marina DUMITRIU Université Paris-Est Le numéral roumain Télécharger
Encadré par la grammaire traditionnelle dans la flexion nominale, le numéral présente des particularités flexionnelles en fonction des valeurs qu'il peut avoir (adjectivale, nominale, adverbiale). Nous nous proposons de présenter la flexion du numéral en fonction de ses valeurs, ainsi que de ce qu'il désigne (nombre ou ordre d'objets, distribution, multiplication, etc.). Le but de l'étude est d'établir des graphes pour l'extraction de numéraux dans les textes.

Lundi 18/05/2009 Thomas FRANCOIS Université Catholique de Louvain, Belgique Modèles statistiques pour l'estimation automatique de la difficulté de textes de FLE Télécharger
La lecture constitue l'une des tâches clefs dans l'apprentissage d'une langue étrangère. Dès lors, le professeur de FLE est régulièrement amené à préparer une activité sur la base d'un texte adapté au niveau de sa classe. Bien que les manuels de FLE constituent une manne où puiser des textes calibrés pour un niveau donné, leur variété thématique reste limitée par comparaison avec l'Internet.

Cependant, la recherche en ligne d'un texte portant sur un sujet précis et qui soit adapté au niveau de chaque apprenant est consommatrice de temps et gagnerait à être automatisée. Des expériences (Collins-Thompson & Callan, 2005 ; Heilman et al., 2008) montrent que, pour l'anglais, l'utilisation de classifieurs statistiques permet d'estimer automatiquement la difficulté d'un texte. Nous proposons une méthodologie originale comparant, pour le français langue étrangère (FLE), diverses techniques de classification (la régression logistique, le bagging et le boosting) sur deux corpus d'entraînement et s'intéressant à la capacité prédictive de diverses variables linguistiques.

Références :
- K. Collins-Thompson and J. Callan. (2005.) « Predicting reading difficulty with statistical reading models » in Journal of the American Society for Information Science and Technology, 56(13), 1448-1462.
- Heilman, M., Collins-Thompson, K., and Eskenazi, M. (2008). « An Analysis of Statistical Models and Features for Reading Difficulty Prediction » in Proceedings of the Third ACL Workshop on Innovative Use of NLP for Building Educational Applications. Columbus, Ohio, 71-79.

Lundi 15/06/2009 Mehdi GHASSEMI Université Paris-Est Description linguistique du persan et les verbes supports Télécharger
Le persan, aujourd'hui parlé par plus de soixante millions de personnes, a joui dès l'origine d'un statut privilégié de langue de haute culture, dans une aire géographique très étendue du Moyen-Orient. Nous allons essayer de faire un survol descriptif de cette langue pour mieux la connaître.

Comme vous savez, les verbes sont des unités très fondamentales dans la linguistique ; les verbes supports qui faisaient l'objet d'une large étude pendant des années, constituent une catégorie à part.

On peut distinguer deux types de verbes en persan, en fonction de leur structure morphologique : les verbes simples et les verbes composés, et ce sont ces derniers qui feront l'objet de notre étude.

Ce qu'on entend par verbe composé en persan, par opposition au verbe simple, c'est une structure formée d'un verbe précédé d'un élément substantival (un nom, un adjectif, un adverbe, un groupe nominal, une préposition ou un groupe prépositionnel). Ce type de verbe en français apparaît dans des constructions à verbe support, appelés aussi des constructions nominales.

Lundi 06/07/2009 Fête de la linguistique



Elsa Tolone