|
||||
Lundi 20/10/2008 | Fête de la linguistique | |||
|
||||
Lundi 03/11/2008 | Pollet SAMVELIAN (et Kim GERDES) | Université Paris 3 | Les constructions à verbe support du persan : une approche statistique | Télécharger |
Cet exposé porte sur les
constructions à verbe support du persan et propose une
méthode statistique pour leur extraction. Le nombre des
verbes simples du persan est estimé à environ 250. Une
fois que les verbes appartenant à un registre particulier
(littéraire ou familier) sont écartés, cet ensemble est
réduit de 120 à 130 verbes. Cette situation a deux
conséquences :
La nature collocationnelle de la relation entre le verbe et l'élément non-verbal incite à l'établissent d'un inventaire où sont consignées les propriétés syntaxiques et sémantiques associées à chaque construction (à la manière des tables du LADL ou les dictionnaires explicatifs et combinatoires de Mel'cuk et al., par exemple). La grande productivité de ces constructions implique, en revanche, l'existence des régularités syntactico-sémantiques qu'il conviendrait de mettre en évidence, par le biais, par exemple du codage des Fonctions Lexicales à la Mel'cuk. Le présent travail propose une méthode extraction de listes de constructions à verbe support à partir de grands corpus disponibles sur le web et sans autre ressource linguistique disponible au préalable. La méthode a été appliquée au corpus du quotidien iranien *Keyhan* (choisi à cause de sa régularité de publication et son site web). Elle a été testée sur un ensemble de six verbes qui participent fréquemment à la formation des constructions à verbe support. Les premiers résultats sont extrêmement probants : les 500 premiers mots extraits pour chaque verbe fournissent tous des informations pertinentes : il s'agit, dans la majorité des cas, soit de l'élément non-verbal de la construction à verbe support, soit d'une préposition introduisant un des membres de la construction. Nous poursuivons notre travail dans plusieurs directions :
|
||||
|
||||
Lundi 17/11/2008 | Cédrick FAIRON | Université Catholique de Louvain, Belgique | Extension de ressources linguistiques : la mise à jour du DELAF | |
Les dictionnaires
électroniques DELA ont été parmi les premières ressources
lexicales à large couverture pour le français (Courtois
1990). Ils sont aujourd'hui diffusés sous une licence LGPL
qui fixe clairement les conditions d'utilisation et
facilite dès lors leur réemploi dans toutes sortes de
projets. Malheureusement, l'absence de mises à jour
systématiques depuis le début des années 2000 a conduit ce
dictionnaire à prendre quelques rides : ne cherchez pas
les mots blog, biodiversité, cybercriminalité,
microcrédit, téraoctet, bancassureur ou paralympique, ils
n'y sont pas, même si les réalités qu'ils dénotent sont
devenues, elles, très communes. Il est donc utile de se
pencher sur ce problème et d'apporter aussi vite que
possible des compléments permettant de... rattraper la
néologie.
Nous présenterons une expérience réalisée avec des étudiants du Master en linguistique à l'UCL (Belgique), dans le cadre d'un cours de lexicologie, et visant à identifier et étudier les "mots inconnus" d'un corpus de presse couvrant la période 2000-2006 (le DELAF servant de "corpus d'exclusion"). Nous présenterons la méthodologie de collecte des candidats qui repose sur l'usage d'un logiciel de "veille linguistique" (Fairon et Paumier 2006) et les critères de sélection des nouvelles entrées lexicales. En particulier, nous soumettrons au débat la problématique des "mots composés". Outre l'apport concret d'une liste de mots nouveaux pour le DELAF, cette expérience permet de prendre une mesure du phénomène de la néologie sur une période de 5 ans. Le dictionnaire constitué dans le cadre de cette expérience sera prochainement livré pour une intégration dans le DELAF. Références : - Courtois B. (1990). Dictionnaires électroniques du français. In Courtois B. and Silberztein M. editors, Dictionnaire électronique du français. Langue française N°87: 11-22. Larousse. Paris. - Fairon C. et Paumier S. (2006). "A framework for real-time dictionary updating", In Proceedings of LREC 2006. Genova. |
||||
|
||||
Lundi 08/12/2008 | Stéphanie WEISER | Université Paris 10 | Repérage automatique d'informations temporelles touristiques dans des pages Web | Télécharger |
Les expressions temporelles
liées au domaine du tourisme ont des caractéristiques
précises : elles ont une visée informative et sont assez
spécifiques. Elles le sont d'autant plus lorsqu'elles
figurent dans des pages Web. Notre travail consiste à
extraire ces informations des pages Web et à les annoter
afin d'alimenter la base de connaissance d'un portail
touristique sur Internet. Après avoir caractérisé les
informations que nous voulons détecter, nous verrons les
difficultés qui peuvent se poser, au moment de
l'extraction ou de l'annotation.
Sur un plan technique nous présenterons notre méthode d'extraction, et les transducteurs qui ont été réalisés à l'aide d'Unitex pour les besoins du projet. Sur un plan théorique, nous ferons une étude comparative des expressions temporelles touristiques sur Internet et dans les guides touristiques papier. Nous étudierons également la façon dont le temps est représenté sur le Web : informations sans cesse actualisées, dates relatives, etc. |
||||
|
||||
Lundi 12/01/2009 | Maud EHRMANN | XRCE | Les Entités Nommées : proposition de définition et résolution de métonymie | Télécharger |
La reconnaissance et la
catégorisation des Entités Nommées apparaît aujourd'hui
comme un des incontournables du traitement automatique des
textes. Apparue au milieu des années 1990 à la faveur des
dernières conférences MUC (Message Understanding
Conferences), cette tâche apparaît en effet comme
fondamentale pour diverses applications participant de
l'analyse de contenu et nombreux sont les travaux se
consacrant à sa mise en oeuvre, obtenant des résultats
plus qu'honorables. Fort de ce succès, le traitement des
entités nommées s'oriente désormais vers de nouveaux
défis, parmi lesquels le typage plus fin, la
désambiguïsation ou encore la résolution de métonymie. Ces
perspectives nouvelles rendent cependant d'autant plus
cruciale la question du statut théorique de ces unités,
lequel n'a guère été discuté jusqu'à aujourd'hui.
Cet exposé rendra compte de deux axes de recherche investis durant mon travail de thèse, l'un théorique, avec une proposition de définition des entités nommées, l'autre davantage expérimental, avec une méthode de résolution de métonymie des entités nommées. |
||||
|
||||
Lundi 19/01/2009 | André BITTAR | Université Paris 7 | Annotation temporelle de textes en français | Télécharger |
Le traitement des
informations temporelles est crucial pour la compréhension
de textes en langue naturelle. Le langage de spécification
TimeML a été conçu afin de permettre le repérage et la
normalisation des expressions temporelles et des
événements dans des textes écrits en anglais. L'objectif
des divers projets TimeML a été de formuler un schéma
d'annotation pouvant s'appliquer à du texte libre, comme
ce que l'on trouve sur le Web, par exemple. Des efforts
ont été faits pour l'application de TimeML à d'autres
langues que l'anglais, notamment le chinois, le coréen,
l'italien, l'espagnol et l'allemand. Pour le français, il
y a eu des efforts allant dans ce sens, mais ils sont
encore un peu éparpillés.
Dans cet article (RECITAL 2008), nous détaillons nos travaux actuels qui visent à élaborer des ressources complètes pour l'annotation de textes en français selon TimeML - notamment un guide d'annotation, un corpus de référence (Gold Standard) et des modules d'annotation. |
||||
|
||||
Lundi 16/02/2009 | Priscille BALDIT | Laboratoire IGN | Traitement d'un corpus de réponses à des questions ouvertes à l'aide d'outils informatiques et linguistiques pour définir les attentes des randonneurs par rapport aux cartes de l'IGN | Télécharger |
Comment exploiter les
résultats d'une enquête marketing de type qualitatif? Les
méthodes existantes pour analyser un corpus de réponses à
des questions ouvertes consistent généralement à codifier
les données par rapport à une grille thématique. Cette
technique paraît toutefois insuffisante pour explorer un
contenu textuel sans a priori.
Nous présentons donc une approche axée sur l'analyse lexicométrique des textes, afin de traiter un corpus d'entretiens collectifs retranscrits sur le thème de la randonnée. Il s'agit de définir les attentes des randonneurs par rapport aux cartes IGN et de définir des profils-type. La méthodologie présentée permet d'extraire des marqueurs linguistiques pour déterminer l'opinion des personnes interrogées et les caractéristiques de leur énonciation. |
||||
|
||||
Lundi 23/02/2009 | Chahnez ZAKARIA | Université Paris-Est | Classification des e-mails de conflits dans un environnement professionnel en utilisant une ontologie | Télécharger |
La communication dans une
entreprise distribuée géographiquement, via les outils du
Travail Coopératif Assisté par Ordinateur (TCAO), a permis
aux équipes de ses différentes annexes de pallier au
problème de la distance. Cependant il est encore difficile
pour un chef d'équipe de gérer à distance les émotions des
membres de son équipe et les conflits qui peuvent survenir
entre eux. De telles situations peuvent compliquer la
communication et la coopération entre eux.
Pour remédier au problème de la compréhension du comportement des employés, nous exploitons les corpus générés à travers les e-mails échangés entre eux. Notre approche consiste à détecter les e-mails de conflits par leur classification, selon une ontologie de conflits relationnels. |
||||
|
||||
Lundi 23/03/2009 | Nathalie GORMEZANO et Sandrine PERALDI | Institut ISIT | Panorama de la recherche appliquée en communication interculturelle multilingue et multimedia à l'ISIT | |
Le Centre de recherche de l'ISIT, le
CRATIL (Centre de recherche appliquée sur la traduction,
l'interprétation et le langage) offre un cadre de travail
pour la réalisation de projets de recherche appliquée dans
le domaine de la communication multilingue. Ces projets
répondent à des appels d'offre et débouchent sur des
études ou des produits spécifiques qui peuvent être
exploités différemment selon les contrats de recherche
unissant les partenaires : l'entreprise ou l'institution,
les chercheurs et le CRATIL. Ces projets sont réalisés par
les étudiants de l'ISIT de dernière année, tutorés par des
enseignants-chercheurs, docteurs ou doctorants et dirigés
par des enseignants-chercheurs permanents.
Le CRATIL s'associe à des équipes de recherche pluridisciplinaires pour mener à bien certains projets de recherche appliquée. Les travaux se déroulent alors dans le cadre d'équipes mixtes et sont co-dirigés par les enseignants-chercheurs permanents des centres de recherche associés. L'entreprise collabore avec le groupe de recherche tout au long du projet conformément aux clauses du contrat établi. Les projets en cours en 2008-2009 :
|
||||
|
||||
Lundi 30/03/2009 | Kozue OGATA | Université Aoyama Gakuin, Tokyo | Les constructions du verbe sentir | |
Le verbe sentir se remarque par la
diversité de ses constructions. Le Lexique-Grammaire les
recense, mises à part les phrases figées, dans les tables
suivantes :
Références : - Boons, J.-P., Guillet, A., Leclère, Ch. 1976. La structure des phrases simples en français : constructions intransitives. Genève : Droz - Guillet, A., Leclère, Ch. 1992. La structure des phrases simples en français : constructions transitives locatives. Genève : Droz - Gross, M. 1975. Méthodes en syntaxe. Paris : Hermann. |
||||
|
||||
Lundi 27/04/2009 | Olivier CURÉ | Université Paris-Est | Introduction aux ontologies du Web Sémantique : technologies et outils | Télécharger |
Cette présentation portera sur le concept
d'ontologie à travers son exploitation la plus populaire
actuellement : le Web Sémantique.
Dans un premier temps, les concepts supportant les
principales technologies seront présentées (logique de
description) puis je présenterai les langages de
définition d'ontologies : RDFS et OWL.
Puis nous passerons aux principaux outils :
|
||||
|
||||
Lundi 04/05/2009 | Catherine DOMINGUES | Laboratoire COGIT/IGN | Apport des techniques linguistiques pour la conception de cartes sur mesure | Télécharger |
Des outils libres et faciles d'utilisation
permettent à tout utilisateur d'internet de réaliser une
carte. Cependant la qualité de ces cartes n'est pas
suffisante. Une carte sur mesure se doit, à la fois, de
respecter les règles de cartographie et s'adapter aux
besoins et aux goûts de son concepteur. Un des problèmes
rencontré est la mise en correspondance de la démarche et
du vocabulaire présentés dans la littérature spécialisée
avec les besoins et les goûts exprimés par le concepteur
de carte néophyte.
Afin de pallier cette difficulté, des travaux ont été menés au laboratoire COGIT de l'Institut géographique national (IGN) afin de rassembler un corpus textuel portant sur la conception d'une carte topographique et l'expression du ressenti des lecteurs de cartes, puis d'exploiter ce corpus avec des techniques linguistiques. Nous avons ainsi ébauché une terminologie de la cartographie et une description formalisée de carte. Une ontologie associant concepts de la cartographie (obtenus à partir de l'étude de terminologie) et règles manipulant ces concepts est en cours d'élaboration. L'objectif de cet exposé est de présenter ces travaux afin de les soumettre à la critique et de les rapprocher de travaux en cours utilisant les mêmes méthodes. |
||||
|
||||
Lundi 11/05/2009 | Dana-Marina DUMITRIU | Université Paris-Est | Le numéral roumain | Télécharger |
Encadré par la grammaire traditionnelle dans la flexion nominale, le numéral présente des particularités flexionnelles en fonction des valeurs qu'il peut avoir (adjectivale, nominale, adverbiale). Nous nous proposons de présenter la flexion du numéral en fonction de ses valeurs, ainsi que de ce qu'il désigne (nombre ou ordre d'objets, distribution, multiplication, etc.). Le but de l'étude est d'établir des graphes pour l'extraction de numéraux dans les textes. | ||||
|
||||
Lundi 18/05/2009 | Thomas FRANCOIS | Université Catholique de Louvain, Belgique | Modèles statistiques pour l'estimation automatique de la difficulté de textes de FLE | Télécharger |
La lecture constitue l'une des tâches
clefs dans l'apprentissage d'une langue étrangère. Dès
lors, le professeur de FLE est régulièrement amené à
préparer une activité sur la base d'un texte adapté au
niveau de sa classe. Bien que les manuels de FLE
constituent une manne où puiser des textes calibrés pour
un niveau donné, leur variété thématique reste limitée par
comparaison avec l'Internet.
Cependant, la recherche en ligne d'un texte portant sur un sujet précis et qui soit adapté au niveau de chaque apprenant est consommatrice de temps et gagnerait à être automatisée. Des expériences (Collins-Thompson & Callan, 2005 ; Heilman et al., 2008) montrent que, pour l'anglais, l'utilisation de classifieurs statistiques permet d'estimer automatiquement la difficulté d'un texte. Nous proposons une méthodologie originale comparant, pour le français langue étrangère (FLE), diverses techniques de classification (la régression logistique, le bagging et le boosting) sur deux corpus d'entraînement et s'intéressant à la capacité prédictive de diverses variables linguistiques. Références : - K. Collins-Thompson and J. Callan. (2005.) « Predicting reading difficulty with statistical reading models » in Journal of the American Society for Information Science and Technology, 56(13), 1448-1462. - Heilman, M., Collins-Thompson, K., and Eskenazi, M. (2008). « An Analysis of Statistical Models and Features for Reading Difficulty Prediction » in Proceedings of the Third ACL Workshop on Innovative Use of NLP for Building Educational Applications. Columbus, Ohio, 71-79. |
||||
|
||||
Lundi 15/06/2009 | Mehdi GHASSEMI | Université Paris-Est | Description linguistique du persan et les verbes supports | Télécharger |
Le persan, aujourd'hui parlé par plus de
soixante millions de personnes, a joui dès l'origine d'un
statut privilégié de langue de haute culture, dans une
aire géographique très étendue du Moyen-Orient. Nous
allons essayer de faire un survol descriptif de cette
langue pour mieux la connaître.
Comme vous savez, les verbes sont des unités très fondamentales dans la linguistique ; les verbes supports qui faisaient l'objet d'une large étude pendant des années, constituent une catégorie à part. On peut distinguer deux types de verbes en persan, en fonction de leur structure morphologique : les verbes simples et les verbes composés, et ce sont ces derniers qui feront l'objet de notre étude. Ce qu'on entend par verbe composé en persan, par opposition au verbe simple, c'est une structure formée d'un verbe précédé d'un élément substantival (un nom, un adjectif, un adverbe, un groupe nominal, une préposition ou un groupe prépositionnel). Ce type de verbe en français apparaît dans des constructions à verbe support, appelés aussi des constructions nominales. |
||||
|
||||
Lundi 06/07/2009 | Fête de la linguistique | |||
|