Séminaires>2007-2008

Séminaires

Les séminaires de l'année universitaire 2007-2008
auront lieu le lundi matin, à 10:30,
au bâtiment Copernic 4ème étage, salle de séminaire
à l'IGM, Université Paris-Est.

Responsable du séminaire : Elsa Tolone (prénom.nom[at]univ-paris-est.fr),
tel. : 01 60 95 75 51.




Lundi 29/10/2007 Christian LECLÈRE Université Paris-Est Le Lexique-Grammaire des verbes simples : vieux problèmes et interrogations nouvelles Télécharger
Pour la classification des verbes simples du français, entreprise dans les années 70', les critères choisis (essentiellement syntaxiques et distributionnels) ont été sélectionnés avec le souci d'une description linguistique cohérente. La représentation des propriétés de ces verbes (informatisée dès le début) n'a pas eu pour premier but une application éventuelle pour le TAL.

Cet exposé décrira certains des problèmes linguistiques qui se sont posés, quelques améliorations qui peuvent être envisagées dans le contexte actuel et certaines questions qui restent en suspend.

Lundi 12/11/2007 Eric LAPORTE Université Paris-Est La table des tables de verbes distributionnels du français Télécharger
Certaines informations fondamentales sont laissées implicites dans la version actuelle du lexique-grammaire. Une propriété n'est explicitement enregistrée dans les entrées d'une table que si ses valeurs dépendent des entrées. Ainsi, une valeur partagée par toutes les entrées d'une table n'est pas formellement enregistrée. Par exemple, les classes représentées par les tables sont définies par des propriétés. Ces définitions sont décrites dans la littérature. C'est un obstacle à l'exploitation du lexique-grammaire, car les propriétés définitoires des classes sont parmi les plus fondamentales, et potentiellement les plus utiles pour l'analyse syntaxique automatique.

Nous avons donc commencé un travail collectif de formalisation de ces informations implicites, de sorte qu'elles soient directement disponible pour les analyseurs. Nous commençons par les assignements de valeurs de propriétés au niveau des classes de verbes. Autrement dit, nous recherchons d'abord les propriétés qui ont une valeur uniforme dans toute une table. Dans un tel cas, l'information peut être formalisée dans une table à double entrée dont les lignes représentent les 59 classes de verbes distributionnels, et dont les colonnes représentent les entrées. Elle est appelée la "table des tables". C'est une interface commode pour attacher manuellement les valeurs de propriétés aux classes de verbes, et elle est compatible avec le modèle sous-jacent au lexique-grammaire.

Lundi 26/11/2007 Antoine DÉSIR, Laurence DANLOS et Benoît SAGOT Université Paris 7 Unitex2SxPipe Télécharger
Unitex permet entre autres de reconnaître automatiquement des motifs dans un texte brut. Grâce à son interface graphique, il permet aux linguistes de construire des grammaires de façon quasi intuitive, sous forme de graphes à états finis.

SxPipe est une chaîne de traitement pré-syntaxique développée par Benoît Sagot et Pierre Boullier, qui gère la segmentation, la tokenisation, la correction orthographique ainsi que la reconnaissance d'entités nommées. Il transforme un texte brut en DAG (Direct Acyclic Graph ou lattice) d'entrées lexicales. Depuis peu, il sait utiliser une grammaire non contextuelle pour reconnaître des motifs dans un DAG d'entrée, qui est alors modifié en conséquence (étiquetage, insertion de balises,...).

Unitex2SxPipe est un ensemble de scripts Perl qui utilisent cette nouvelle fonctionnalité. Ils ont pour objectif de traduire une grammaire Unitex (une série de graphes au format .grf) en une grammaire utilisable par SxPipe (grammaire qui sera constituée d'une grammaire non contextuelle et d'un lexique). Cet outil a été créé dans le but d'adapter Ilimp, grammaire Unitex développée par Laurence Danlos qui distingue les occurrences anaphoriques et impersonnelles du pronom « il ». Le résultat pour Ilimp étant satisfaisant, nous essayons de généraliser le procédé à tous les graphes Unitex.

Lundi 10/12/2007 Jean-Pierre HEYMANN Université Paris-Est Grammaires catégorielles Télécharger
Les grammaires catégorielles constituent une description de type opératif fonctionnel des catégories grammaticales des mots d'une langue. Au lieu de règles de production comme c'est le cas dans les grammaires génératives, les opérations d'analyse et de synthèse des constituants se font à l'aide d'opérations de type concaténation droite et gauche des constituants aux divers niveaux de regroupement.

Ce formalisme est assez pratique à manier pour les linguistes. Il permet en même temps pour l'informaticien d'utiliser des langages de type fonctionnels ou logiques pour réaliser des analyseurs et générateurs utilisant ce formalisme. Un langage comme CAML à typage statique livrera sa pleine puissance pour ce type de travail car chaque constituant de la phrase a un type, et tout se ramène à des opérations sur des types.

Par ailleurs, les règles de transformation appliquées aux phrases se résument à des applications fonctionnelles. On utilisera donc pour ce faire les ressources du lambda-calcul, ou préférablement celles de la logique combinatoire qui constitue une sorte d'algèbre des opérateurs plus facile à manier.

Lundi 07/01/2008 Catherine CAMUGLI GALLARDO Université Paris 10 A partir des tables du Lexique Grammaire et jusqu'où ? Du mariage fécond de l'informatique et de la linguistique. Télécharger
La complémentarité du système Unitex et des tables électroniques est une évidence puisqu'elle est à l'origine de la création de celui-ci. Leurs apports réciproques le sont peut-être moins.

L'exposé entend montrer les résultats d'un travail bi disciplinaire récent (O. Blanc & C. Camugli 2007) et présenter des questionnements linguistiques en cours auxquels l'informatique apporterait une voie de réponse.

Lundi 14/01/2008 Fête de la linguistique

Lundi 21/01/2008 Matthieu CONSTANT Université Paris-Est Reformater les tables du lexique-grammaire Télécharger
Les tables du lexique-grammaire forment un lexique-syntaxique à large couverture d'une précision linguistique remarquable. Leur forme tabulaire facilite leur lecture et leur maintenance. Cependant, ce format est très rarement compatible avec le format de lexiques utilisés dans des applications de TAL comme les analyseurs syntaxiques.

Pour pallier ce problème, nous proposons un outil de reformatage des tables dans différents formats. Contrairement aux approches travaillant table par table avec une configuration différente pour chaque table, notre outil n'a qu'une seule configuration et est conçu pour fonctionner à l'aide de la table des tables (en cours de construction à l'IGM). Nous avons mis au point un petit langage où chaque propriété est associée à une opération et un objet linguistique sous la forme de listes ou/et de structures de traits. Suivant les propriétés sélectionnées pour chaque entrée, les opérations et objets linguistiques associés seront combinés pour former une entrée reformatée.

Dans cet exposé, nous présenterons d'abord une description des principes généraux de l'outil. Nous illustrerons ensuite notre propos de différents exemples de lexiques que l'on peut obtenir et d'une démonstration.

Lundi 11/02/2008 Dana-Marina DUMITRIU Université Paris-Est Le vocatif des noms communs du romain Télécharger
La conception générale des linguistes qui ont abordé le problème du vocatif roumain est que tous les noms ne peuvent pas réaliser ce cas. L'explication de ce phénomène, là où elle existe, est pourtant insuffisante. C'est au moins la conclusion à laquelle nous a amené notre travail d'élaboration du dictionnaire électronique du roumain qui exigeait, entre autres, la prise d'une position ferme sur :
  • la réalisation/non réalisation des formes de vocatif pour chaque nom et adjectif figurant dans le DELAS
  • le nombre de formes de vocatif pour chaque lemme et la justification de l'existence des formes parallèles
  • le nombre des morphèmes spécifiques de vocatif
  • etc
L'étude plus approfondie du vocatif roumain entreprise en collaboration avec Mme Ancuţa Guţă (Université de Craiova, Roumanie) nous permet d'affirmer que le vocatif roumain est soumis à plusieurs types de conditionnements :
  • Le conditionnement sémantique
  • Le conditionnement phonétique
  • Le conditionnement morphologique
  • Le conditionnement syntaxique
  • Les registres de langue
  • Le conditionnement pragmatique

Lundi 18/02/2008 Séminaire interne Université Paris-Est Théories syntaxiques contemporaines (1) Télécharger

Lundi 25/02/2008 Joon Seo LIM Université Paris-Est Quelques remarques sur le verbe support et le nom prédicatif en position sujet Télécharger
Nous voulons préciser la définition du verbe support (Vsup) à travers les positions où les noms prédicatifs (Npréd) peuvent figurer dans une phrase simple, notamment les « Npréd » en position sujet. Dans cette optique, nous avons réexaminé les résultats des études sur les « Vsup » qui ont été accumulés dans le cadre du lexique-grammaire. Notre travail permet de découvrir de nouvelles proprié­tés de ces deux éléments essentiels, « Vsup » et « Npréd » pour les constructions à Vsup.

En général, on entend par constructions à Vsup celles où la fonction pré­dicative n'est pas remplie par le verbe mais par le nom. Par conséquent, le verbe ne fonctionne plus comme un prédicat mais seulement comme un auxiliaire (support) grammatical indiquant le temps, l'aspect, le nombre et la personne, etc. A l'aide d'un tel verbe, « Vsup », on peut constituer « une phrase nominale (ou nom phrastique) » au sens logico-sémantique. En effet, le nom est le noyau de l'opération prédicative qui détermine une phrase simple au niveau syntaxique. De ce point de vue, on peut les classifier comme nom prédicatif (Npréd) et verbe support (Vsup) à la différence des noms non prédicatifs (N-préd) et des verbes ayant la fonction prédicative (Vpréd).

D'ailleurs, les études sur les « Vsup » menées au LADL (Laboratoire d' Automatique Documentaire et Linguistique) ont été réalisées autour des constructions à Vsup dans lesquelles les noms prédicatifs se trouvent en position de complément direct ou indirect, éventuellement circonstanciel.

Avoir (J. Labelle, 1974), Faire (J. Giry-Schneider, 1978 ; 1987) Etre Prép (L. Danlos, 1980), Prendre, perdre, avoir (R. Vivès, 1983), Donner (G. Gross, 1989).

Autrement dit, les « Npréd » en position sujet ont été considérés comme un phénomène exceptionnel dans le cadre du lexique-grammaire. Ceci veut dire qu'on les a traités comme des problèmes stylistiques sinon comme une transformation passive des constructions actives à Vsup. Nous allons alors essayer d'un autre point de vue de classer systématiquement les « Npréd » en position sujet, comme :
  • Constructions à Vsup intransitifs : [Npréd0 Vsup (E + W)]
  • Constructions passives [Npréd0 ETRE Vpp (E + W)]

Lundi 03/03/2008 Anne DISTER Université Catholique de Louvain, Belgique L'annotation morphosyntaxique de transcriptions de dialogues oraux spontanés Télécharger
Depuis plusieurs années, la communauté scientifique dispose de systèmes d'annotation morphosyntaxique qui donnent des résultats corrects sur des textes du français standard écrit. Néanmoins, très rares sont les tentatives d'étiquetage de corpus oraux retranscrits.

Les logiciels faisant actuellement le type d'étiquetage auquel nous souhaitons aboutir s'avèrent inadéquats pour des données textuelles orales, et ce pour plusieurs raisons :
  • les conventions de transcription notent des éléments, souvent appelés disfluences, qui perturbent les logiciels habitués à analyser des textes de français écrit « standard » : amorces de mots, répétitions, chevauchements de parole, etc., entravent en effet l'analyse linéaire du texte ;
  • pour des raisons théoriques, les transcriptions ne sont pas ponctuées, or la plupart des logiciels se basent sur la ponctuation lors de l'étiquetage ;
  • les textes contiennent des particularités lexicales qui sont propres à l'oral ; notre corpus, en particulier, comporte des termes propres aux variétés du français en Belgique.
Ainsi, si l'annotation de corpus oraux ne nous semble pas devoir être vue comme un problème spécifique, dans la mesure où il n'y a pas de grammaire de l'oral par opposition à une grammaire de l'écrit, les problèmes posés ci-dessus se doivent néanmoins d'être résolus pour rendre le système d'annotation performant.

Dans ce séminaire, nous montrerons l'expérience que nous avons menée sur un vaste corpus de données textuelles orales ; nous insisterons sur la phase de prétraitement des données, ainsi que sur les modifications apportées au système d'étiquetage Elag.


Lundi 31/03/2008 Tantely Harinjaka RAVELONJATOVO Université d'Antananarivo, Madagascar Description formelle des termes malgaches avec Unitex Télécharger
Comme nous travaillons dans le cadre de la linguistique de corpus pour notre thèse, les hypothèses ressortant du corpus devraient être vérifiées avec le même corpus. La description formelle des hypothèses constituent une étape importante non seulement pour la vérification de ces hypothèses mais également pour la reconnaissance d'autres termes ayant les formes similaires à la description. Seulement, il n'existe presque pas de dictionnaires utilisables avec Unitex pour la langue malgache. Ainsi, une partie de l'exposé sera consacré à la technique de description (pré-traitement). Cette partie vient après la brève explication de la thèse et son état d'avancement en général.

Quelques informations sur la thèse :
thèse en linguistique (appliquée)
spécialité : terminologie.
thème : Étude des termes en langue malgache, cas du domaine de l'environnement.

Lundi 07/04/2008 Wankawee PUANGKOR Université Paris-Est Étude de l'adjectif thaï Télécharger
On propose une étude de l'adjectif en français et en thaï. La première appartenant à la famille indo-européenne et la seconde à la famille taï-kadaï. L'adjectif thaï, traditionnellement classé avec l'adverbe dans la catégorie de « qualificatif » ou <ADJV> dans Unitex. On présente également la construction des adjectifs thaïs à la base verbale, nominale et adjectivale. En thaï, langue sans dérivation affixale, un grand nombre de mots sont composés, soit à l'aide de mots supports, soit par la juxtaposition de deux ou plusieurs mots, soit par plusieurs types de répétition : redoublement, réduplication et série adjectivale. En même temps, on fait une étude sur l'étiquetage des mots qui peuvent être, grammaticalement, un adjectif. Certains adjectifs ne peuvent pas être étiquetés comme <Adj>.

On peut dire que l'adjectif mérite d'être reconnu et classé à part, car outre ses traits sémantiques qui ne peuvent pourtant être négligés, son comportement syntaxique n'est pas toujours celui du nom, du verbe, ou de l'adverbe, malgré leur proximité dans certains cas. Même si l'adjectif thaï est très proche du verbe, il l'est aussi de l'adverbe, et dans certains cas du nom.

Lundi 14/04/2008 Evangelia FISTA Université Aristote de Thessalonique, Grèce Méthode de représentation automatique des verbes préfixés du grec moderne Télécharger
Dans cet exposé, nous présentons d'une part des méthodes de construction systématique du dictionnaire électronique des verbes préfixés du grec moderne et de leurs formes fléchies et d'autre part les propriétés syntactico-sémantiques des verbes préfixés par ξε-, παρα-, ξανα- et συν- du grec moderne et leur représentation de manière qu'elles soient consultables autant par un lecteur humain que par un ordinateur. Nous étudions les verbes qui acceptent dans leur complémentation nucléaire une phrase complétive en position sujet ou objet direct, ainsi que les verbes transitifs locatifs de structure standard, i.e. de type N0 V N1 Loc N2, où Loc N2 est un complément locatif non circonstanciel. Cette étude s'inscrit dans le cadre théorique des recherches effectuées depuis plus de trente ans au Laboratoire d'Automatique Documentaire et Linguistique (LADL). Elle vise à une description linguistique la plus complète possible et à son application dans le domaine du traitement automatique des langues naturelles (TALN).

Lundi 21/04/2008 Stavroula VOYATZI Université Paris-Est Revisiter les tables du lexique-grammaire d'adverbes figés du français Télécharger
De nombreuses classifications d'adverbes ont été proposées pour le français, mais rares sont celles qui sont proprement syntaxiques (Schlyter 1977, Gross 1986 ; 1990, Abeillé et Godart 1997, Naegeli-Frutschi 1987, Molinier 1990, Molinier et Lévrier 2000). Maurice Gross (1986 ; 1990) a été le premier à proposer une description globale et formelle des adverbes figés du français, en se fondant sur un premier recensement de 6 400 formes « de la classe de mots et d'expressions susceptibles d'avoir une fonction adverbiale » et en s'appuyant sur les principes de la théorie du Lexique-Grammaire.

Cet ensemble lexical est réparti en seize classes morpho-syntaxiques associées à des tables qui spécifient leurs propriétés syntaxiques et sémantiques (i.e. réduction, permutation, insertion des modifieurs). Certaines informations fondamentales sont laissées implicites dans la version actuelle des tables. Une propriété n'est explicitement enregistrée dans les entrées d'une table que si ses valeurs dépendent des entrées. Ainsi, une valeur partagée par toutes les entrées d'une table n'est pas formellement enregistrée (i.e. propriétés définitoires). D'autres propriétés ne sont pas représentées dans les tables de manière systématique (i.e. permutations des adverbes phrastiques à sujet explicite [table PF]).

Cet exposé présentera quelques améliorations qui ont été effectuées sur les tables de Gross (1990), la version actuelle de la « table des tables » des adverbes figés (Laporte et Voyatzi, à paraître) et certains des problèmes linguistiques qui se sont posés lors de cette entreprise.

Lundi 28/04/2008 Ana-Maria BARBU Institut de linguistique "I. Iordan - Al. Rosetti", Roumanie La conjugaison des verbes roumains Télécharger
The approach to the Romanian verb conjugation we propose is based on the significant results got by methods of computational linguistics which allow us to handle a large number of verbs (over 7.500). These results give an accurate insight into the Romanian verbal system which we see both from morphological and phonological point of view.

We present an almost exhaustive classification of verbs following the traditional Romanian conjugation classes. Within each of these classes we further identify explicit paradigms, each characterized by a specific set of desinences. We consider that two paradigm differ if their desinence sets differ by at least one member. A statistical evaluation shows the distribution of Romanian verbs on paradigms. Another aspect of the verb morphology refers to the usage of the verbal themes, the present and perfect ones, in conjugation.

Concerning the verb phonology, we confine ourselves to discuss the types of the alternations inside and at the right edge of a root, as well as a succinct analysis of their phonological context.

Lundi 19/05/2008 Lidia VARGA Université Paris-Est Typologie des prédicats de déplacements orientés du hongrois :
La classes des déplacements orientés sur un axe vertical
Télécharger
Les études linguistiques portant sur l'expression du mouvement en hongrois (langue agglutinante) se focalisent surtout sur les aspects morphologiques de la description de l'espace et du mouvement, comme le système casuel tripartite appelé « tri-directionnel» (irányhármas) et les préfixes verbaux.

Notre étude, qui se veut systématique, montre d'une part, que d'autres éléments morpho-syntaxiques peuvent participer à l'expression du mouvement. Les prédicats de mouvement peuvent être des verbes, des prédicats nominaux et, en nombre moindre, des adjectifs prédicatifs. D'autre part, la compositionnalité sémantique qui caractérise l'expression du mouvement donne lieu à des combinatoires morpho-syntaxiques entre certaines classes sémantiques de prédicats qui peuvent être exploitées dans le traitement automatique.

D'abord nous avons précisé sémantiquement et syntaxiquement la notion de déplacement. Puis nous avons défini des sous-classes sémantiques de déplacement, dont la classe de <déplacement sur un axe vertical>. Cette dernière est caractérisée, entre autres, par le préfixe fel- (vers le haut) et le- (vers le bas). Puis nous avons décrit le schéma d'arguments des dits prédicats. Chaque schéma d'arguments correspond à une phrase simple, à un emploi et à une entrée de dictionnaire. La phrase simple est l'unité d'analyse minimale de notre étude. Nous avons également défini des propriétés sémantiques pour les classes d'objets d'arguments.

Lundi 26/05/2008 Fête de la linguistique

Lundi 02/06/2008 Marie-Josee DE SAINT ROBERT Office des Nations Unies, Genève Outils du traducteur de l'ONU et problèmes rencontrés par les traducteurs dans l'utilisation de ces outils
Je crois qu'une présentation des outils du traducteur de l'ONU et des problèmes rencontrés par les traducteurs dans l'utilisation de ces outils (thème que j'ai abordé en 2003 dans le cadre d'une conférence de LREC justement) pourrait rejoindre le mieux les préoccupations de votre centre de recherche. En tout état de cause, je répondrai à vos questions.
Liste des thèmes de discussion possibles:
  • traduire à l'ONU : les nécessités de la communication internationale
  • les outils du traducteur à l'ONU
  • le recrutement des traducteurs à l'ONU
  • la coordination terminologique à l'ONU
  • la coopération des organisations internationales en matière de traduction assistée par ordinateur et de terminologie
Liens :
2 sites non reliés entre eux: unterm.un.org et documents.un.org
Outil utilisé: MULTITRANS

Lundi 09/06/2008 Cédric MESSIANT et Thierry POIBEAU Université Paris-Nord Acquisition automatique d'information sur la valence des verbes à partir de gros corpus Télécharger
Même s'il existe des base de données lexicales sous format électronique pour le français (le Lexique-grammaire, Dicovalence, le Lefff, etc.), il existe peu de techniques permettant d'adapter ces lexiques à de nouveaux domaines. Or, on sait que dans les domaines techniques notamment (Droit, médecine, etc.), le comportement langagier peut varier de manière importante et les ressources existantes doivent être adaptées et complétées.

On présente ici une approche originale permettant d'inférer des informations de valence à partir de gros corpus, sans lexique ni schéma de valence prédéfini. La difficulté principale vient du fait que l'on est confronté à des formes de surface ambiguës à partir desquelles on souhaite inférer des connaissances non ambiguës. Les expériences que nous présentons sont basées sur un corpus de 10 ans du journal Le Monde, comprenant environ 200 millions de mots. On verra l'apport des informations de nature statistiques dans ce cadre ; on verra aussi comment les expériences effectuées peuvent nous amener à voir de façon différente les notions d'arguments et de modifieurs.

Au cours de la discussion, on souhaite échanger sur ces techniques et voir en quoi elles pourraient compléter des travaux de nature différente, en particulier ceux qui visent à élaborer des bases lexicales à la main.

Références :
- Cédric Messiant. 2008. ASSCI: A Subcategorization Frames Acquisition System for French Verbs. In Association for Computational Linguistics (ACL, Student Research Workshop), Columbus, Ohio.
- Cédric Messiant, Anna Korhonen, and Thierry Poibeau. 2008. LexSchem: A Large Subcategorization Lexicon for French Verbs. In Language Resource and Evaluation Conference (LREC), Marrakech.
- Thierry Poibeau and Cédric Messiant. 2008. Do we still need gold standard for evaluation ? In Proceedings of the Language Resources and Evaluation Conference (LREC), Marrakech.



Elsa Tolone