|
||||
Lundi 29/10/2007 | Christian LECLÈRE | Université Paris-Est | Le Lexique-Grammaire des verbes simples : vieux problèmes et interrogations nouvelles | Télécharger |
Pour la classification des
verbes simples du français, entreprise dans les années
70', les critères choisis (essentiellement syntaxiques et
distributionnels) ont été sélectionnés avec le souci d'une
description linguistique cohérente. La représentation des
propriétés de ces verbes (informatisée dès le début) n'a
pas eu pour premier but une application éventuelle pour le
TAL.
Cet exposé décrira certains des problèmes linguistiques qui se sont posés, quelques améliorations qui peuvent être envisagées dans le contexte actuel et certaines questions qui restent en suspend. |
||||
|
||||
Lundi 12/11/2007 | Eric LAPORTE | Université Paris-Est | La table des tables de verbes distributionnels du français | Télécharger |
Certaines informations fondamentales sont laissées
implicites dans la version actuelle du
lexique-grammaire. Une propriété n'est explicitement
enregistrée dans les entrées d'une table que si ses
valeurs dépendent des entrées. Ainsi, une valeur partagée
par toutes les entrées d'une table n'est pas formellement
enregistrée. Par exemple, les classes représentées par les
tables sont définies par des propriétés. Ces définitions
sont décrites dans la littérature. C'est un obstacle à
l'exploitation du lexique-grammaire, car les propriétés
définitoires des classes sont parmi les plus
fondamentales, et potentiellement les plus utiles pour
l'analyse syntaxique automatique.
Nous avons donc commencé un travail collectif de formalisation de ces informations implicites, de sorte qu'elles soient directement disponible pour les analyseurs. Nous commençons par les assignements de valeurs de propriétés au niveau des classes de verbes. Autrement dit, nous recherchons d'abord les propriétés qui ont une valeur uniforme dans toute une table. Dans un tel cas, l'information peut être formalisée dans une table à double entrée dont les lignes représentent les 59 classes de verbes distributionnels, et dont les colonnes représentent les entrées. Elle est appelée la "table des tables". C'est une interface commode pour attacher manuellement les valeurs de propriétés aux classes de verbes, et elle est compatible avec le modèle sous-jacent au lexique-grammaire. |
||||
|
||||
Lundi 26/11/2007 | Antoine DÉSIR, Laurence DANLOS et Benoît SAGOT | Université Paris 7 | Unitex2SxPipe | Télécharger |
Unitex permet entre autres
de reconnaître automatiquement des motifs dans un texte
brut. Grâce à son interface graphique, il permet aux
linguistes de construire des grammaires de façon quasi
intuitive, sous forme de graphes à états finis.
SxPipe est une chaîne de traitement pré-syntaxique développée par Benoît Sagot et Pierre Boullier, qui gère la segmentation, la tokenisation, la correction orthographique ainsi que la reconnaissance d'entités nommées. Il transforme un texte brut en DAG (Direct Acyclic Graph ou lattice) d'entrées lexicales. Depuis peu, il sait utiliser une grammaire non contextuelle pour reconnaître des motifs dans un DAG d'entrée, qui est alors modifié en conséquence (étiquetage, insertion de balises,...). Unitex2SxPipe est un ensemble de scripts Perl qui utilisent cette nouvelle fonctionnalité. Ils ont pour objectif de traduire une grammaire Unitex (une série de graphes au format .grf) en une grammaire utilisable par SxPipe (grammaire qui sera constituée d'une grammaire non contextuelle et d'un lexique). Cet outil a été créé dans le but d'adapter Ilimp, grammaire Unitex développée par Laurence Danlos qui distingue les occurrences anaphoriques et impersonnelles du pronom « il ». Le résultat pour Ilimp étant satisfaisant, nous essayons de généraliser le procédé à tous les graphes Unitex. |
||||
|
||||
Lundi 10/12/2007 | Jean-Pierre HEYMANN | Université Paris-Est | Grammaires catégorielles | Télécharger |
Les grammaires catégorielles
constituent une description de type opératif fonctionnel
des catégories grammaticales des mots d'une langue. Au
lieu de règles de production comme c'est le cas dans les
grammaires génératives, les opérations d'analyse et de
synthèse des constituants se font à l'aide d'opérations de
type concaténation droite et gauche des constituants aux
divers niveaux de regroupement.
Ce formalisme est assez pratique à manier pour les linguistes. Il permet en même temps pour l'informaticien d'utiliser des langages de type fonctionnels ou logiques pour réaliser des analyseurs et générateurs utilisant ce formalisme. Un langage comme CAML à typage statique livrera sa pleine puissance pour ce type de travail car chaque constituant de la phrase a un type, et tout se ramène à des opérations sur des types. Par ailleurs, les règles de transformation appliquées aux phrases se résument à des applications fonctionnelles. On utilisera donc pour ce faire les ressources du lambda-calcul, ou préférablement celles de la logique combinatoire qui constitue une sorte d'algèbre des opérateurs plus facile à manier. |
||||
|
||||
Lundi 07/01/2008 | Catherine CAMUGLI GALLARDO | Université Paris 10 | A partir des tables du Lexique Grammaire et jusqu'où ? Du mariage fécond de l'informatique et de la linguistique. | Télécharger |
La complémentarité du
système Unitex et des tables électroniques est une
évidence puisqu'elle est à l'origine de la création de
celui-ci. Leurs apports réciproques le sont peut-être
moins.
L'exposé entend montrer les résultats d'un travail bi disciplinaire récent (O. Blanc & C. Camugli 2007) et présenter des questionnements linguistiques en cours auxquels l'informatique apporterait une voie de réponse. |
||||
|
||||
Lundi 14/01/2008 | Fête de la linguistique | |||
|
||||
Lundi 21/01/2008 | Matthieu CONSTANT | Université Paris-Est | Reformater les tables du lexique-grammaire | Télécharger |
Les tables du
lexique-grammaire forment un lexique-syntaxique à large
couverture d'une précision linguistique remarquable. Leur
forme tabulaire facilite leur lecture et leur
maintenance. Cependant, ce format est très rarement
compatible avec le format de lexiques utilisés dans des
applications de TAL comme les analyseurs syntaxiques.
Pour pallier ce problème, nous proposons un outil de reformatage des tables dans différents formats. Contrairement aux approches travaillant table par table avec une configuration différente pour chaque table, notre outil n'a qu'une seule configuration et est conçu pour fonctionner à l'aide de la table des tables (en cours de construction à l'IGM). Nous avons mis au point un petit langage où chaque propriété est associée à une opération et un objet linguistique sous la forme de listes ou/et de structures de traits. Suivant les propriétés sélectionnées pour chaque entrée, les opérations et objets linguistiques associés seront combinés pour former une entrée reformatée. Dans cet exposé, nous présenterons d'abord une description des principes généraux de l'outil. Nous illustrerons ensuite notre propos de différents exemples de lexiques que l'on peut obtenir et d'une démonstration. |
||||
|
||||
Lundi 11/02/2008 | Dana-Marina DUMITRIU | Université Paris-Est | Le vocatif des noms communs du romain | Télécharger |
La conception générale des
linguistes qui ont abordé le problème du vocatif roumain
est que tous les noms ne peuvent pas réaliser ce
cas. L'explication de ce phénomène, là où elle existe, est
pourtant insuffisante. C'est au moins la conclusion à
laquelle nous a amené notre travail d'élaboration du
dictionnaire électronique du roumain qui exigeait, entre
autres, la prise d'une position ferme sur :
|
||||
|
||||
Lundi 18/02/2008 | Séminaire interne | Université Paris-Est | Théories syntaxiques contemporaines (1) | Télécharger |
|
||||
Lundi 25/02/2008 | Joon Seo LIM | Université Paris-Est | Quelques remarques sur le verbe support et le nom prédicatif en position sujet | Télécharger |
Nous voulons préciser la
définition du verbe support (Vsup) à travers les positions
où les noms prédicatifs (Npréd) peuvent figurer dans une
phrase simple, notamment les « Npréd » en position
sujet. Dans cette optique, nous avons réexaminé les
résultats des études sur les « Vsup » qui ont été
accumulés dans le cadre du lexique-grammaire. Notre
travail permet de découvrir de nouvelles propriétés de
ces deux éléments essentiels, « Vsup » et « Npréd » pour
les constructions à Vsup.
En général, on entend par constructions à Vsup celles où la fonction prédicative n'est pas remplie par le verbe mais par le nom. Par conséquent, le verbe ne fonctionne plus comme un prédicat mais seulement comme un auxiliaire (support) grammatical indiquant le temps, l'aspect, le nombre et la personne, etc. A l'aide d'un tel verbe, « Vsup », on peut constituer « une phrase nominale (ou nom phrastique) » au sens logico-sémantique. En effet, le nom est le noyau de l'opération prédicative qui détermine une phrase simple au niveau syntaxique. De ce point de vue, on peut les classifier comme nom prédicatif (Npréd) et verbe support (Vsup) à la différence des noms non prédicatifs (N-préd) et des verbes ayant la fonction prédicative (Vpréd). D'ailleurs, les études sur les « Vsup » menées au LADL (Laboratoire d' Automatique Documentaire et Linguistique) ont été réalisées autour des constructions à Vsup dans lesquelles les noms prédicatifs se trouvent en position de complément direct ou indirect, éventuellement circonstanciel. Avoir (J. Labelle, 1974), Faire (J. Giry-Schneider, 1978 ; 1987) Etre Prép (L. Danlos, 1980), Prendre, perdre, avoir (R. Vivès, 1983), Donner (G. Gross, 1989). Autrement dit, les « Npréd » en position sujet ont été considérés comme un phénomène exceptionnel dans le cadre du lexique-grammaire. Ceci veut dire qu'on les a traités comme des problèmes stylistiques sinon comme une transformation passive des constructions actives à Vsup. Nous allons alors essayer d'un autre point de vue de classer systématiquement les « Npréd » en position sujet, comme :
|
||||
|
||||
Lundi 03/03/2008 | Anne DISTER | Université Catholique de Louvain, Belgique | L'annotation morphosyntaxique de transcriptions de dialogues oraux spontanés | Télécharger |
Depuis plusieurs années, la communauté
scientifique dispose de systèmes d'annotation
morphosyntaxique qui donnent des résultats corrects sur
des textes du français standard écrit. Néanmoins, très
rares sont les tentatives d'étiquetage de corpus oraux
retranscrits.
Les logiciels faisant actuellement le type d'étiquetage auquel nous souhaitons aboutir s'avèrent inadéquats pour des données textuelles orales, et ce pour plusieurs raisons :
Dans ce séminaire, nous montrerons l'expérience que nous avons menée sur un vaste corpus de données textuelles orales ; nous insisterons sur la phase de prétraitement des données, ainsi que sur les modifications apportées au système d'étiquetage Elag. |
||||
|
||||
Lundi 31/03/2008 | Tantely Harinjaka RAVELONJATOVO | Université d'Antananarivo, Madagascar | Description formelle des termes malgaches avec Unitex | Télécharger |
Comme nous travaillons dans
le cadre de la linguistique de corpus pour notre thèse,
les hypothèses ressortant du corpus devraient être
vérifiées avec le même corpus. La description formelle des
hypothèses constituent une étape importante non seulement
pour la vérification de ces hypothèses mais également pour
la reconnaissance d'autres termes ayant les formes
similaires à la description. Seulement, il n'existe
presque pas de dictionnaires utilisables avec Unitex pour
la langue malgache. Ainsi, une partie de l'exposé sera
consacré à la technique de description
(pré-traitement). Cette partie vient après la brève
explication de la thèse et son état d'avancement en
général.
Quelques informations sur la thèse : thèse en linguistique (appliquée) spécialité : terminologie. thème : Étude des termes en langue malgache, cas du domaine de l'environnement. |
||||
|
||||
Lundi 07/04/2008 | Wankawee PUANGKOR | Université Paris-Est | Étude de l'adjectif thaï | Télécharger |
On propose une étude de
l'adjectif en français et en thaï. La première appartenant
à la famille indo-européenne et la seconde à la famille
taï-kadaï. L'adjectif thaï, traditionnellement classé
avec l'adverbe dans la catégorie de « qualificatif » ou
<ADJV> dans Unitex. On présente également la
construction des adjectifs thaïs à la base verbale,
nominale et adjectivale. En thaï, langue sans dérivation
affixale, un grand nombre de mots sont composés, soit à
l'aide de mots supports, soit par la juxtaposition de deux
ou plusieurs mots, soit par plusieurs types de
répétition : redoublement, réduplication et série
adjectivale. En même temps, on fait une étude sur
l'étiquetage des mots qui peuvent être, grammaticalement,
un adjectif. Certains adjectifs ne peuvent pas être
étiquetés comme <Adj>.
On peut dire que l'adjectif mérite d'être reconnu et classé à part, car outre ses traits sémantiques qui ne peuvent pourtant être négligés, son comportement syntaxique n'est pas toujours celui du nom, du verbe, ou de l'adverbe, malgré leur proximité dans certains cas. Même si l'adjectif thaï est très proche du verbe, il l'est aussi de l'adverbe, et dans certains cas du nom. |
||||
|
||||
Lundi 14/04/2008 | Evangelia FISTA | Université Aristote de Thessalonique, Grèce | Méthode de représentation automatique des verbes préfixés du grec moderne | Télécharger |
Dans cet exposé, nous présentons d'une part des méthodes de construction systématique du dictionnaire électronique des verbes préfixés du grec moderne et de leurs formes fléchies et d'autre part les propriétés syntactico-sémantiques des verbes préfixés par ξε-, παρα-, ξανα- et συν- du grec moderne et leur représentation de manière qu'elles soient consultables autant par un lecteur humain que par un ordinateur. Nous étudions les verbes qui acceptent dans leur complémentation nucléaire une phrase complétive en position sujet ou objet direct, ainsi que les verbes transitifs locatifs de structure standard, i.e. de type N0 V N1 Loc N2, où Loc N2 est un complément locatif non circonstanciel. Cette étude s'inscrit dans le cadre théorique des recherches effectuées depuis plus de trente ans au Laboratoire d'Automatique Documentaire et Linguistique (LADL). Elle vise à une description linguistique la plus complète possible et à son application dans le domaine du traitement automatique des langues naturelles (TALN). | ||||
|
||||
Lundi 21/04/2008 | Stavroula VOYATZI | Université Paris-Est | Revisiter les tables du lexique-grammaire d'adverbes figés du français | Télécharger |
De nombreuses
classifications d'adverbes ont été proposées pour le
français, mais rares sont celles qui sont proprement
syntaxiques (Schlyter 1977, Gross 1986 ; 1990, Abeillé et
Godart 1997, Naegeli-Frutschi 1987, Molinier 1990,
Molinier et Lévrier 2000). Maurice Gross (1986 ; 1990) a
été le premier à proposer une description globale et
formelle des adverbes figés du français, en se fondant sur
un premier recensement de 6 400 formes « de la classe de
mots et d'expressions susceptibles d'avoir une fonction
adverbiale » et en s'appuyant sur les principes de la
théorie du Lexique-Grammaire.
Cet ensemble lexical est réparti en seize classes morpho-syntaxiques associées à des tables qui spécifient leurs propriétés syntaxiques et sémantiques (i.e. réduction, permutation, insertion des modifieurs). Certaines informations fondamentales sont laissées implicites dans la version actuelle des tables. Une propriété n'est explicitement enregistrée dans les entrées d'une table que si ses valeurs dépendent des entrées. Ainsi, une valeur partagée par toutes les entrées d'une table n'est pas formellement enregistrée (i.e. propriétés définitoires). D'autres propriétés ne sont pas représentées dans les tables de manière systématique (i.e. permutations des adverbes phrastiques à sujet explicite [table PF]). Cet exposé présentera quelques améliorations qui ont été effectuées sur les tables de Gross (1990), la version actuelle de la « table des tables » des adverbes figés (Laporte et Voyatzi, à paraître) et certains des problèmes linguistiques qui se sont posés lors de cette entreprise. |
||||
|
||||
Lundi 28/04/2008 | Ana-Maria BARBU | Institut de linguistique "I. Iordan - Al. Rosetti", Roumanie | La conjugaison des verbes roumains | Télécharger |
The approach to the Romanian
verb conjugation we propose is based on the significant
results got by methods of computational linguistics which
allow us to handle a large number of verbs (over
7.500). These results give an accurate insight into the
Romanian verbal system which we see both from
morphological and phonological point of view.
We present an almost exhaustive classification of verbs following the traditional Romanian conjugation classes. Within each of these classes we further identify explicit paradigms, each characterized by a specific set of desinences. We consider that two paradigm differ if their desinence sets differ by at least one member. A statistical evaluation shows the distribution of Romanian verbs on paradigms. Another aspect of the verb morphology refers to the usage of the verbal themes, the present and perfect ones, in conjugation. Concerning the verb phonology, we confine ourselves to discuss the types of the alternations inside and at the right edge of a root, as well as a succinct analysis of their phonological context. |
||||
|
||||
Lundi 19/05/2008 | Lidia VARGA | Université Paris-Est | Typologie des prédicats de déplacements orientés du
hongrois : La classes des déplacements orientés sur un axe vertical |
Télécharger |
Les études linguistiques
portant sur l'expression du mouvement en hongrois (langue
agglutinante) se focalisent surtout sur les aspects
morphologiques de la description de l'espace et du
mouvement, comme le système casuel tripartite appelé
« tri-directionnel» (irányhármas) et les préfixes
verbaux.
Notre étude, qui se veut systématique, montre d'une part, que d'autres éléments morpho-syntaxiques peuvent participer à l'expression du mouvement. Les prédicats de mouvement peuvent être des verbes, des prédicats nominaux et, en nombre moindre, des adjectifs prédicatifs. D'autre part, la compositionnalité sémantique qui caractérise l'expression du mouvement donne lieu à des combinatoires morpho-syntaxiques entre certaines classes sémantiques de prédicats qui peuvent être exploitées dans le traitement automatique. D'abord nous avons précisé sémantiquement et syntaxiquement la notion de déplacement. Puis nous avons défini des sous-classes sémantiques de déplacement, dont la classe de <déplacement sur un axe vertical>. Cette dernière est caractérisée, entre autres, par le préfixe fel- (vers le haut) et le- (vers le bas). Puis nous avons décrit le schéma d'arguments des dits prédicats. Chaque schéma d'arguments correspond à une phrase simple, à un emploi et à une entrée de dictionnaire. La phrase simple est l'unité d'analyse minimale de notre étude. Nous avons également défini des propriétés sémantiques pour les classes d'objets d'arguments. |
||||
|
||||
Lundi 26/05/2008 | Fête de la linguistique | |||
|
||||
Lundi 02/06/2008 | Marie-Josee DE SAINT ROBERT | Office des Nations Unies, Genève | Outils du traducteur de l'ONU et problèmes rencontrés par les traducteurs dans l'utilisation de ces outils | |
Je crois qu'une présentation
des outils du traducteur de l'ONU et des problèmes
rencontrés par les traducteurs dans l'utilisation de ces
outils (thème que j'ai abordé en 2003 dans le cadre d'une
conférence de LREC justement) pourrait rejoindre le mieux
les préoccupations de votre centre de recherche. En tout
état de cause, je répondrai à vos questions.
Liste des thèmes de discussion possibles:
2 sites non reliés entre eux: unterm.un.org et documents.un.org Outil utilisé: MULTITRANS |
||||
|
||||
Lundi 09/06/2008 | Cédric MESSIANT et Thierry POIBEAU | Université Paris-Nord | Acquisition automatique d'information sur la valence des verbes à partir de gros corpus | Télécharger |
Même s'il existe des base de
données lexicales sous format électronique pour le
français (le Lexique-grammaire, Dicovalence, le Lefff,
etc.), il existe peu de techniques permettant d'adapter
ces lexiques à de nouveaux domaines. Or, on sait que dans
les domaines techniques notamment (Droit, médecine, etc.),
le comportement langagier peut varier de manière
importante et les ressources existantes doivent être
adaptées et complétées.
On présente ici une approche originale permettant d'inférer des informations de valence à partir de gros corpus, sans lexique ni schéma de valence prédéfini. La difficulté principale vient du fait que l'on est confronté à des formes de surface ambiguës à partir desquelles on souhaite inférer des connaissances non ambiguës. Les expériences que nous présentons sont basées sur un corpus de 10 ans du journal Le Monde, comprenant environ 200 millions de mots. On verra l'apport des informations de nature statistiques dans ce cadre ; on verra aussi comment les expériences effectuées peuvent nous amener à voir de façon différente les notions d'arguments et de modifieurs. Au cours de la discussion, on souhaite échanger sur ces techniques et voir en quoi elles pourraient compléter des travaux de nature différente, en particulier ceux qui visent à élaborer des bases lexicales à la main. Références : - Cédric Messiant. 2008. ASSCI: A Subcategorization Frames Acquisition System for French Verbs. In Association for Computational Linguistics (ACL, Student Research Workshop), Columbus, Ohio. - Cédric Messiant, Anna Korhonen, and Thierry Poibeau. 2008. LexSchem: A Large Subcategorization Lexicon for French Verbs. In Language Resource and Evaluation Conference (LREC), Marrakech. - Thierry Poibeau and Cédric Messiant. 2008. Do we still need gold standard for evaluation ? In Proceedings of the Language Resources and Evaluation Conference (LREC), Marrakech. |
||||
|