Séminaires>2014-2017

Séminaires


Mercredi 8 mars 2017, salle de séminaire
10h30 Nada Mimouni Paris Dauphine - PSL Research University Recherche sémantique et à base de graphe dans des collections documentaires. L'intertextualité dans l'accès aux documents juridiques
 
La recherche d’information et le traitement automatique des langues considèrent généralement les documents comme des unités distinctes même si ces derniers peuvent être pris dans un réseau de liens hypertextuels. Ce modèle traditionnel ne prend cependant pas en compte la richesse du réseau de relations sémantiques qui structurent les collections documentaires. Cette limitation est critique dans le domaine juridique où – de manière plus évidente qu’ailleurs – l’intertextualité conditionne la production et l’interprétation des textes. Dans ce travail nous proposons deux modèles permettant de prendre en compte cette complexité des collections documentaire dans les outils d’accès à l’information. Le premier modèle est basée sur l’analyse formelle et relationnelle de concepts, le deuxième est basée sur les technologies du web sémantique. Appliquées sur des objets documentaires, les approches proposées ont l’originalité d’intégrer les différentes propriétés documentaires dans un modèle unique qui permet de croiser les critères sémantiques, temporels et relationnels dans la recherche d’information.


Vendredi 20 janvier 2017, salle 4B084
14h Rachel Panckhurst Université Paul-Valéry Montpellier 3, Praxiling (UMR 5267 CNRS) SMS en français. Collect, corpus, analyses
 
Rachel Panckhurst et ses collègues linguistes et informaticiens ont recueilli plus de 90 000 SMS en langue française à Montpellier en 2011. Dans ce séminaire, elle évoquera l'organisation et le déroulement de la collecte de SMS dans le cadre du projet sud4science Languedoc-Roussillon, lui-même intégré dans le projet international sms4science (Fairon et al. 2006). Puis, elle présentera la suite du projet, jusqu'au dépôt du corpus, 88milSMS, sur la grille de services d'Huma-Num en juin 2014 (Panckhurst et al. 2014), puis sur Ortolang en 2016, tout en expliquant pourquoi, dans une démarche pluridisciplinaire (située entre sciences du langage, informatique et traitement automatique des langues), l'équipe de chercheurs a décidé de fournir à la communauté scientifique et au grand public le corpus de SMS. Elle terminera par quelques applications envisageables en TAL.


Mercredi 7 décembre 2016, salle 4B084
10h30 Anubhav Gupta Université François-Rabelais de Tours, Laboratoire d'Informatique Les mises à jour CasSys
 
On décrit les Graphs génériques et le module Denormalize. On parlera également des changements qu'on est en train de faire (par exemple, sortie d'un sous-graph).


Mercredi 27 mai 2015, salle 4B084
10 h Jorge Baptista Université d'Algarve ; L2F (Spoken Language lab) - INESC-ID Lisbonne Le système STRING (Statistical and Rule-based Natural Language Processing System for Portuguese) : présentation et état actuel
 
Le système STRING est développé par le L2F/INESC-ID de Lisbonne pour le traitement automatique du portugais. Il s’agit d’un système hybride qui emploie à la fois des techniques statistiques et à base de règles pour traiter des textes, en réalisant toutes les opérations fondamentales du traitement automatique des langues : segmentation du texte et analyse lexicale ; levée d'ambiguïtés morphosyntaxiques, par règles et par apprentissage automatique (modèle de Markov caché) ; analyse syntaxique de surface (chunking) et profonde. Le système lève aussi des ambiguïtés de constructions verbales, résout des anaphores, reconnait des entités nommées, identifie et normalise des expressions temporelles, extrait et linéarise des événements. Le système est enfin à la base des applications du système REAP.PT, destiné à l’apprentissage du portugais langue étrangère.


Jeudi 7/05/2015, salle 4B084
14 h Oto A. Vale Université fédérale de São Carlos
Université catholique de Louvain
Lexique-grammaire et expressions d'opinion
 
L'analyse de sentiments est un domaine relativement nouveau dans le traitement du langage naturel. La détection d'opinions dans les textes publiés sur Internet est un champ de recherche important aussi bien pour des applications de sécurité que pour des applications commerciales. La littérature du domaine établit qu’il est possible d'identifier l’opinion à trois niveaux non exclusifs : l’analyse au niveau du texte entier, de la phrase ou encore de l’entité. Pour que l’analyse soit bien établie à chacun de ces trois niveaux, il est nécessaire d’utiliser une ressource fondamentale : un lexique d’opinion bien construit. À partir de l’observation selon laquelle les expressions figées sont dans une large mesure porteuses de l’opinion de leur énonciateur, nous voulons démontrer dans cette communication la possibilité d'utiliser les tables du lexique-grammaire des expressions figées comme un outil important pour constituer des lexiques d'opinion.


Mercredi 22/04/2015, salle 4B084 Studies on Text Complexity
14 h Bianca Franco Pasqualini Université fédérale du Rio Grande du Sud
Université Aix-Marsesille
Studies on text complexity, vocabulary of popular newspapers and text simplification for adults with low literacy
 
In the first part of this talk, we’ll present PorPopular Project, which is a systematic collection of texts from Brazilian popular newspapers whose intended audience is composed primarily by people with low literacy levels and low income. The main goal of the project is profiling the lexicon and language used in these texts as a possible way to model text simplicity in Brazilian Portuguese in terms of vocabulary and syntax. In the second part, we’ll show the results of three studies: (1) text complexity of compared literary texts in Brazilian Portuguese and English, (2) text complexity and automated text simplification for adults with poor reading skills, currently ongoing, and (3) analysis and comparison of two corpora of simple texts for readers with low literacy: La Traversée (contemporary fiction novels in French) and É Só o Começo (adaptations of classic novels in Brazilian Portuguese), also ongoing.

15 h Aline Evers Université fédérale du Rio Grande du Sud
Université Paris-Est
Automated essay evaluation in Brazilian Portuguese
 
We’ll show a few procedures we have been testing and some of the results we have so far on automated essay evaluation of Brazilian Portuguese texts: (1) previous experience on automating the task of text evaluation applied to Brazilian Portuguese essays produced by students of Portuguese as a second language, (2) manual annotation process of a corpus of essays written by high school students using BRAT, (3) construction of graphs using UNITEX to describe, extract and select features of these essays that may be used to automatically distinguish well written texts from texts with poor writing quality, and (4) possibilities of using available resources in Brazilian Portuguese and other languages to identify and quantify orthographic and grammar mistakes and map their distributions in order to help with the process of automatically evaluating essays in Brazilian Portuguese.