previous up next top index
Précédent : Supervision de systèmes évolutifs Remonter : Actions de recherche Suivant : Apprentissage symbolique automatique


Traitement du langage naturel

Participants : Cécile Fabre, Pascale Sébillot

Nos travaux portent sur l'interprétation hors domaine des composés anglais et français. Nous cherchons à mettre en évidence des mécanismes permettant de déterminer automatiquement la relation qu'entretiennent les constituants d'un composé en se basant uniquement sur la forme du composé et sur la sémantique des mots qui le composent. Notre étude se focalise plus spécifiquement sur les séquences binominales de la forme Nom Nom en anglais et Nom à/de (déterminant) Nom en français [27].

Pour les composés contenant un constituant déverbal, c'est-à-dire morphologiquement dérivé d'un verbe par adjonction d'un suffixe (truck-driver, séquençage de l'ADN ), notre calcul automatique se base sur la satisfaction de la structure argumentale du prédicat verbal sous-jacent. Nos travaux utilisent les résultats linguistiques formalisés dans le cadre génératif par Lieber et Selkirk.

Nous traitons les composés sans constituant déverbal en généralisant la notion d'attachement d'information prédicative aux noms simples [30]. Nous explorons la notion de schéma prédicatif sous-jacent associé à un nom. Dans ce cas, le nom ne sélectionne pas d'arguments syntaxiques mais est relié sémantiquement à un ou des prédicats verbaux qui déterminent par inférence ses propriétés relationnelles au sein des noms composés, mais aussi plus généralement dans d'autres mécanismes linguistiques. Ce second point fait appel à une représentation lexicale élaborée des noms intégrant des informations pragmatiques telle que la met en oeuvre Pustejovsky dans le lexique génératif.

Les étapes du calcul de la sémantique d'une séquence binominale sont donc les suivantes : détermination du ou des prédicats associés aux constituants en se focalisant essentiellement sur les prédicats liés au nom tête, filtrage des schémas prédicatifs effectivement possibles pour la séquence en se basant sur des contraintes de typage sémantique associées aux arguments des prédicats, et sur le rôle sémantique de la préposition et du déterminant en français [29]. Pour bénéficier de cette information sémantique, nous avons recours à la base lexicale WordNet (Univ. de Princeton).

L'utilisation combinée des différents mécanismes [26] que nous avons mis en évidence vise à couvrir le maximum de types de composés. Nous avons validé ces mécanismes par différents tests sur des corpus. Ces tests fournissent souvent des interprétations multiples pour un composé donné, ce qui est souhaitable pour un modèle hors domaine. Parallèlement, nous cherchons à montrer comment ce modèle d'interprétation hors domaine peut être utilisé et raffiné lorsque des connaissances supplémentaires relatives à un domaine spécialisé ou un corpus spécifique sont disponibles [28]. Nous avons en particulier étudié le typage des relations préférentielles entre des classes sémantiques au sein de telles données [41].

Les résultats de nos travaux ont également été utilisés, dans le cadre d'un contrat avec le CNET, pour faciliter le processus d'indexation automatique de textes [52] en améliorant, par un filtre sémantique, la phase d'appariement entre le vecteur des index associé à une requête et celui des termes contenus dans les textes.



previous up next top index Précédent : Supervision de systèmes évolutifs Suivant : Apprentissage symbolique automatique Remonter : Actions de recherche