Participants : Cécile Fabre, Pascale Sébillot
Nos travaux portent sur l'interprétation hors domaine des composés anglais et français. Nous cherchons à mettre en évidence des mécanismes permettant de déterminer automatiquement la relation qu'entretiennent les constituants d'un composé en se basant uniquement sur la forme du composé et sur la sémantique des mots qui le composent. Notre étude s'est plus spécifiquement focalisée sur les composés Nom Nom anglais ( face soap) et Nom à Nom français ( couteau à fromage) pour lesquels n'existe pas d'information prédicative apparente permettant de prévoir la relation entre les constituants.
Nous exploitons d'une part la notion de noms rôles ( role nominals) de T.W. Finin qui distingue, parmi les noms, ceux qui sont associés typiquement à un verbe sans qu'il y ait de lien morphologique (exemple : soap est associé typiquement à wash et couteau à couper). Nous avons montré que la relation entre un nom rôle et son prédicat peut, dans de nombreux cas, être généralisée à un ensemble de noms caractérisés par leur appartenance à une classe sémantique commune (exemple : les contenants). Cependant cette notion ne permet pas de couvrir tous les composés. Par exemple, si l'interprétation du composé face soap à l'aide du verbe wash est correcte, le composé glycerine soap suit d'autres mécanismes interprétatifs. Pour ce type de composés, nous avons recours à la base lexicale WordNet (Univ. de Princeton) qui fournit des informations sur les liens sémantiques qu'entretiennent les mots d'une même catégorie (noms, adjectifs, verbes), dont le lien hyperonymique (sorte de)! que nous privilégions. L'utilisation de cette base consiste à proposer des liens inter-catégoriels (lien entre un nom ou une classe de noms et un prédicat verbal) qui permettent de prédire le comportement relationnel du nom ou des représentants de la classe nominale concernée [29].
L'utilisation combinée des différents mécanismes que nous avons mis en évidence vise à couvrir le maximum de types de composés. Nous avons validé ces mécanismes par l'étude d'un corpus et proposé des hypothèses pour remédier aux deux principaux écueils d'un modèle hors domaine: les interprétations multiples et les schémas sémantiques non prédits. Les pistes proposées consistent à acquérir, à partir de corpus, les informations plus spécifiques permettant de raffiner notre modèle [28].
Les résultats de nos travaux vont être utilisés, dans le cadre d'un contrat avec le CNET, pour faciliter le processus d'indexation automatique de textes en améliorant, par un filtre sémantique, la phase d'extraction des termes contenus dans ces textes. Notre intérêt pour l'extraction automatique nous a par ailleurs conduit à débuter une seconde étude portant sur la possiblité d'utiliser les méthodes développées dans ce domaine en vue de réaliser des résumés automatiques de textes. Un premier travail, effectué dans le cadre d'un stage de DEA, a permis de tester la faisabilité de ce passage entre mots importants extraits d'un texte à idées et phrases importantes dans ce texte.