![]()
Précédent : Analyse lexicale et syntaxique de Remonter
: Apprentissage symbolique automatique Suivant
: Problème SAT et apprentissage
d'heuristiques
Participants : Laurent Miclet, Jean-Yves Giordano, François Coste, Jacques Nicolas
Une fois déterminée une structure élémentaire sur une séquence, on peut chercher à la raffiner par des méthodes d'apprentissage automatique. Nous nous concentrons sur le problème de l'inférence de grammaires régulières à partir d'exemples et de contre-exemples.
L'espace de recherche en inférence de grammaires régulières est un treillis construit à partir d'un automate canonique reconnaissant uniquement les exemples de mots du langage à inférer (automate le plus spécifique). Les éléments du treillis sont dérivés de cet automate par une fonction correspondant à la fusion de ses états.
Nous avons poursuivi l'étude théorique et pratique de ce treillis, en démontrant qu'il suffit d'en explorer les éléments déterministes. Il existe en effet une chaîne d'automates déterministes entre l'automate canonique et tout automate déterministe. Cet espace est d'autre part fermé pour l'opération de minimisation, ce qui n'est pas le cas du treillis total. Une estimation théorique et expérimentale de cette réduction a été faite [36]. Les résultats sont mitigés : le gain en taille de l'espace de recherche est en effet compensé par les calculs de vérification du déterminisme.
Un autre axe de recherche considère le problème de l'inférence grammaticale comme un problème de discrimination, en faisant appel aux méthodes classiques d'optimisation combinatoire. Nous avons développé un premier algorithme d'inférence de grammaires régulières utilisant la méthode Tabou, et obtenu des résultats encourageants sur des données artificielles [31]. Dans le cadre d'une collaboration avec la société Genset, nous avons étudié le transfert des techniques développées à la prédiction de régions promotrices dans les séquences génétiques. Les premiers résultats ont montré la difficulté de l'inférence sur des données réelles et l'importance d'un prétraitement de type statistique sur les séquences. En particulier une analyse par N-grams et par multi-grams a été conduite.
Signalons enfin qu'un contrat CNET et une thèse démarrent afin d'étudier le problème de l'inférence d'un modèle syntaxique en dialogue oral. Notre but est d'étudier la recherche de solutions multiples en inférence régulière avec une approche espace des versions.