Similarité statistique pour le CBR textuel
Notre question de recherche consiste à identifier les techniques les plus pertinentes pour évaluer la similarité textuelle, et déterminer s’il est possible d’améliorer ces techniques par des combinaisons de méthodes de calcul de la similarité sémantique et de détection des cooccurrences de mots.
Lors de nos expérimentations, nous avons cherché à améliorer la similarité sémantique entre les mots. Nous avons aussi proposé plusieurs méthodes pour élargir le vocabulaire des documents basées sur les résultats de la première partie de nos travaux. Nous avons enfin mesuré la similarité sémantique entre les documents modifiés, afin de les utiliser comme base à la rédaction d’une réponse à la nouvelle requête. Notre bilan nous indique que, grâce à nos calculs, il est possible d’améliorer les résultats de calcul de la similarité entre les mots (cosinus) en filtrant les cooccurrences. Cependant, une méthode de filtrage ne garantit pas nécessairement des améliorations, et peut même dégrader la capacité de détection de similarité textuelle. Une comparaison avec la technique du tf*idf nous a permis de constater que les résultats améliorés du cosinus, que nous avons obtenus, égalent pratiquement cette technique, sans pour autant la dépasser.
Advisor:Lamontagne, Luc
School:Université Laval
School Location:Canada - Quebec / Québec
Source Type:Master's Thesis
Keywords:informatique
ISBN:
Date of Publication:12/01/2007