Details

Similarité statistique pour le CBR textuel

by Miry, Erwan

Abstract (Summary)
Les courriers électroniques sont devenus au cours des dernières années un moyen de communication privilégié. Leur nombre atteint des niveaux si élevés que leur manipulation par les entreprises devient difficile manuellement et requiert des méthodes automatiques. Les systèmes de suivi automatique permettent un traitement des messages et une augmentation de la facilité pour les utilisateurs qui désirent créer un courriel en réponse à une requête, à partir de messages archivés dans la bibliothèque de l’entreprise. Un des problèmes majeurs dans ce type d’application est la sélection de courriers électroniques archivés pertinents à la requête nouvellement soumise : il est nécessaire que le texte retourné par le système qui servira de base à la rédaction d’une réponse, soit en corrélation avec le sujet de la question posée. La recherche de la similarité entre les textes est donc une des principales tâches de ce système. L’objectif de nos travaux se situe toutefois à un niveau supérieur à la simple recherche de similarité entre courriers électroniques; nous avons comme objectif d’évaluer la similarité entre des textes comportant peu de mots. Pour cela, notre étude comporte deux parties distinctes: la recherche de similarités entre des mots afin d’élargir le vocabulaire d’un texte, e le calcul de la similarité entre les documents.

Notre question de recherche consiste à identifier les techniques les plus pertinentes pour évaluer la similarité textuelle, et déterminer s’il est possible d’améliorer ces techniques par des combinaisons de méthodes de calcul de la similarité sémantique et de détection des cooccurrences de mots.

Lors de nos expérimentations, nous avons cherché à améliorer la similarité sémantique entre les mots. Nous avons aussi proposé plusieurs méthodes pour élargir le vocabulaire des documents basées sur les résultats de la première partie de nos travaux. Nous avons enfin mesuré la similarité sémantique entre les documents modifiés, afin de les utiliser comme base à la rédaction d’une réponse à la nouvelle requête. Notre bilan nous indique que, grâce à nos calculs, il est possible d’améliorer les résultats de calcul de la similarité entre les mots (cosinus) en filtrant les cooccurrences. Cependant, une méthode de filtrage ne garantit pas nécessairement des améliorations, et peut même dégrader la capacité de détection de similarité textuelle. Une comparaison avec la technique du tf*idf nous a permis de constater que les résultats améliorés du cosinus, que nous avons obtenus, égalent pratiquement cette technique, sans pour autant la dépasser.

This document abstract is also available in English.
Bibliographical Information:

Advisor:Lamontagne, Luc

School:Université Laval

School Location:Canada - Quebec / Québec

Source Type:Master's Thesis

Keywords:informatique

ISBN:

Date of Publication:12/01/2007

© 2009 OpenThesis.org. All Rights Reserved.