Details

VISTREE: uma linguagem visual para análise de padrões arborescentes e para especificação de restrições em um ambiente de mineração de árvores

by Felício, Crícia Zilda

Abstract (Summary)
A mineração de padrões freqüentes em dados representados por estruturas mais complexascomo árvores e grafos vêm crescendo muito nos últimos tempos. Entre as razões para essecrescimento está o fato do padrão arborescente ou em forma de grafo possuir mais informaçõesdo que os padrões seqüenciais, e na possibilidade de aplicação desse tipo de mineração emvárias áreas como XML Mining, Web Mining e Bioinformática. Um problema que ocorre namineração de padrões em geral é a grande quantidade de padrões gerados; sendo que muitosdeles nem são do interesse do usuário. A diminuição da quantidade de padrões gerados podeser feita restringido o tipo de padrão produzido através de especificações do usuário. Mesmoincorporando restrições no processo de mineração, a quantidade de padrões arborescentes mineradosé grande, o que torna necessário uma ferramenta de análise dos padrões, possibilitandoao usuário especificar consultas para extrair da massa de padrões minerados aqueles que satisfazemos critérios de seleção da consulta.A mineração de padrões com restrição, visa obter como resultado de um processo de mineraçãoapenas os padrões de real interesse do usuário. Uma restrição sobre padrões será representadade acordo com a estrutura dos mesmos. Para a mineração de padrões seqüencias umaforma de representá-la seria através de expressões regulares, para a mineração de padrões arborescentes,os autômatos de árvore. O uso de restrições resolve o problema da geração de umagrande quantidade de padrões, mas o mecanismo usado para representar a restrição ainda seconstitui em um outro problema que seria a dificuldade de um usuário em fazer a entrada darestrição utilizando esse mecanismo.As consultas sobre padrões freqüentes são feitas de acordo com as características dos dados.Uma forma de extrair padrões específicos em dados estruturados como árvores é armazenar ospadrões freqüentes em um documento XML e efetuar uma consulta usando uma das linguagensde consulta a documentos XML. Dentre as linguagens de consulta XML, a linguagem XQuery émuito utilizada, principalmente pelo fato de ser similar semanticamente a SQL (linguaguem deconsulta a banco de dados). A consulta aos padrões freqüentes poderia então ser feita utilizando essa linguagem, mas para isso o usuário teria que conhecer e ser capaz de expressar sua consultaatravés dela.Nesse trabalho é apresentada a linguagem visual VisTree, que consiste em uma ferramentavisual a ser utilizada tanto numa fase de Pré-processamento para a especificação das preferênciasdo usuário no que se refere ao formato dos padrões arborescentes que lhe interessa, quantonuma fase de pós-processamento para a análise dos padrões minerados. A sintaxe da VisTree sebaseia na sintaxe de um fragmento simples da linguagem Tree Pattern [Miklau and Suciu 2004,Chen et al. 2003], na qual a linguagem XPath 1.0 [Clark and Derose 1999, Olteanu et al. 2002]também se baseou. Entretanto, a semântica de VisTree difere da semântica destas linguagens nosentido de que consultas de VisTree retornam conjuntos de padrões arborescentes. A VisTreeutiliza a linguagem XQuery [Chamberlin 2003, Katz et al. 2003] como mecanismo de processamentode consultas: as consultas visuais especificadas em VisTree são mapeadas em consultasda XQuery e suas respostas adaptadas para se adequarem ao formato retornado por VisTree.Um sistema completo de mineração de padrões arborescentes foi desenvolvido para testare validar o uso da linguagem VisTree em contextos específicos de aplicações. O sistema foiconstruído de forma modular para que novas aplicações possam ser incorporadas de maneirasimples. A aplicação de mineração de árvores com restrição nas áreas de XML Mining e WebMining foi feita através de um estudo de caso. Nas duas aplicações, o sistema utiliza a linguagemVisTree nos módulos que fazem a tarefa de Pré-Processamento (entrada da restrição) ede Análise de Padrões (entrada da consulta).
This document abstract is also available in English.
Bibliographical Information:

Advisor:Sandra Aparecida de Amo; Rita Maria da Silva Julia; Mauro Biajiz

School:Universidade Federal de Uberlândia

School Location:Brazil

Source Type:Master's Thesis

Keywords:Mineração de árvores com restrição CIENCIA DA COMPUTACAO Banco dados (Computação)

ISBN:

Date of Publication:03/25/2008

© 2009 OpenThesis.org. All Rights Reserved.