Details

Um sistema para extração de informação em referências bibliográficas baseado em aprendizagem de máquina

by do Amaral, Eduardo Fraga

Abstract (Summary)
Existe atualmente uma gigantesca quantidade de informações disponibilizada em formato de texto na Internet e nas redes das grandes corporações. Essas informações encontram-se em um formato não estruturado, dificilmente manipulável por programas de computador. A Extração de Informação (EI) tem como objetivo transformar documentos textuais em um formato estruturado, mapeando a informação contida em um documento em uma estrutura tabular. Tal estrutura é mais facilmente tratável por programas de computador, possibilitando assim a sua utilização por variadas aplicações ?inteligentes?. Dentro da Inteligência Artificial, vemos duas abordagens para tratar o problema da EI:os sistemas baseados em conhecimento e a aprendizagem automática. O trabalho apresentado tem como objetivo a construção de um sistema para extrair informações a partir de textos contendo citações científicas (ou referênciasbibliográficas) através de uma abordagem baseada em aprendizagem automática. Dentre as diversas técnicas existentes, escolhemos tratar o problema através de uma abordagem híbrida, que combina o uso de técnicas de classificação de textos com os Modelos de Markov Escondidos (HMM). Esta combinação mostrou resultados superiores aosobtidos usando exclusivamente as técnicas de classificação e sua idéia básica é gerar com o uso das técnicas de classificação de textos para EI uma saída inicial para osistema e refiná-la depois por meio de um HMM. Experimentos realizados com um conjunto de teste contendo 3000 referências resultaram em uma precisão de 87,48%
This document abstract is also available in English.
Bibliographical Information:

Advisor:Flávia de Almeida Barros

School:Universidade Federal de Pernambuco

School Location:Brazil

Source Type:Master's Thesis

Keywords:Extração de Informação Aprendizagem Máquina Classificação Textos Modelos Markov Escondidos (HMM) Inteligência Artificial CIENCIA DA COMPUTACAO

ISBN:

Date of Publication:04/30/2004

© 2009 OpenThesis.org. All Rights Reserved.