Details

Uma Abordagem para o Enriquecimento de Gazetteers a partir de Notícias visando o Georreferenciamento de Textos na Web

by Gouvea, Cleber, MS

Abstract (Summary)
Georeferencing of texts, that is, the identification of the geographical context of texts is becoming popular in the Web due to the high demand for geographical information and due to the raising of services for query and retrieval like Google Earth (geobrowsers). The main challenge is to relate texts to geographical locations. These associations are stored in structures called gazetteers. Although there are gazetteers like Geonames and TGN, they fail in coverage, lacking information about some countries, and they also fail by weak specialization, lacking detailed references to locations (fine granularity) as for example names of streets, squares, monuments, rivers, neighborhoods, etc. This kind of information that acts as indirect references to geographical locations is defined as “Location Indicators”. This dissertation presents an approach that identifies Location Indicators related to geographical locations, by analyzing texts of news published in the Web. The goal is to enrich create gazetteers with the identified relations and then perform geo-referencing of news. Location Indicators include non-geographical entities that are dynamic and may change along the time. The use of news published in the Web is a useful way to discover Location Indicators, covering a great number of locations and maintaining detailed information about each location. Different training news corpora are compared for the creation of gazetteers and evaluated by their ability to correctly identify cities in texts of news.
Full Text Links

Main Document: View

10-page Sections: 1 2 3 4 5 6 7 8 9 Next >

Bibliographical Information:

Advisor:Stanley Loh

School:Universidade Católica de Pelotas

School Location:Brazil

Source Type:Master's Thesis

Keywords:Geographical Information Retrieval, Toponym Resolution, Georeferencing of Texts, Gazetteers.

ISBN:

Date of Publication:03/23/2009

Document Text (Pages 1-10)

UNIVERSIDADE CATÓLICA DE PELOTAS
CENTRO POLITÉCNICO
PROGRAMA DE PÓS-GRADUAÇÃO EM INFORMÁTICA

Uma Abordagem para o Enriquecimento de Gazetteers a
partir de Notícias visando o Georreferenciamento de Textos
na Web

por
Cleber Gouvêa

Dissertação apresentada como
requisito parcial para a obtenção do grau de
Mestre em Ciência da Computação

Orientador: Prof. Dr. Stanley Loh
Co-Orientador: Prof. Dr. Luís Fernando F. Garcia

DM-2009/1-001

Pelotas, Abril de 2009.


Page 2

2

À minha mãe Diva
e ao meu avô João.


Page 3

3

AGRADECIMENTOS

Ao meu pai por seu apoio incondicional em todos os momentos e por
me inspirar a cada dia com seu exemplo de dedicação e disciplina ao
trabalho.
À minha mãe que por ser apoio incondicional a toda a família
auxiliou meu pai em todos os momentos e tornou possível tudo o que
somos.
À minha irmã por ser a guardiã fiel do meu passado e companheira
leal no presente.
Aos meus avós por me incentivarem e motivarem com seu jeito
simples e honesto de viver.
Aos meus orientadores Stanley e Luís Fernando pela confiança,
incentivo, profissionalismo e critério na orientação dessa dissertação e
durante todo o mestrado, resultando assim na qualidade do presente
trabalho.
Aos professores Clodoveu Davis Jr., Marilton de Aguiar e Miguel
Fornari por auxiliarem no aperfeiçoamento dessa dissertação com seus
conselhos valiosos.
À CAPES, que na condição de órgão de fomento à pesquisa
subsidiou o desenvolvimento desta dissertação.
À todos os amigos, parentes e desconhecidos, agora sempre
próximos, pelo apoio inestimável demonstrado nos momentos difíceis
enfrentados com a perda da minha mãe e do meu avô. OBRIGADO.


Page 4

4

Não sei pois nasci para isso e aquilo
E o enguiço de tanto querer. Carpinteiro
do universo inteiro eu sou, assim

No final, carpinteiro de mim
-- RAUL SEIXAS
Gate Gate Paragate Parasamgate Bodhi Svaha


Page 5

5

SUMÁRIO

LISTA DE ABREVIATURAS E SIGLAS ...................................................................... 7
LISTA DE FIGURAS ...................................................................................................... 8
LISTA DE TABELAS ..................................................................................................... 9
RESUMO ....................................................................................................................... 10
ABSTRACT ................................................................................................................... 11
1 INTRODUÇÃO ....................................................................................................... 12

1.1 Objetivo e Contribuições................................................................................... 15
1.2 Estrutura do Trabalho........................................................................................ 17
2 Referencial Teórico.................................................................................................. 18

2.1 Recuperação de Informações Geográficas ........................................................ 18
2.1.1 GeoParsing ................................................................................................. 22
2.1.2 GeoCoding.................................................................................................. 25
2.1.3 Ranking....................................................................................................... 26
2.1.4 Avaliação.................................................................................................... 27

2.2 Resolução de Topônimos .................................................................................. 29
2.2.1 Características dos Topônimos................................................................... 31
2.2.2 Ambigüidade Indireta da Referência.......................................................... 33
2.2.3 Estratégias para Resolução de Topônimos ................................................. 35
2.2.4 Heurísticas para a Resolução de Topônimos.............................................. 42
2.2.5 Arquiteturas para a Resolução de Topônimos............................................ 43

2.3 Importância e Problemas dos Gazetteers Atuais............................................... 46
2.3.1 Estratégias para Identificação de Indicadores de Localidade..................... 49
2.3.2 Problemas das Abordagens Atuais para a Identificação de Indicadores de
Localidade................................................................................................................ 51
3 Abordagem proposta para a Identificação de Indicadores de Localidade ............... 53

3.1 Estratégia para a Identificação e Qualificação de Indicadores de Localidade .. 55
4 Experimentos ........................................................................................................... 64

4.1 Avaliação da Abordagem para a Identificação de Indicadores ......................... 65
4.2 Resultados ......................................................................................................... 67
4.3 Discussão........................................................................................................... 71
5 Conclusão................................................................................................................. 74


Page 6

6

5.1 Trabalhos Futuros.............................................................................................. 76
6 Trabalhos Publicados............................................................................................... 78
7 Referências Bibliográficas....................................................................................... 79
Anexo A - Exemplo de Nomes Próprios Removidos.................................................... 85
Anexo B - Exemplo De Relações Associadas a muitas Cidades.................................... 86
Anexo C – Exemplo de Indicadores de Localidade Recuperados com mais Peso......... 87


Page 7
7
LISTA DE ABREVIATURAS E SIGLAS
ACR Ambigüidade da Classe do Referente
API Application Programming Interface
ARC Ambigüidade da Referência
ART Ambigüidade do Referente
CLEF Cross-Language Evaluation Forum
EM Entidade Mencionada
GeoCLEF Geographic Cross-Language Evaluation Forum
GeoRSS Geographic Really Simple Syndication
GKB Geographic Knowledge Base
GML Geography Markup Language
GPS Global Positioning System
GREASE Geographic Reasoning for Search Engines
IL Indicador de Localidade
IP Internet Protocol
HAREM Avaliação de Reconhecimento de Entidades Mencionadas
KL Kullback-Leibler
KML Keyhole Markup Language
MBR Minimum Bounding Rectangle
MI Mutual Information
NAACL North American Chapter of the Association for Computational Linguistics
NP Nome Próprio
ODP Open Directory Project
REM Reconhecimento de Entidades Mencionadas
RI Recuperação de Informações
RIG Recuperação de Informações Geográficas
RLM Retângulo de Limite Mínimo
RT Resolução de Topônimos
SIG Sistema de Informações Geográficas
SPIRIT Spatially-Aware Information Retrieval on the Internet
TF-IDF Term Frequency–Inverse Document Frequency
TGN Thesaurus of Geographic Names
WPT colecção da Web PorTuguesa
WSD Word Sense Disambiguation

Page 8

8

LISTA DE FIGURAS

Figura 1. Principais Componentes da RIG ..................................................................... 20
Figura 2. Representação de uma Localização Usando Pontos e Polígonos (Larson e

Frontiera, 2004) ...................................................................................................... 25
Figura 3. Procedimento Padrão para a Resolução de Topônimos .................................. 37
Figura 4: Principais Componentes de um Gazetteer ...................................................... 47
Figura 5. Etapas da Análise do Peso Local .................................................................... 56
Figura 6. Estrutura do Gazetteer para as Relações......................................................... 61
Figura 7. Algoritmo para o Georreferenciamento das Cidades a partir do Gazetteer.... 67
Figura 8. Resultados Médios Finais relacionados ao Peso Global................................. 70
Figura 9. Resultados Finais Médios relacionados à Frequência Simples....................... 70


Page 9

9

LISTA DE TABELAS

Tabela 1: Classificação Binária dos Problemas na RI (Martins et al., 2005)................. 28
Tabela 2. Tipos de Ambigüidade para a Resolução de Topônimos ............................... 32
Tabela 3. Ambigüidade presente na TGN por (Smith e Mann, 2003)............................ 33
Tabela 4. Tipos de Evidências para a Desambiguação de Topônimos (Exemplos)....... 39
Tabela 5. Expressões de Contexto em Português (Martins et al., 2006a) ...................... 39
Tabela 6. Principais Trabalhos Abrangendo a Recuperação de Indicadores de

Localidade .............................................................................................................. 52
Tabela 7. Número de Relações no Gazetteer para cada Tipo de Corpora...................... 68
Tabela 8. Resultado Médio Baseline (Ruas Bairros) para as Duas Avaliações ......... 69
Tabela 9. Resultado para cada Gazetteer utilizando Peso Global .................................. 69
Tabela 10. Resultado para cada Gazetteer utilizando Freqüência Simples.................... 69
Tabela 11. Resultado Final Médio para cada Gazetteer utilizando Peso Global ........... 69
Tabela 12. Resultado Final Médio para cada Gazetteer utilizando Freqüência Simples 70


Page 10

10

RESUMO

Com o advento da Internet e o crescente número de informações disponíveis
torna-se necessária a definição de estratégias especiais que permitam aos usuários o
acesso rápido a informações relevantes. Como a Web possui grande volume de
informações principalmente com o foco geográfico torna-se necessário recuperar e
estruturar essas informações de forma a poder relacioná-las com o contexto e realidade
das pessoas através de métodos e sistemas automáticos. Para isso uma das necessidades
é possibilitar o georreferenciamento dos textos, ou seja, identificar as entidades
geográficas presentes e associá-las com sua correta localização espacial. Nesse sentido,
os topônimos (ex: nomes de localidades como cidades, países, etc.), devido à
possibilidade de identificar de forma precisa determinada região espacial, apresentam-se
como ideais para a identificação do contexto geográfico dos textos. Essa tarefa,
denominada de Resolução de Topônimos apresenta, no entanto, desafios importantes
principalmente do ponto de vista lingüístico, já que uma localidade pode possuir
variados tipos de ambigüidade. Com relação a isso a principal estratégia para superar
estes problemas compreende a identificação de evidências que auxiliem na identificação
e desambiguação das localidades nos textos. Para essa verificação são utilizados
geralmente os serviços de um ou mais dicionários toponímicos (Gazetteers). Como são
criados de forma manual eles apresentam, no entanto deficiência de informações
relacionadas principalmente a entidades que podem identificar, embora de forma
indireta, determinados tipos de lugares como ruas, praças, universidades etc., as quais
são definidas como Indicadores de Localidade. O presente trabalho propõe uma
abordagem para a recuperação dessas entidades aproveitando para isso o caráter
geográfico das informações jornalísticas. Para ilustrar a viabilidade do processo
diferentes tipos de corpora de notícias foram testados e comparados pela habilidade de
criação de Gazetteers com os Indicadores recuperados, sendo os Gazetteers avaliados
então pela capacidade de identificação das cidades relacionadas às notícias testadas. Os
resultados demonstram a utilidade da abordagem para o enriquecimento de Gazetteers e
consequentemente para a recuperação de Indicadores de Localidade com maior
simplicidade e extensibilidade que os trabalhos atuais.
Palavras-chave: Recuperação de Informações Geográficas, Resolução de Topônimos,
Georreferenciamento de Textos, Gazetteers.

© 2009 OpenThesis.org. All Rights Reserved.