Document Text (Pages 11-20) Back to Document

Uma Abordagem para o Enriquecimento de Gazetteers a partir de Notícias visando o Georreferenciamento de Textos na Web

by Gouvea, Cleber, MS


Page 11

11

TITLE: “ENRICHMENT OF GAZETTEERS FROM NEWS TO IMPROVE TEXT-
BASED GEOREFERENCING ON THE WEB”

ABSTRACT

Georeferencing of texts, that is, the identification of the geographical context of
texts is becoming popular in the Web due to the high demand for geographical
information and due to the raising of services for query and retrieval like Google Earth
(geobrowsers). The main challenge is to relate texts to geographical locations. These
associations are stored in structures called gazetteers. Although there are gazetteers like
Geonames and TGN, they fail in coverage, lacking information about some countries,
and they also fail by weak specialization, lacking detailed references to locations (fine
granularity) as for example names of streets, squares, monuments, rivers,
neighborhoods, etc. This kind of information that acts as indirect references to
geographical locations is defined as “Location Indicators”.
This dissertation presents an approach that identifies Location Indicators related
to geographical locations, by analyzing texts of news published in the Web. The goal is
to enrich create gazetteers with the identified relations and then perform geo-referencing
of news. Location Indicators include non-geographical entities that are dynamic and
may change along the time. The use of news published in the Web is a useful way to
discover Location Indicators, covering a great number of locations and maintaining
detailed information about each location. Different training news corpora are compared
for the creation of gazetteers and evaluated by their ability to correctly identify cities in
texts of news.

Keywords: Geographical Information Retrieval, Toponym Resolution, Georeferencing
of Texts, Gazetteers.


Page 12

12

1 INTRODUÇÃO

Com o surgimento da Web e com a enorme quantidade de informações não
estruturadas ou semi-estruturadas (Abiteboul et al., 2000 apud Borges et al., 2003)
disponíveis atualmente, surge a necessidade do uso de tecnologias semânticas para a
obtenção de informações relevantes visando evitar assim problemas como a sobrecarga
de informações (information overload). (Perry et al., 2007)
Na internet, a recuperação de informações proporcionada pelos sistemas de
busca tem ajudado a indexar e representar os fluxos de informação, facilitando e
agilizando sua recuperação. Apesar de iniciativas recentes, esses mecanismos, no
entanto, apresentam deficiência na recuperação de conteúdos semânticos (Baeza-Yates
et al., 2008), como por exemplo, informações geográficas relacionadas ao contexto do
usuário (Jones e Purves, 2008).
Atualmente, através da Web Semântica (Berners-Lee et al., 2001) e mais
recentemente da Web Semântica Geoespacial (Egenhofer, 2002), iniciativas têm surgido
visando auxiliar à representação e estruturação de conhecimento na Web (Berners-Lee
et al., 2001). Do ponto de vista geográfico, alguns dos principais exemplos
compreendem a definição de padrões específicos para a estruturação de informações
geográficas, como o GeoRSS, o GML e o KML. Atualmente estes padrões têm ganhado
grande popularidade, fato esse motivado principalmente pela popularização de serviços
de navegação geográfica na Web (geobrowsers) os quais utilizam as informações
contidas nesses arquivos para a integração descentralizada e contextualização dessas
informações por meio de mapas (ex: Google Maps1).
Para povoar esses arquivos torna-se necessária, no entanto, a adoção de técnicas
especiais para a identificação do contexto geográfico das informações. Isto ocorre já que
a anotação das informações nestes arquivos é realizada de forma manual, o que
despende tempo e desestimula a popularização desses formatos, demandando então a
utilização de métodos automáticos para a recuperação geográfica das informações.
Com isso e devido à falta da identificação do contexto geográfico das
informações na Web como um todo, a Recuperação de Informações Geográficas (RIG),
área surgida, segundo (Larson, 1996) a partir da demanda por uma pesquisa integrada

1

http://maps.google.com/


Page 13

13

entre os Sistemas de Informação Geográfica e a Recuperação de Informações
tradicional, tem sido alvo de intensa pesquisa. O foco central é lidar com todos os
problemas da recuperação de informações que contenham algum tipo de consciência
espacial (spatial awareness), ou seja, que incluam referências geográficas
(georreferências) (Lana-Serrano et al., 2007), visando auxiliar dessa forma na
identificação e contextualização das informações de acordo especificamente com seu
contexto geográfico.
O processo de identificação do contexto geográfico de textos é denominado de
geotagging (Amitay et al., 2004) e envolve duas etapas principais, o geoparsing e o
geocoding (ou geocodificação). (McCurley, 2001)
A fase de geoparsing compreende a identificação das entidades geográficas
presentes no texto por meio da análise do seu conteúdo ou de informações relativas ao
servidor em que ele se encontra armazenado. As técnicas mais utilizadas empregam a
análise do texto, para isso baseiam-se em heurísticas ou em técnicas de Inteligência
Artificial como o Reconhecimento de Entidades Mencionadas (REM) e/ou o
Aprendizado de Máquina. Já a fase de geocodificação tem o objetivo de reconhecer a
localização espacial correta das localidades identificadas, associando a elas
identificadores específicos como, por exemplo, coordenadas geográficas (ex: latitude e
longitude).
Como os topônimos (ex: nomes de localidades como cidades, países, etc.)
podem ser usados para identificar corretamente determinada região espacial, possuindo
assim propriedades geográficas distintas (ex: geometria, topologia) (Hu e Ge, 2007), sua
identificação torna-se ideal para a verificação do contexto geográfico de textos,
apresentando, no entanto desafios específicos principalmente do ponto de vista
lingüístico para o seu reconhecimento e desambiguação nos textos.
Com isso, não basta apenas identificar os topônimos pelo seu nome nos textos,
visto que cada localidade pode apresentar variados tipos de ambigüidade, as quais de
acordo com (Clough et al., 2004) podem ser: com outra localidade homônima
(ambigüidade do referente), com outro tipo de entidade não-geográfica, por exemplo,
nomes de pessoas ou organizações (ambigüidade da classe do referente) ou com nomes
sinônimos, por exemplo, siglas da cidade (ambigüidade da referência). A área que


Page 14

14

estuda a identificação e desambiguação de topônimos é definida por (Leidner, 2007)
como Resolução de Topônimos.
Para viabilizar a Resolução de Topônimos e a superação destas ambiguidades
uma das alternativas é utilizar técnicas relacionadas à Desambiguação Lexical de
Sentido (Word Sense Disambiguation) (Li et al., 2003) onde termos co-ocorrentes
(collocations) relacionados às localidades são identificados em uma coleção de textos
de treinamento, utilizando pra isso algoritmos de Aprendizado de Máquina (Machine
Learning). Para armazenar essas entidades e auxiliar assim nos processos de
georreferenciamento de textos são utilizados dicionários toponímicos (Gazetteers), os
quais têm o objetivo, portanto de armazenar informações diversas relacionadas às
localidades (como o nome, sinônimos, o tipo e outras entidades) incluíndo também
coordenadas geográficas, as quais visam identificar a correta extensão espacial das
localidades representadas (Hill, 2000).
Estas técnicas buscam assim obter informações detalhadas sobre as localidades e
superar os problemas dos Gazetteers atuais, como o Geonames2 e o TGN3, os quais
embora consigam cobrir localidades de todo mundo apresentam carência de
informações detalhadas sobre estas localidades, como por exemplo, nomes de ruas,
praças, monumentos, rios, bairros, e outras entidades relacionadas a elas (Leveling e
Hartrumpf, 2006a) demandando com isso atualizações constantes de seus índices para
garantir a qualidade dos processos de georreferenciamento, já que conforme verificou
(Leidner, 2004) os Gazetteers globais sofrem cerca de 20.000 modificações por mês.
Estes tipos de entidades que, embora de forma indireta, auxiliam na identificação
das localidades referenciadas nos textos, são definidas por (Leveling et al., 2007) como
Indicadores de Localidade (Location Indicators), podendo relacionar-se a entidades
geográficas relacionadas às localidades (como nomes de ruas, rodovias, aeroportos,
etc.), assim como a entidades não-geográficas, como pessoas importantes (ex: prefeito,
vereadores, etc.), eventos históricos ou mesmo situações temporárias (ex: nomes de
pessoas envolvidas em algum tipo de acontecimento), ilustrando assim a necessidade da
adoção de métodos automáticos para a verificação correta desses Indicadores levando
em conta sua característica dinâmica.

2

http://www.geonames.org/

3

http://www.getty.edu/research/conducting_research/vocabularies/tgn


Page 15

15

seção.
O presente trabalho busca auxiliar nesse processo, conforme ilustra a próxima

1.1 Objetivo e Contribuições

Embora já existam trabalhos que buscam recuperar Indicadores de Localidade,
estes apresentam problemas, os quais se relacionam principalmente à necessidade de
anotação manual de corpora de treino para a inferência das entidades e a utilização de
técnicas úteis apenas para idiomas específicos. O presente trabalho busca superar estes
problemas através da sugestão de uma abordagem para a identificação de Indicadores de
Localidade a partir de notícias, aproveitando para isso o caráter geográfico das
informações jornalísticas. A idéia é possibilitar a partir destes Indicadores a criação e
enriquecimento dinânico de Gazetteers, mantendo informações detalhadas sobre as
localidades (particularmente cidades) e auxiliando assim na sua identificação e
desambiguação nos textos.
Para garantir isso a abordagem proposta por este trabalho realiza a extração de
Indicadores de Localidade a partir das notícias baseado na co-ocorrência entre nomes
próprios nos textos, sem a necessidade de anotação manual de corpora de treino e pra
qualquer tipo de localidade e linguagem (desde que seja possível identificar nomes
próprios no respectivo idioma e desde que haja notícias relacionadas às localidades).
Busca-se também qualificar estes Indicadores de acordo com sua relevância (através de
fórmulas específicas que determinam o peso das relações) às localidades levando em
conta que um mesmo indicador pode estar relacionado a mais de uma localidade.
Para testar a qualidade da abordagem sugerida foram criados Gazetteers com os
Indicadores recuperados, sendo utilizado pra isto diferentes corpora de notícias (ex: com
quantidade e período temporal distintos) visando avaliar qual o tipo de corpora mais
adequado para a extração e qualificação dos Indicadores de Localidade. Os Gazetteers
foram então avaliados pela capacidade de corretamente identificar às cidades
relacionadas às notícias utilizadas para teste. Os resultados foram então comparados
com um Gazetteer baseline (contendo apenas ruas e bairros relacionados às cidades
avaliadas), o qual é utilizado também para a identificação da variedade dos Indicadores
recuperados.
A partir disso, o presente trabalho busca, portanto responder as seguintes


Page 16

16

questões:
a) A abordagem proposta para identificação de Indicadores de Localidade pode

gerar Gazetteers com qualidade? Esta questão será verificada a partir da
comparação dos resultados do georreferenciamento de notícias utilizando dois
Gazetteers: o primeiro enriquecido utilizando a abordagem proposta pelo
trabalho e o segundo contendo apenas ruas e bairros relacionados às cidades
avaliadas (as quais foram capturadas a partir de bases de dados governamentais
públicas do Brasil).

b) O período temporal das notícias influencia na qualidade dos Gazetteers gerados?
Para verificar essa questão será realizada a comparação dos resultados referentes
ao georreferenciamento de notícias, utilizando pra isso Gazetteers enriquecidos
com notícias de períodos temporais distintos.

c) O volume de notícias analisado influencia na qualidade dos Gazetteers gerados?
Para essa verificação será realizada a comparação dos resultados do
georreferenciamento de notícias, utilizando Gazetteers enriquecidos com
diferentes quantidades de notícias para o corpus de treino.

d) A utilização de notícias com apenas uma cidade no texto melhora a qualidade
dos Gazetteers gerados? Para analisar essa questão será realizado o
georreferenciamento de notícias, utilizando Gazetteers enriquecidos a partir de
notícias com apenas uma cidade no texto, sendo comparado o resultado com um
Gazetteer gerado utilizando notícias diversas.

e) A fórmula de peso definida para classificar os Indicadores de Localidade de
acordo com sua relevância às Localidades apresenta resultados superiores a não
utilização de pesos específicos paras as relações? Para verificar essa questão será
realizado o georreferenciamento de notícias, utilizando os Gazetteers criados
pela abordagem com os Indicadores e os pesos definidos para classificá-los de
acordo com sua relevância às cidades, sendo comparados os resultados com um
Gazetteer onde estas mesmas relações não apresentam um peso específico.
O trabalho é particularmente útil, portanto para a desambiguação de topônimos
em textos, tendo como foco a utilização da abordagem proposta na superação das
ambiguidades do referente/referência, assim como para o georreferenciamento de textos


Page 17

17

que não possuem nenhum nome de localidade em seu interior, visando superar com isso
a ambiguidade indireta da referência conforme definida por este trabalho.

1.2 Estrutura do Trabalho

O trabalho está dividido da seguinte forma: primeiramente a seção 2 apresenta o
referencial teórico do trabalho, descrevendo a área relacionada à Recuperação de
Informações Geográficas e mais especificamente a área associada à Resolução de
Topônimos, apresentando os principais desafios envolvidos (ex: os tipos de
ambiguidades) com ênfase na importância e nos problemas principais dos Gazetteers
atuais e das estratégias envolvendo a recuperação de Indicadores de Localidade. A
seção 3 apresenta a abordagem proposta pelo trabalho para auxílio na superação destes
problemas, bem como seus diferenciais para os trabalhos atualmente disponíveis. Já a
seção 4 apresenta os experimentos realizados para avaliação do trabalho, os resultados
encontrados e uma discussão relacionada a eles. Por fim a seção 5 apresenta um resumo
dos principais resultados e trabalhos futuros pretendidos.


Page 18

18

2 REFERENCIAL TEÓRICO

Para melhor contextualizar o problema alvo do trabalho torna-se necessário
compreender o processo para a identificação do contexto geográfico dos textos.
Com isso o presente capítulo busca analisar a área de Recuperação de
Informações Geográficas (seção 2.1) com foco na área relacionada à Resolução de
Topônimos (seção 2.2), buscando compreender com isso as características e desafios
associados ao georreferenciamento de textos particularmente relacionados à
identificação das localidades referenciadas por eles com o apoio de estruturas
denominadas de dicionários toponímicos (ou Gazetteers), os quais serão melhor
ilustrados (com sua importância e problemas) na (seção 2.3).

2.1 Recuperação de Informações Geográficas

A recuperação de informações na Web se dá por meio dos mecanismos de busca,
que consultam os sites e através da análise do seu conteúdo desenvolvem métodos
próprios de classificação de propósito geral como o PageRank (Page et al., 1999) ou
focados em conteúdos específicos, como por exemplo, o CiteSeer (Giles et al., 1998).
No entanto, os sistemas de busca tradicionais não apresentam suporte para
informações contextuais, analisando o conteúdo da página ou as ligações entre seus
hiperlinks, mas não possibilitando a verificação de informações semânticas, como por
exemplo, a localidade referenciada pelos textos, impedindo assim a análise com
precisão de informações dentro ou próximo a determinadas regiões geográficas
(Buyukkokten et. al., 1999) e seu correspondente ranqueamento de acordo com a
relevância para o usuário (Jones et al., 2001).
Uma larga proporção da informação presente na Web pode ser incluída dentro
do espaço geográfico e, como conseqüência, muitos usuários desejariam especificar
nomes geográficos de lugares como parte das consultas (queries) (Jones et al., 2001).
De acordo com (Sanderson et al., 2004 apud Borges, 2006) consultas que incluem pelo
menos um termo relacionado à geografia, como nomes de lugar e feições naturais (ex.,
“praia”, “serra”), são hoje um subconjunto significativo das pesquisas submetidas aos
mecanismos de busca. Com isso Web sites que contém, por exemplo, informações sobre
restaurantes, teatros e cinemas são mais interessantes para usuários vizinhos dessas
localidades (Buyukkokten et. al., 1999). Variadas informações como as jornalísticas


Page 19

19

(tempo, condições de tráfego) também são mais úteis se diretamente relacionadas com a
região em que ocorrem.
O caráter semi-estruturado da Web dificulta, no entanto, o acesso a informações
geográficas. (Jones et al., 2006) relaciona as principais dificuldades no uso da Web
como fonte de informações geográficas:






O contexto geográfico é incluído junto das descrições via linguagem natural.
Nomes de lugares são ambíguos e confundidos com nomes de organizações,
pessoas, construções e ruas.
Dependência de presença e relação com os termos do texto.
Interpretação das relações espaciais (“próximo”, “ao oeste”, etc.).
Construção de ranking específico para definição da relevância geográfica.
Visando solucionar esses problemas e trazer à Web todas as vantagens
relacionadas à descrição semântica e geográfica das informações, técnicas têm sido
desenvolvidas tanto em ambiente acadêmico como comercial visando acessar recursos
com base em seu contexto geográfico (Gey, 2005 e Jones, 2003).
Segundo (Larson, 1996) a área de Recuperação de Informação Geográfica (RIG)
pode ser vista como um ramo da área de Recuperação de Informação tradicional,
incluindo todas suas áreas de pesquisa, mas enfatizando a recuperação e indexação de
informações geográficas e espaciais. O objetivo é lidar com todos os problemas da
recuperação de informações que contenham algum tipo de consciência espacial (spatial
awareness), ou seja, que incluam referências geográficas (georreferências) as quais são
essenciais para o significado da consulta, por exemplo: “encontre-me hotéis próximos a
Madrid” (Lana-Serrano et al., 2007).
De acordo com (Santos e Chaves, 2006) a RIG pressupõe o seguinte:


a possibilidade de associar à coleção de documentos informações geográficas.
a existência ou a possibilidade de criação de repositórios semânticos
(Gazetteers) que permitam a inferência geográfica (geographical reasoning).
Com isso segundo (Larson, 1996) a RIG está relacionada com a recuperação de
informações determinística (por exemplo, para encontrar todos os documentos
relacionados à determinada coordenada geográfica) e com a recuperação de informações


Page 20

20

probabilística (por exemplo, para encontrar todas as cidades próximas a um determinado
rio).
O processo de georreferenciamento de textos possui de forma geral os
componentes apresentados na figura 1.

Documentos
Interface do Usuário
Crawler

Resultado
Ordenado
Consulta
GeoParsing

GeoCoding FootPrints (Extensão)

Ranking
Gazetteer Índice
Espacial

Doc X Pos. Espacial

Figura 1. Principais Componentes da RIG
Diferente dos modelos de recuperação de informação tradicionais como o
modelo Vetorial (Salton, 1989) que representa os documentos como índices de termos
(por exemplo, com a posição e frequência das palavras nos documentos) utilizando o
conteúdo parcial ou integral do texto, na RIG os termos extraídos como índices devem
ser relacionados a descrições espaciais, ou seja, a entidades geometricamente definidas
e localizadas no espaço (De Floriani, 1993 apud Larson, 1996).
Os processos de reconhecimento do contexto geográfico de textos e a definição
de coordenadas espaciais (latitude, longitude, etc.) são definidos respectivamente como

© 2009 OpenThesis.org. All Rights Reserved.