Document Text (Pages 21-30) Back to Document

Uma Abordagem para o Enriquecimento de Gazetteers a partir de Notícias visando o Georreferenciamento de Textos na Web

by Gouvea, Cleber, MS


Page 21

21

geoparsing e geocoding (ou geocodificação) (McCurley, 2001). Os índices dos arquivos
podem também ser estruturados conforme uma lista invertida (Wang et al., 2006 e
Andrade e Silva, 2006), com a diferença que a lista agora apresenta as relações espaciais
(associando documentos com seu contexto geográfico) em vez de relacionar apenas as
palavras com os documentos em que elas ocorrem. O processo de ranking por sua vez
tem o objetivo de ordenar os resultados de acordo com o grau de associação com a
localidade espacial exposta na consulta.
O componente mais importante é o Gazetteer, o qual busca estruturar
relacionamentos semânticos relacionados às localidades, sendo organizado geralmente
de forma hierárquica com o tipo, a localização (através de coordenadas geográficas) e
outras descrições (Hill, 2000) relacionadas a elas, sendo que dependendo da
complexidade de sua estrutura, pode ser visto como uma geo-ontologia ou ontologia
geográfica. A partir da utilização de Gazetteers torna-se possível, por exemplo,
reconhecer palavras e frases que se relacionam a alguma localidade, auxiliando também
na desambiguação desses termos (superando ambigüidades e reconhecendo a localidade
exata referenciada).
Um dos problemas é que para essa correta identificação/desambiguação é
necessário a utilização de Gazetteers dinâmicos e que abranjam com especificidade as
localidades. A seção 2.3 apresenta em detalhes esses desafios.
A identificação do contexto geográfico de páginas Web tem ajudado na evolução
da Web Semântica, onde, através do acesso a informações estruturadas pelas máquinas,
torna-se possível o desenvolvimento de aplicações automáticas e mais inteligentes
(Berners-Lee et al., 2001), levando-se em conta também os bancos de dados existentes e
os dados contidos neles (Berners-Lee, 2006). Com isso, e devido à popularização dos
serviços de navegação geoespacial na Web, juntamente com o surgimento de formatos
semânticos para distribuição de informações geográficas, a Web Semântica Geoespacial
tem surgido (Egenhofer, 2002), permitindo assim que aplicações distintas
possam compartilhar e integrar este tipo de informação com nível maior de
interoperabilidade.

As principais etapas do georreferenciamento de textos, juntamente com uma seção
especial explicitando as principais estratégias e métodos utilizados para sua avaliação
são apresentados nas seções seguintes.


Page 22

22

2.1.1 GeoParsing
Para entender como é possível extrair o contexto geográfico de textos a partir da
análise de seu conteúdo é necessário primeiramente analisar como as relações espaciais
são determinadas para especificar lugares ou espaços geográficos na Terra. As relações
espaciais são comumente agrupadas segundo (Egenhofer e Franzosa, 1991) em três
categorias:

Topológicas: descrevem os conceitos de vizinhança, incidência, sobreposição
sem variar com escalas e rotações (ex. dentro de).
Métricas: são consideradas em termos de direções (ex: orientações no espaço =
ao leste, ao oeste...) e distâncias (ex: dependem de definições métricas = perto de).
De Ordem: expressam a ordem, total ou parcial, dos objetos espaciais (ex: em
frente a, acima de).
Raciocínio espacial (spatial reasoning) é a expressão usada para denotar
inferências sobre relacionamentos espaciais entre objetos no espaço, usando um
subconjunto conhecido de relações espaciais. Este tipo de raciocínio permite fazer
predições e diagnósticos. O raciocínio espacial pode ser classificado como quantitativo
ou qualitativo, dependendo do tipo de informação usada no processo de raciocínio
(Rodríguez, 2002 apud Borges, 2006).
O "raciocínio espacial" quantitativo diferencia diversas relações espaciais, por
exemplo, relações topológicas e métricas, e é tipicamente formalizado usando um
sistema de coordenadas geográficas e álgebra vetorial. Este tipo de processamento da
informação é claramente distinto da forma como as pessoas interpretam relações
espaciais. Assim, processos de raciocínio qualitativo tornam-se necessários em, por
exemplo, sistemas especialistas espaciais e SIGs. O "raciocínio espacial" qualitativo é
amplamente utilizado por seres humanos para entenderem e analisarem um ambiente
espacial quando a informação disponível está na forma qualitativa, como ocorre em
documentos textuais (Borges, 2006).
As pessoas pensam e se comunicam a respeito do mundo em termos de conceitos
vagos, que são imprecisos ou probabilísticos, como, por exemplo, “centro da cidade”,
“perto de”, “nos arredores de” (Montello, 2003 apud Borges, 2006). Elas raramente
dizem “o restaurante está a 35,93 metros a oeste”, por outro lado fornecem algumas


Page 23

23

instruções qualitativas como “o restaurante está à direita, a duas quadras da rodovia”
(Borges, 2006).
Dentro deste contexto, (Egenhofer e Mark, 1995) apresenta também a geografia
do cotidiano (naïve geography), a qual é uma disciplina com o objetivo de “capturar e
refletir o jeito que as pessoas pensam e raciocinam a respeito do espaço e tempo
geográfico, tanto consciente como subconscientemente”.
Nos Gazetteers (seção 2.3) estes termos devem ser associados ou relacionados à
features (ou entidades) as quais eles representam. A ISO 191094 define feature como
“um objeto com significado em um domínio selecionado do discurso”. No contexto
geográfico, países, cidades e ruas são exemplos desses objetos. Exemplos de features
são “Rua Bento Gonçalves” e “Arroio São Lourenço”, os quais seriam representados
respectivamente pelas features de nome “Bento Gonçalves” e “São Lourenço” e pelas
features de tipo “Rua” e “Arroio”.
No entanto, embora seguindo determinados padrões relacionados às referências
espaciais, outra característica é que as entidades geográficas podem estar também
mencionadas no texto de forma implícita (quando apresenta relação topológica, por
exemplo, a partir da inclusão do estado relacionado à cidade) ou explícita (quando
aparece de forma direta no texto). (Wang et al., 2006)
Já (Borges et al., 2003) define as informações espaciais que não possuem
associação direta com coordenadas geográficas (CEPs, telefones, etc.) como referências
espaciais indiretas. Recentemente (Leveling et. al., 2007) definiu e conceituou de forma
mais ampla estes tipos de entidades que auxiliam a identificar determinada localidade
(ex: nomes de ruas, bairros, praças, aeroportos, etc.) como Indicadores de Localidade
(Location Indicators), demonstrando através de experimentos a sua importância para a
identificação de cidades e consequentemente do contexto geográfico dos textos,
conforme ilustra a seção 2.2.2.
Para a recuperação automática de entidades geográficas é necessário, portanto
levar em conta todas essas características, atentando também para o problema da
desambiguação das localidades que possuam características semelhantes (ex: com o
mesmo nome) visto que a vasta maioria dos nomes encontrados na Web apresenta

4

http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=39891


Page 24

24

algum tipo de ambigüidade (Smith et. al., 2001 apud Amitay et al., 2004), conforme
ilustra a seção 2.2.1.
O reconhecimento do contexto geográfico em páginas da Web é realizado
através de duas abordagens principais (Amitay et al., 2004). A primeira abordagem,
chamada de Geografia da Fonte (Source Geography) é relacionada com a origem das
páginas e utiliza os elementos de infra-estrutura da Internet para obtenção de
informações sobre a localização física dos servidores onde esses documentos estão
hospedados. A segunda abordagem, denominada Geografia do Alvo (Target
Geography), é baseada no conteúdo das páginas, utilizando elementos nelas contidos
para deduzir uma ou mais localizações encontradas em seus textos. Esses elementos
consistem em nomes de lugar, coordenadas geográficas, códigos postais e endereços
que são usados para classificar e indexar as páginas (Borges, 2006).
Os trabalhos publicados geralmente focam na geografia do alvo ou apresentam
estratégias híbridas evolvendo ambos os tipos de geografia.
Alguns exemplos de uso da geografia de fonte pode ser encontrada nos seguintes
trabalhos (Wang et al., 2005) (Pyalling et al., 2006), (Zhang, 2006) os quais recuperam
a localização geográfica de documentos por dados relacionados ao IP do servidor
(utilizando serviços como o GeoIp5, os quais relacionam endereços IP à sua localização
geográfica) e outras informações contidas em órgãos como a Internic6, utilizando
também regras relacionadas ao nome ou posição do site dentro do contexto geográfico
do conjunto de sites de seu domínio.
Um dos problemas dessas técnicas é que nem sempre o conteúdo da página
condiz com a localização do servidor que a hospeda, o que traz desvantagens com
relação à geografia do alvo.
Como a tarefa de recuperar referências em documentos é diferente de recuperar
documentos a partir de consultas (queries), visto que as consultas são geralmente curtas
e não constituem nomes próprios, alguns trabalhos visam também identificar e
relacionar documentos de acordo com as consultas informadas, dentre eles (Martins et
al., 2006b e Graupmann e Schenkel, 2006).

5

http://www.maxmind.com/app/ip-location

6

http://www.internic.net/


Page 25

25

2.1.2 GeoCoding
Após a verificação das entidades geográficas contidas nos textos é necessário
reconhecer o correto contexto geográfico representado por elas. Para (Davis Jr. et al.,
2003) a fase de geocoding (ou geocodificação) compreende a localização de pontos na
superfície da terra a partir de informações alfanuméricas, envolvendo três etapas: o
tratamento do endereço alfanumérico semi-estruturado (parsing), o estabelecimento de
uma correspondência entre o endereço estruturado e o banco de dados (matching) e a
atribuição das coordenadas geográficas com a extensão geográfica (footprint) da
entidade que está sendo alvo da geocodificação (locating ou grounding).
O footprint é mais especificamente uma representação geométrica da extensão
do conteúdo geográfico do objeto sendo descrito, sendo expresso em coordenadas
geográficas (latitude, longitude). A localização referida por um footprint conforme
ilustra a figura 2 é geralmente definida segundo (Larson e Frontiera, 2004) por:



Pontos: onde se mantém um senso geral da localização sem extensões ou
formas.
Polígonos: onde ocorre a identificação da localização, extensão e forma com
grau variável de precisão. O retângulo envolvente mínimo é a representação
espacial poligonal mais usada em sistemas RIG. Contudo, segundo (Papadias et
al., 1995) o retângulo envolvente mínimo apresenta algumas limitações, as quais
relacionam-se principalmente às representações diagonais, irregulares,
desconexas ou de regiões multirrepresentadas.

Figura 2. Representação de uma Localização Usando Pontos e Polígonos (Larson e
Frontiera, 2004)
Como mencionado para a conversão dos lugares em coordenadas geográficas


Page 26

26

torna-se necessário a utilização de Gazetteers que relacionem aos nomes das localidades
sua respectiva posição espacial. Associados aos Gazetteers há a necessidade de adoção
de estratégias específicas visando a desambiguação das localidades e a definição do seu
grau de associação com o texto alvo do georreferenciamento, já que um mesmo
documento pode conter referência a mais que uma localidade. O ranqueamento das
informações torna-se, portanto necessário, sendo descrito na seção seguinte.

2.1.3 Ranking
O ranqueamento das informações relevantes7 em um sistema de RIG está
intimamente relacionado às técnicas de indexação empregadas, podendo envolver
métodos e características específicas de acordo com o tipo de consulta realizada.
Para viabilizar a formação do ranking é necessário, portanto associar esses
conceitos a métricas específicas que possam abranger de forma ampla a necessidade de
informação relacionada à consulta.
As métricas para definição da relevância para a RIG são ilustradas por (Silva et
al., 2005) e compreendem as distâncias espacial e semântica. A distância espacial ou
geográfica (relacionada exclusivamente ao contexto espacial) compreende a verificação
da sobreposição entre regiões e as relações topológicas (como por exemplo, o número
de relações separando lugares em um Gazetteer). Já a distância semântica ou temática
(relacionada a informações que contextualizam ou expandem o contexto espacial)
considera a análise de características especiais como linguagem, a população ou outras
relações não geográficas para a definição de relevância. (Cai, 2002 e Silva et al., 2005).
Segundo (Worboys, 1996 apud Silva et al., 2005) um bom motivo para usar a
similaridade semântica é que o espaço Euclidiano não parece ser capaz de modelar a
proximidade geográfica corretamente, visto que o conceito de proximidade espacial de
um lugar para outro pode ser relativo para cada pessoa (ex: distância ao longo de ruas e
estradas).
Para satisfazer as características relacionadas à RIG alguns autores, no entanto,
propõem sistemas híbridos os quais levam em conta tanto a distância espacial como a

7

Determinar se um documento é relacionado com a necessidade de informação do usuário ou não é um
tópico subjetivo e controverso da mesma forma que a noção de relevância, podendo ser definido de
muitas maneiras. (Saracevic, 1975 apud Bucher et al., 2005)


Page 27

27

semântica.
(Cai, 2002) em seu trabalho representa os documentos e consultas de acordo
com o escopo geográfico (GSd , GSc,) e temático (TSd , TSc ). O grau de relevância de
um documento para uma determinada consulta (query) é dado pela fórmula (1).
Rel(d, q) = ƒ(SimG(GSd, GSc), SimT(TSd, TSc) ) (1)
Onde SimG(*) mede a similaridade entre o escopo geográfico do documento e
da consulta, SimT(*) mede o grau de similaridade entre o escopo temático do
documento e o da consulta e f(*) é uma função para combinação das medidas de
relevância das dimensões temática e geográfica.
Já (Wang et al., 2006) apresenta um sistema baseado em dois índices, o focusindex,
que utiliza uma lista invertida de termos para representar cada documento, e o
grid-index que divide a superfície da terra em uma grade visando representar os
documentos nas células dessa grande de acordo com seu contexto geográfico. O
processo baseia-se em recuperar os dois índices e então combiná-los, visando obter a
relevância total a partir da associação entre relevância textual (focus-index) e da
relevância geográfica (grid-index), seguindo para isso a fórmula (2).

Rcombined = Rtext × α + Rgeo × (1- α) (2)

Onde Rtext é o escore da relevância textual, Rgeo é o escore da relevância
geográfica e α é o peso estabelecido para cada tipo de escore, sendo que a relevância
textual foi definida com mais peso, já que experimentos mostraram que ela deveria
possuir maiores escores do que a relevância geográfica.
Para avaliar a qualidade do algoritmo de ranqueamento e das estratégias de
georreferenciamento como um todo, torna-se necessária, então, a adoção de métricas e
avaliações específicas visando legitimar assim a qualidade das abordagens, conforme
descreve a próxima seção.

2.1.4 Avaliação
De forma geral, o objetivo da avaliação é medir a performance do trabalho de
recuperação de informações, por exemplo, comparando e medindo o desempenho de
diferentes sistemas ou de componentes próprios relacionados a um mesmo mecanismo.


Page 28

28

Com a popularização dos sistemas de RIG surge a necessidade da adoção de
frameworks específicos que possam realizar sua análise individual permitindo também a
comparação com outros sistemas. Estas análises podem ser centradas no sistema
(através de avaliações automáticas) ou no usuário (por meio de determinada avaliação
individual) (Bucher et al., 2005).
Contudo, de acordo com (Martins et al., 2005) um sistema completo de RIG
envolve diferentes componentes, os quais influenciam um ao outro, podendo se
beneficiar de uma avaliação separada. O autor reúne com isso as principais necessidades
relacionadas a esse tipo de avaliação:

1) Construção de uma ontologia geográfica para dar suporte a RIG;
2) Verificar referências geográficas nos textos;
3) Definir contextos geográficos para documentos;
4) Ranquear documentos de acordo com a relevância geográfica;
5) Construir interfaces visuais para a RIG.

Tabela 1: Classificação Binária dos Problemas na RI (Martins et al., 2005)
Itens Relevantes Itens Irrelevantes
Considerados Relevantes Positivos Verdadeiros (pv) Falsos Positivos (fp)
Considerados Irrelevantes Falsos Negativos (fn) Verdadeiros Negativos (vn)

(Martins et al., 2005) apresenta também as principais métricas de avaliação
utilizadas na RI tradicional as quais são também largamente utilizadas na RIG, seguindo
a classificação apontada pela tabela 1. Algumas das medidas mais populares são a
pv
abrangência (recall) ( r = ) que corresponde à razão dos documentos relevantes
pv + fn
recuperados pelo número total de documentos relevantes na coleção, a precisão (p =

pv ) que é a razão dos documentos relevantes recuperados pelo total de
pv + fp


Page 29

29

documentos recuperados e a f1(p,r) =
a abrangência.

2 pr
p + r

que é a média harmônica entre a precisão e

A avaliação correta de sistemas de RIG é requisito fundamental para a evolução
da qualidade desses sistemas. Atualmente uma das iniciativas para avaliação e
comparação de sistemas relacionados à informação geográfica é o GeoCLEF8 o qual
surgiu em 2005 no CLEF9 e é o primeiro fórum de avaliação de sistemas de RIG. O
principal objetivo é disponibilizar o framework necessário visando avaliar sistemas de
RIG para buscas envolvendo os aspectos geográficos em várias línguas (atualmente são
suportados o Português, o Alemão e o Inglês). Para isso são disponibilizadas coleções
específicas de documentos (geralmente notícias) em cada linguagem e várias tarefas
envolvendo seu georreferenciamento (como a resolução de ambigüidades).
Outra fonte de dados bastante utilizada é o ODP10 o qual é um sistema de busca
que organiza as informações em diretórios os quais são administrados por voluntários
em todo o mundo. Uma das seções (Regional) busca a organização de sites baseado em
seu foco geográfico (como sites sobre algum lugar, sobre alguma empresa em
determinada cidade, etc.) sendo cada página organizada de forma hierárquica entre
seções de acordo com seu contexto geográfico (Amitay et al., 2004). Dessa forma a
avaliação pode ser realizada através da análise do conteúdo das páginas em cada
categoria pelo algoritmo de RIG a ser testado e a posterior comparação dos resultados
com o nome da categoria correspondente.

2.2 Resolução de Topônimos

Devido ao fato de poder identificar de forma precisa um determinado espaço
geográfico, a utilização de técnicas para identificação correta de topônimos
(particularmente cidades, estados e países) apresenta-se como possibilidade importante
para a inferência do contexto geográfico abordado pelos textos.
Com a correlação entre espaço geográfico e linguagem textual tornam-se

8

http://ir.shef.ac.uk/geoclef/

9

http://www.clef-campaign.org/

10

http://www.dmoz.org/


Page 30

30

possíveis variadas aplicações, dentre elas (Leidner, 2007) :
Agrupamento de informações pela localidade relacionada – Com o
reconhecimento da localidade referenciada pelos textos é possível o agrupamento de
informações levando em conta o caráter geográfico do texto, agilizando assim a
consulta por informações relacionadas a determinado lugar.
Navegação espacial através de geobrowsers – Com a popularidade dos
serviços de navegação espacial na internet (como Google Earth11) e outros serviços de
mapas (como Google Maps12, Yahoo Maps13) e a correspondente capacidade de
integração de conteúdos diversos por meio de suas APIs abertas, torna-se possível
associar informações diretamente com sua posição espacial relacionada.
Serviços Baseados em Localização (Location-Based Services) – Com o caráter
pervasivo dos dispositivos móveis como os celulares e a inclusão neles de mecanismos
capazes de reconhecer a localização do usuário (ex: GPS) juntamente com serviços
capazes de associar a esses dados outros tipos de informações georreferenciadas (ex:
notícias) torna possível o direcionamento de informações relevantes ao tempo e local do
usuário.
No entanto, devido às características dos espaços geográfico e textual surge a
necessidade de lidar com vários tipos de ambigüidade para a correta identificação das
localidades. Por exemplo, no aspecto geográfico um topônimo como entidade
geopolítica pode mudar de nome ou extensão ao longo do tempo, já no âmbito
lingüístico lugares distintos na Terra podem compartilhar o mesmo nome. Segundo
(Leidner, 2007) a área encarregada de estudar estes problemas é definida como
Resolução de Topônimos (RT), a qual tem o objetivo, portanto de possibilitar o
mapeamento correto das localidades referenciadas pelos textos a partir da resolução dos
vários tipos de ambiguidades relacionadas a elas.
O presente capítulo busca com isso investigar os desafios envolvidos para a
Resolução de Topônimos, relatando as principais características dos topônimos e tipos
de ambigüidades envolvidas (seção 2.2.1), complementando com um novo tipo de

11

http://earth.google.com/

12

http://maps.google.com/

13

http://maps.yahoo.com/

© 2009 OpenThesis.org. All Rights Reserved.