Document Text (Pages 41-50) Back to Document

Uma Abordagem para o Enriquecimento de Gazetteers a partir de Notícias visando o Georreferenciamento de Textos na Web

by Gouvea, Cleber, MS


Page 41

41

Schutze, 1999) uma collocation é uma expressão consistindo de duas ou mais palavras,
em uma ordem particular, que correspondem a um jeito convencional de dizer certas
coisas. Já co-ocorrência é menos restrito, representando simplesmente palavras que
ocorrem no mesmo documento. Por exemplo, na frase: “A Recuperação de Informações
é Importante na Web”, o termo “Recuperação de Informações” poderia ser considerado
uma collocation visto que é uma expressão popularmente conhecida, já as palavras
“Recuperação Web” poderiam ser consideradas co-ocorrentes visto que não
representam uma expressão propriamente, apenas apresentando co-ocorrência na frase.
Nesse trabalho, no entanto não diferenciamos os termos, considerando ambos como
“co-ocorrência”.
É importante notar, portanto que ambas as estratégias auxiliam diretamente na
desambiguação das ambigüidades do referente e da classe do referente. Contudo para
auxiliar na separação das regras as análises estatísticas representam um importante
aliado, podendo auxiliar na desambiguação de vários tipos de ambiguidades citados. O
que acaba viabilizando com isso a partir da identificação de termos co-ocorrentes a
seleção de palavras sinônimas (ajudando na resolução da ambigüidade da referência) e
também a recuperação de outros Indicadores de Localidades (auxiliando na resolução da
ambigüidade do referente e ambigüidade indireta da referência).
Essas entidades recuperadas são armazenadas então em Gazetteers para serem
utilizadas posteriormente no processo de georreferenciamento. Com relação
especificamente as estratégias que buscam recuperar Indicadores de Localidade alguns
dos principais problemas são a grande dependência de anotação de corpora de treino
para a verificação das entidades e o foco em idiomas específicos. Estes problemas
acabam demandando com isso estratégias que possibilitem a atualização desses
Gazetteers de forma ágil com abrangência de variados tipos de Indicadores
(considerando pra isso o seu caráter dinâmico) conforme ilustra a seção 2.3.
Para apoiar a resolução de topônimos (principalmente a ART) são utilizadas
também variadas heurísticas as quais acompanham as abordagens detalhadas acima.
(Leidner, 2007) reúne todas elas, as principais são citadas na seção seguinte.


Page 42

42

2.2.4 Heurísticas para a Resolução de Topônimos
Para apoiar a resolução de topônimos variadas heurísticas são utilizadas.
(Leidner, 2007) apresenta uma relação das principais (as quais possuem foco
principalmente na resolução das ambiguidades geo/geo):
1) Qualificador de Continência: Procurar padrões, por exemplo, "Pelotas/RS", "Pelotas,
Rio Grande do Sul", relacionando cidade ao estado ou estado ao País visando assim à
desambiguação.
2) Maior População: Prioriza o topônimo homônimo com maior população.
3) Uma Referência por Discurso: Assume que todos os Topônimos homônimos em um
texto compartilham apenas um sentido, sendo necessário desambiguar apenas um (Gale
et al.,1992). Por exemplo, o sentido da primeira ocorrência da localidade pode ser
assumido como o sentido correto para as demais com o mesmo nome. Esta heurística é
proveniente da WSD.
4) Minimalidade Geométrica (Minimal Bounding Polygon): Verifica a distância espacial
mínima, analisando todas as localidades homônimas e também demais localidade no
texto.
5) Priorizar Capital: Se a localidade homônima possuir o nome de uma capital, assumir
ela como sentido.
6) Ignorar Cidades Pequenas: Limitar a verificação para Cidades Grandes (de acordo
com sua população).
7) Foco numa área Geográfica: Ignorar localidades fora de determinada área
Geográfica, podendo ser de forma estática (ex: limitando o Gazetteer para cidades de
determinada área), ou dinâmica (ex: verificar o país relacionado a determina fonte de
notícia e priorizar a resolução de topônimos para localidades relacionadas a ele).
8) Distância para Cidades não Ambíguas: Define como sentido o topônimo nãoambíguo
geograficamente mais próximo do centróide das localidades homônimas. Os
topônimos não-ambíguos relacionam-se a todos os que estiverem a até X palavras (onde
X pode variar para cada trabalho) do nome da localidade a ser desambiguada.
9) Mais Freqüentes: Conceder mais relevância para topônimos mais freqüentes no texto.
Particularmente útil para apoiar outras heurísticas e fórmulas ajudando a definir qual


Page 43

43

topônimo priorizar para rankings de relevância similares (com cidades compartilhando
pesos iguais ou parecidos).
10) Preferência Hierárquica: Priorizar sempre o nível superior no caso de topônimos
homônimos em níveis hierárquicos diferentes (ex: em textos com a cidade "Rio de
Janeiro" o sentido seria o do estado).
11) Desambiguação pelo tipo do Identificador: Busca padrões relacionados ao tipo do
identificador do topônimo e elimina os candidatos à desambiguação que não possuem
determinado identificador (ex: "cidade do Rio de Janeiro" eliminaria a verificação de
ambigüidade com o estado).
12) Correlação entre Texto e Espaço: Assumir que os topônimos ocorrendo próximos no
texto têm relação espacial próxima também.
13) Referente Padrão: Calcular qual o sentido do topônimo mais freqüente numa
coleção de texto e assumir esse sentido como padrão para análises futuras.
14) Preferência do Gazetteer: Definir uma ordem de verificação no caso de utilização de
mais de um Gazetteer.
É interessante notar que a maioria das heurísticas foram utilizadas por sistemas
com suporte global a resolução de topônimos, algumas podendo não se aplicar a
desambiguação com focos mais específicos. A utilização de cada uma vai depender,
portanto da aplicação e do tipo de corpora utilizado. Por exemplo, no caso da
desambiguação de topônimos em notícias com foco em cidades de um determinado
país, a heurística 10 não teria utilidade, já que não seria preciso identificar relações
hierárquicas, diferentemente da heurística 7 a qual poderia ser aplicada. A heurística 4
também não seria útil caso o sistema não associasse os topônimos a coordenadas
geográficas.

2.2.5 Arquiteturas para a Resolução de Topônimos
A presente seção descreve em mais detalhes alguns trabalhos e abordagens
relevantes que utilizam de alguma forma as estratégias mencionadas para resolução
parcial ou integral dos tipos de ambiguidade relacionadas à RT.
(Li et al., 2003): InfoXtract – Apresenta uma abordagem híbrida para a desambiguação
de localizações, consistindo de uma busca local de padrões e também análise de co-


Page 44

44

ocorrência (levando em conta nomes de topônimos no texto). Utiliza um algoritmo de
REM onde os topônimos encontrados são reconhecidos como localidade para após
inferir o tipo (Cidade ou Estado) a partir de um módulo de desambiguação, o qual faz
uso de heurísticas relacionadas ao sentido padrão dos topônimos. Verifica também
padrões relacionados ao contexto local dos topônimos e utiliza um algoritmo de árvore
geradora máxima (maximum spanning tree) visando desambiguar candidatos restantes.
O grafo relacionado à árvore geradora máxima é criado relacionando todos os
topônimos ambíguos a partir de pesos específicos. Os pesos são calculados levando em
conta o sentido dos links das localidades e as categorias de co-ocorrência relacionadas.
Por exemplo, quando uma localidade com um sentido potencial para cidade co-ocorrer
com uma localidade com sentido de estado e a cidade estiver dentro do estado o peso do
estado é considerado alto, com peso definido para 3. Outros pesos são dados também
para cidades e países.
O trabalho consegue uma acurácia de 96% para topônimos ambíguos, a
heurística relacionada ao sentido padrão dos topônimos obteve 89,9%, já os padrões
locais obtiveram somente 12% de acurácia analisando notícias da CNN16.
(Amitay et al., 2004) Web-a-Where: Desenvolve um algoritmo visando identificar o
foco geográfico da página, para isso utiliza um Gazetteer com informações de várias
fontes com dados relacionados a topônimos (limitado a cidades com mais de 500.000
habitantes com estados, países e abreviações relacionadas) de todo o mundo,
representando-os através de uma hierarquia geográfica (ex: País/Estado/Cidade) não
utilizando nenhum conhecimento baseado em coordenadas geográficas.
Para a desambiguação geo/geo o sistema primeiro procura por todas as
referências geográficas no texto (definidos como spots). Após, são utilizadas várias
heurísticas associando confidências distintas para cada topônimo relacionado, por ex:
procurando a sigla do estado seguida da cidade (peso = 0.95) ou a cidade ambígua
comum compartilhada por topônimos sem esse tipo de identificação (peso entre 0.65 a
0.75 dependendo se o spot compartilha o significado padrão).
Após isso o foco é definido de acordo com esses pesos podendo ser relacionado
à cidade, estado ou país (estado ou país no caso de existir muitas cidades ou estado

16

http://www.cnn.com/


Page 45

45

relacionados no texto), não sendo consideradas referências abaixo de determinado
limiar (0.9).
Encontra um foco em 75% das páginas relacionadas ao corpus de teste utilizado
(ODP), sendo 65% para estado ou cidade. Medidas de qualidade aumentam quando
avaliam também cidades com mais de 5000 habitantes.
Para a desambiguação geo/não-geo o sistema analisa nomes ambíguos
verificando a relação entre a população e a quantidade de ocorrências num corpus com
1200000 páginas, avaliando também a relação entre quantidade de ocorrências em
maiúsculo e minúsculo, removendo manualmente exceções que não se encaixam nessas
heurísticas. O trabalho é bastante referenciado também por ter definido os tipos de
ambiguidades (geo/geo, geo/não-geo) e também os tipos de estratégias para o
georreferenciamento (alvo e fonte).
(Garbin e Mani, 2005) Desambiguação de Topônimos em Notícias: Utiliza dois
Gazetteers públicos (com ocorrência de países e cidades com mais de 500000
habitantes) como base para a resolução (ART e ACR). Devido à falta de identificadores
de contexto nos textos (67.82% dos topônimos não os possuíam) adota um mecanismo
de aprendizado não supervisionado que utiliza heurísticas para desambiguar topônimos
aplicando depois esse processo automático para treinamento obtendo 78,5% de acurácia
para ambigüidade da classe do referente. As heurísticas baseiam-se no sentido padrão
(relacionado ao sentido mais freqüente relacionado aos topônimos). Após o corpus com
os topônimos desambiguados é utilizado para o processo de aprendizado, o qual se
baseia na verificação de termos próximos às cidades (foram testados entre 3 e 20
palavras distantes) reconhecidos através do teste de Informação Mútua (entropia) e
também pela sua freqüência invertida (tfidf), outras evidências também são verificadas
como letras maiúsculas para os topônimos. Os experimentos mostraram que
aumentando a quantidade de palavras verificadas próximas às cidades somente há
decréscimo da acurácia quando testado no mesmo corpus de treino. Aumentar o corpus
de treino melhorou os resultados principalmente para distâncias maiores de palavras.
(Hu e Ge, 2007) Aprendizado Supervisionado para Desambiguação de Topônimos:
Utiliza REM para desambiguação Geo/Não-Geo e Aprendizado de Máquina
Supervisionado para desambiguação Geo/Geo (ambigüidade do referente), abrangendo
cidades e estados da Austrália e recuperando o conhecimento a partir de Gazetteers


Page 46

46

disponíveis online. O processo de REM segue as seguintes etapas: a primeira etapa
verifica no texto a ocorrência de topônimos a partir do Gazetteer utilizado sendo
retirados topônimos que possam representar outras entidades (definidas como stopwords
geográficas). A etapa seguinte realiza o processo de reconhecimento de entidades
usando um reconhecedor REM pré-treinado para três tipos de entidade: pessoa,
localização e organização, após mantém-se somente entidades relacionadas à
localização, realizando-se também um procedimento para reconhecer localidades que
possam ser parte de uma localidade (exemplo no Brasil: Campos e São José dos
Campos).
O sistema avalia a desambiguação da ambigüidade do referente apenas a partir
da comparação de métodos baseline (ex: considerar a localização com maior ocorrência
nos dados de treino) com técnicas de aprendizado de máquina, obtendo com elas
resultados melhores que os definidos para o baseline. A desambiguação da referência é
suportada através de siglas e sinônimos relacionados às localidades disponíveis nos
Gazetteers utilizados.

2.3 Importância e Problemas dos Gazetteers Atuais

As ontologias são centrais para o desenvolvimento da Web Semântica e da Web
Semântica Geo-espacial, pois elas especificam conceitos formais e suas relações,
provendo o meio para criação de metadados semânticos para objetos (documentos,
banco de dados, etc.) (Perry et al., 2007).

No campo da RIG, para a representação de nomes de lugares utilizam-se
estruturas próprias denominadas de Gazetteers, os quais podem apresentar variedades
de dimensões (ex: escopo, granularidade, abrangência) (Leidner, 2004). De acordo com
a dimensão de sua estrutura, os Gazetteers podem variar de simples listas de lugares
(flat Gazetteers) (Martins et al., 2005) a estruturas mais complexas, abrangendo
relacionamentos entre as localidades e possibilitando variados tipos de inferência, sendo
vistos nesse caso como geo-ontologias ou ontologias geográficas. Com isso os
Gazetteers têm sido utilizados em vários campos, por exemplo, na desambiguação e
expansão de consultas, na anotação de documentos, nos sistemas de ranking por
relevância, além da identificação de conceitos geográficos em textos.


Page 47

47

Na internet as primeiras tentativas para sua utilização relacionaram-se ao
reconhecimento de localidades, utilizando para isso flat Gazetteers, em consultas
enviadas para sistemas de busca, nesse caso cada lugar era associado à map-grids ou
coordenadas geográficas. Essa identificação poderia ser utilizada então para consultas
geográficas associando as informações retornadas ao mundo das coordenadas (Jones et
al., 2001).
Para as tarefas relacionadas à identificação e desambiguação de entidades
geográficas em textos (a partir de técnicas de REM e WSD) os Gazetteers, ou
dicionários toponímicos (Hill, 2000) têm sido utilizados para armazenar os variados
tipos de referências às localidades e sua posição espacial (utilizando pra isso
coordenadas geográficas). Com isso eles podem integrar-se às geo-ontologias para
apoiar inferências geográficas mais complexas (Souza, 2005) ou mesmo serem
utilizados isoladamente visando auxiliar nos processos de georreferenciamento,
conforme ilustraram as seções anteriores.

Nome do Lugar

Localização Tipo e Outras
Descrições

Figura 4: Principais Componentes de um Gazetteer
Embora os Gazetteers possam apresentar variados tipos de estrutura, grande
parte das estratégias utilizam a organização proposta no trabalho de (Hill, 2000) a qual
busca relacionar os componentes centrais de um Gazetteer (conforme a figura 4), os
quais correspondem: a um nome de um lugar geográfico, a correspondente localização
que ele abrange (footprint) e uma descrição sobre seu tipo.
Os nomes são expressos em linguagem natural e podem incluir nomes
alternativos. A localização armazena as coordenadas geográficas e o tipo expressa as
relações dos conceitos relacionados ao nome, sendo que a organização hierárquica tem


Page 48

48

sido priorizada, visto que facilita a organização espacial das informações sendo
considerada uma das melhores formas de se representar o mundo geográfico (Smith,
1995 apud Fonseca et al., 2000). Com relação à localização ou footprint descrito por
meio de coordenadas geográficas, conforme ilustra a seção 2.1.2, ele pode ser
representado através de um único ponto ou um centróide relacionado a real extensão da
localidade, podendo também ser um polígono ou um conjunto de pontos (Jones et al.,
2001).
Alguns dos Gazetteers disponíveis atualmente na Internet são o TGN (Getty
Thesaurus of Geographic Names), o GKB (Geographic Knowledge Base) e o
Geonames.
O TGN17 é um dos mais conhecidos sendo utilizado em vários estudos e
sistemas como é o caso da máquina de busca SPIRIT18. Referencia milhões de nomes de
lugares em diferentes linguagens, incluindo entidades políticas (cidades, estados, etc.) e
outros recursos físicos (rios, etc.), representando de forma hierárquica (devido aos
múltiplos contextos pode ser considerada também polihierárquica) e associativa suas
relações em conjunto com as coordenadas geográficas relacionadas.
A GKB foi desenvolvida no projeto GREASE19 da Universidade de Lisboa e
integra informações geográficas descrevendo entidades físicas e administrativas, além
de integrar também informações relacionadas à Web sites e seus domínios. Uma das
ontologias originadas da GKB é a Geo-Net-PT01, a qual contém informações
geográficas relacionadas a Portugal.
Já a Geonames20 é um Gazetteer contendo mais que 8 milhões de nomes
geográficos e suas características possuindo também nomes alternativos aos lugares.
Todos os nomes são categorizados em uma das nove classes disponíveis e
subcategorizados em uma das 645 subclasses. Integra ao conhecimento geográfico
dados como altitude, latitude/longitude, população e outras características, possuindo
várias fontes de conhecimento, principalmente relacionadas a bases de dados públicas
dos Estados Unidos, utilizando também a Wikipédia.

17

http://www.getty.edu/research/conducting_research/vocabularies/tgn/

18

http://www.geo-spirit.org/

19

http://xldb.di.fc.ul.pt/grease/

20

http://www.geonames.org/


Page 49

49

Contudo, embora estes e outros Gazetteers consigam abranger localidades de
todo o mundo, eles apresentam pouca cobertura relacionada a países específicos (como
o Brasil) (Borges, 2006) possuindo carências na inclusão de Indicadores de Localidades
(ex: nomes de ruas, praças presentes nas cidades, ou mesmo variações léxicas e
semânticas como siglas, adjetivos e gerúndios relacionados a elas) e apresentando
também pouca freqüência de atualização, já que são organizados manualmente. De
acordo com (Delboni et al., 2007) a utilidade dos Gazetteers para algumas aplicações
depende da sua constante atualização, sendo que Gazetteers globais sofrem cerca de
20.000 modificações por mês. (Leidner, 2004). Algumas dessas entidades úteis para a
identificação das localidades (como ruas e bairros) já se encontram disponíveis em
bases de dados específicas, no entanto grande parte das entidades não são acessíveis
dessa forma, necessitando de métodos automáticos para a sua recuperação.
Com isso variados trabalhos têm surgido visando a recuperação automática de
variados tipos de Indicadores de Localidade, possibilitando assim a atualização ou
mesmo a construção dinâmica de Gazetteers. Nas seções seguintes são apresentadas as
várias estratégias já utilizadas para esse fim (seção 2.3.1), bem como um resumo dos
desafios ainda a serem superados (seção 2.3.2).

2.3.1 Estratégias para Identificação de Indicadores de Localidade
Os trabalhos analisados não consideram explicitamente a verificação de
Indicadores de Localidade, embora ajudem a recuperar entidades compreendidas por
eles.
Alguns trabalhos utilizam aprendizado supervisionado para a recuperação de
entidades relacionadas a localizações geográficas a partir de corpora de treino anotado
manualmente.
(Overell e Ruger, 2007) extrai termos relacionados a topônimos através da
verificação de termos encontrados na descrição dos links que apontam para páginas de
cidades na Wikipédia, possibilitando assim a identificação de sinônimos às localidades.
(Popescu et al. 2008) por sua vez utiliza a Wikipédia21 para extrair, a partir da página
das localidades, referências às cidades, utilizando todos os links descritos com nomes

21

http://www.wikipedia.org/


Page 50

50

próprios, buscando também identificar coordenadas geográficas e o tipo das localidades
(i. e. se é estado ou país), visando assim criar de forma automática um Gazetteer com
todas as suas propriedades, conforme definido por (Hill, 2000).
(Buscaldi e Rosso, 2007) utiliza um método híbrido, analisando tanto a
Wikipédia (para a identificação de termos relacionados a localidades) como a Wordnet22
(para definição do seu tipo e para comprovar que páginas na Wikipédia são relacionadas

exclusivamente a localidades), não capturando assim páginas de entidades nãogeográficas
homônimas, o objetivo é criar assim uma ontologia geográfica com as
localidades organizadas de forma hierárquica de acordo com seu tipo.
(Rattenbury et al., 2007) descreve métodos para extrair tags semânticas
(relacionadas a eventos e lugares) baseado nos padrões de uso delas no Flickr23.
O problema é que tanto a Wikipédia quanto a Wordnet e o Flickr dependem de
esforço humano para atualização, o que pode causar falta de cobertura (localizações sem
informação) ou mesmo escassez de Indicadores.
Já o trabalho de (Borges et al., 2003) por sua vez obtém informações geográficas
a partir de páginas da Web, utilizando pra isso um wrapper com exemplos selecionados,
no entanto, de forma manual. O objetivo é aprimorar um sistema de informação
geográfico urbano através da captura automática de referências indiretas como número
de telefones, ceps e nomes de lugares.
Visando aproveitar o caráter dinâmico e geográfico dos textos jornalísticos, os
quais abrangem uma grande variedade de Indicadores de Localidade e localizações, uma
alternativa pra minimizar a falta de cobertura de Indicadores é utilizar notícias
publicadas na Web como fonte de extração dessas entidades.
(Ferres et al., 2004) utiliza notícias em inglês e aplica técnicas de aprendizado de
máquina semi-supervisionado para obter entidades correferenciadas (ex: Silva, José da
Silva) e também pares de acrônimos (ex: USA, United States of America). (Maynard et
al., 2004) utiliza técnicas parecidas mas foca na recuperação de nomes de pessoas
levando em conta as particularidades apenas dos idiomas Hindu, Chinês e Arábico. Já
(Kozareva et al., 2006) busca recuperar nomes de pessoas e de lugares utilizando

22

http://wordnet.princeton.edu/

23

http://www.flickr.com.br/

© 2009 OpenThesis.org. All Rights Reserved.