Uma Abordagem para o Enriquecimento de Gazetteers a partir de Notícias visando o Georreferenciamento de Textos na Web
61
“Pelotas se despede da Fenadoce. A 16ª edição da Feira Nacional do Doce
(Fenadoce) terminou na noite deste domingo.”
O Peso das Relações Internas (Pi) de “Pelotas” seria:
Fenadoce = 1ª Frase (d=4) � 0.6
Já o peso das Relações Externas (Pe) de “Pelotas” seria:
Fenadoce = com 2ª Frase (d=1) � 0.009
Feira Nacional do Doce = com 2ª Frase (d=1) � 0.009
O Peso Final das Relações com a palavra “Pelotas”, seria, portanto:
Fenadoce = 0.6+0.009 = 0.609
Feira Nacional do Doce = 0.009
A relação e seu peso final são incluídos então no Gazetteer seguindo a estrutura
apresentada na figura 6.
RELACAO_NP
IDR
IDU
CIDADE
INDICADOR
PESO
IDU
URL
URL
Figura 6. Estrutura do Gazetteer para as Relações
O Gazetteer é composto por um conjunto de nomes de cidades, cada uma com
uma lista de Indicadores de Localidade (termos simples ou expressões). Entre a cidade e
o indicador há um peso (o peso global) que representa a importância relativa da relação
para a identificação dessa cidade em textos.
Visando aumentar a qualidade das relações foi necessário realizar algumas
otimizações nas relações identificadas. Primeiramente, foram extraídas aquelas
consideradas muito comuns ou pouco específicas às cidades. Como o peso local das
relações não é por si só muito indicativo, foi necessário também identificar o peso
62
global da relação, ou seja, as relações mais associadas às cidades levando em conta
todas as notícias analisadas.
As relações extraídas compreendem às associadas a outras cidades e estados,
incluindo também NPs muito populares em minúsculo. Estes NPs muito populares em
minúsculo, os quais não representam Indicadores de Localidade, são definidos por (Hu e
Ge, 2007) como stopwords geográficas. Para identificá-los realizou-se uma análise
estatística especial similar a (Amitay et al., 2004) onde se verificou a freqüência em
maiúsculo e minúsculo de todos os NPs do corpus utilizado para a população do
Gazetteer, sendo retirados todos os NPs que possuíam no mínimo três vezes mais
freqüência em minúsculo do que maiúsculo, a qual foi a proporção melhor identificada
(através de análises subjetivas) para a extração exclusiva de NPs não relacionados a
Indicadores de Localidades. O anexo A apresenta uma lista de alguns dos nomes
próprios removidos que apresentaram maior proporção de freqüência em minúsculo a
partir dessa análise.
O peso local considera relações no interior de cada texto apenas considerando a
qualidade das relações de forma isolada. Torna-se necessário, portanto analisar o peso
obtido considerando toda a coleção de documentos, esse tipo de peso, definido como
peso global é calculado conforme ilustra a fórmula (7).
Pg(c,r) =
n
∑
i =1
Pli
z
(c,r)
(7)
Onde,
Pli é o peso local entre c e r, considerando o texto i,
i é o índice dos textos da coleção de treino,
n é o número total de textos na coleção de treino,
z é o número total de cidades c que são relacionadas à r na coleção.
Esta formula busca normalizar o peso da relação (entre a cidade c e o indicador
r) dividindo a soma de seus pesos locais pelo número de cidades que são relacionadas
ao mesmo termo r, considerando que este pode ser relacionado a mais que uma cidade.
63
O objetivo é dar mais importância para termos que são relacionados a poucas cidades,
atribuindo menor peso para termos mais gerais (que são relacionados a muitas cidades),
os quais com a divisão irão receber um peso menor.
Por exemplo, levando em conta o exemplo apresentado anteriormente para o
peso local, se outra notícia possuir a relação Pelotas � Fenadoce com peso local, por
exemplo, de (0.6) e mais nenhuma cidade possuir a relação Cidade � Fenadoce, o peso
global da relação será de (1.209/1=1.209). Essa divisão foi realizada visando à obtenção
de relações mais específicas às cidades, desvalorizando assim relações que possuem
foco mais geral e não conseguem identificá-las precisamente.
Para ilustrar o problema, o anexo B apresenta uma lista destas relações que são
associadas a muitas cidades, as quais foram obtidas a partir dos experimentos
desenvolvidos pelo trabalho. É interessante notar que algumas destas relações
representam nomes de aeroportos do Brasil. Nesse caso, embora estas entidades
apareçam associadas a várias cidades nas notícias, uma análise estatística de notícias
demonstrou que a freqüência é mais alta para as cidades onde os aeroportos estão
localizados, tornando possível, dessa forma, associá-las corretamente (dando maior
relevância) com estas cidades a partir da utilização da abordagem proposta pelo
trabalho.
A avaliação da qualidade da abordagem proposta e consequentemente das
relações identificadas são ilustradas no capítulo seguinte.
Outra necessidade relacionada à identificação de Indicadores envolve a escolha
do tipo de corpora utilizado para a verificação, para auxiliar nessa seleção o capítulo
seguinte apresenta também experimentos utilizando corpora de notícias com
características distintas.
64
4 EXPERIMENTOS
Levando em conta o objetivo do trabalho, o qual se relaciona a sugestão de uma
abordagem para identificação de Indicadores de Localidade a partir de notícias, buscouse
testar a qualidade da abordagem proposta a partir da criação de Gazetteers com os
Indicadores verificados. Os Gazetteers foram então avaliados pela habilidade de
corretamente identificar às cidades relacionadas as notícias do corpus de teste. O
objetivo é verificar com isso se as relações e os pesos estabelecidos são úteis para essa
identificação.
Para melhor precisar a qualidade dessas relações foram testados métodos básicos
tomados como referência para comparação (baseline), os quais não exigiram análises
especiais, compreendendo apenas a organização de uma lista específica de ruas e bairros
do Brasil relacionados às cidades analisadas buscando identificar assim se ruas e bairros
são suficientes para a identificação das cidades nas notícias. Esse resultado foi
considerado então como base para identificação da qualidade do método proposto.
Para a identificação das cidades através dos Gazetteers dois tipos de pesos foram
adotados para qualificar as relações entre cidades e Indicadores de Localidade, os quais
compreenderam a freqüência simples (sem peso especial apenas somando o número de
relações encontradas associadas a cada cidade encontrada) e o peso global (somando o
número de relações encontradas associadas a cada cidade a partir da fórmula do peso
global desenvolvida pelo trabalho).
O objetivo é saber se as análises de co-ocorrência utilizando peso global tendem
a trazer resultados mais precisos do que as de freqüência simples, ou seja, se o peso
global ajuda na identificação única de cidades levando em conta aquelas identificadas
com maior peso.
Para verificar as características envolvendo o tipo de corpora utilizado para
identificação dos Indicadores, diferentes corpora de notícias foram analisados, sendo
criados então Gazetteers específicos a partir dos Indicadores verificados com cada um,
os quais compreenderam:
BASELINE – Apresenta apenas relações referentes a ruas e bairros associadas às
cidades alvo do teste. Foi desenvolvido para testar a utilidade dessas entidades para a
identificação das cidades e consequentemente compará-las com as relações extraídas
65
automaticamente. Para esse corpus não foi considerado peso especial para as relações
(cada uma possuindo o peso padrão de (1)).
(C1) 3000 Old – Compreende a recuperação de relações a partir de um corpus com
3000 notícias do portal Folha Online24 correspondentes a seção “Cotidiano”,
priorizando pra isso notícias antigas (entre os anos de 2001 e 2006).
(C2) 3000 New – Compreende a recuperação de relações a partir de 3000 notícias do
portal Folha Online correspondentes a seção “Cotidiano”, utilizando um corpus com
notícias novas (anos de 2007 e 2008) visando identificar se o caráter temporal das
notícias influencia na qualidade das relações.
(C3) 6000 – O mesmo tipo de análise da anterior só que aumentando o corpus
(utilizando pra isso a união dos dois Gazetteers anteriores), visando identificar se a
quantidade de notícias influencia a qualidade das relações.
(C4) 3000 – Utiliza um corpus com 3000 notícias recentes, também do Portal Folha
Online com a diferença que as relações são recuperadas somente em notícias que
possuem apenas 1 cidade no texto. As relações são apenas aquelas associadas às cidades
incluídas em cada notícia, o objetivo é verificar se as notícias com apenas 1 cidade
trazem relações mais específicas. A identificação das cidades foi realizada através de
análise sintática, a qual levou em conta expressões de contexto populares percebidas nas
notícias, como “cidade de”, “em”, referências a estados (ex: São Paulo (SP), São Paulo-
SP, São Paulo – SP) e análise de expressões na frase da localidade referenciada (ex:
cidade, município) caso não tenha identificado nenhum dos padrões anteriores.
A avaliação da qualidade da abordagem proposta, e consequentemente dos
Gazetteers criados a partir dos Indicadores recuperados, é apresentada na seção
seguinte.
4.1 Avaliação da Abordagem para a Identificação de Indicadores
Primeiramente, para avaliação foi necessário selecionar uma corpora de notícias
úteis para identificar a qualidade da abordagem proposta. Para isso separou-se através
de um módulo específico de análise sintática 1000 notícias do portal Folha Online,
diferentes das utilizadas para a identificação dos Indicadores e relacionadas a 9 cidades
24
http://www.folha.com.br/
66
do Brasil (Campo Grande, São Paulo, Belo Horizonte, Recife, Rio de Janeiro, Fortaleza,
Porto Alegre, Florianópolis, Niterói), ou seja, que possuíam referência a somente uma
dessas cidades no texto.
Após, cada notícia foi manualmente verificada, visando manter somente aquelas
que possuíam pelo menos 1 Indicador de Localidade relacionado a alguma das cidades
avaliadas, essa notícia foi posteriormente anotada então de acordo com essa localidade.
Após essa verificação mantiveram-se 230 notícias para o processo de avaliação.
Posteriormente esse processo foi realizado novamente e um novo corpus com mais 230
notícias foi também avaliado visando assim melhor legitimar os resultados.
Devido às características específicas do corpus para os experimentos e para a
avaliação (ex: notícias com a presença de Indicadores de Localidade e publicadas em
períodos diferentes), este trabalho utiliza corpora de treino e teste manualmente
selecionados ao invés de utilizar corpora já existentes para tarefas envolvendo o
georreferenciamento de textos, como é o caso, por exemplo, dos encontrados no
GeoCLEF (conforme ilustra a seção 2.1.4) ou no HAREM25. O conjunto de notícias
utilizado está, contudo disponíveis para outros autores26.
Para a avaliação o objetivo é testar as relações identificadas nas notícias a partir
da abordagem proposta visando responder com isso as questões levantadas na seção 1.1.
Para isso realizou-se o georreferenciamento de notícias com o apoio dos Gazetteers
criados com esses Indicadores, comparando os resultados com um Gazetteer criado
relacionando apenas ruas e bairros das cidades avaliadas, visando analisar com isso a
viabilidade desses Gazetteers para a identificação da cidade relacionada aos textos.
Busca-se com isso verificar também a variedade de Indicadores recuperados por meio
da comparação com essa lista de ruas e bairros.
O Gazetteer previamente criado com as relações para cada tipo de corpora foi,
portanto limitado a somente relações associadas às 9 cidades alvo da avaliação.
Para cada tipo de teste o procedimento de avaliação compreendeu a identificação
da cidade relacionada a cada uma das 230 notícias a partir das relações associadas às
25
http://www.linguateca.pt/aval_conjunta/HAREM/
26
http://gpsi.ucpel.tche.br/~cleber/mestrado/news_corpora/
67
cidades no Gazetteer para cada tipo de corpora e a posterior comparação da cidade
identificada com a cidade correta anotada manualmente.
Para isso, primeiramente foi necessário identificar os Nomes Próprios nas notícias
avaliadas e comparar eles com os Indicadores armazenados nos Gazetteers criados,
lembrando que é possível que um indicador incluído no Gazetteer seja associado a mais
que uma cidade. Para determinar a probabilidade de cada cidade ser associada à notícia
analisada foi realizado então um raciocínio probabilístico, onde somente a cidade mais
provável foi considerada relacionada à notícia.
O raciocínio probabilístico foi realizado conforme a figura 7.
1: Para cada Cidade c no Gazetteer faça
2: Para cada Termo r associado à Cidade c faça
3: Se r está contido na notícia n então
4: # Armazena o Peso p do Termo r como a Probabilidade da Cidade c ser
Relacionada à Notícia
5: Prob[c,n]= Prob[c,n]+p;
6: Fim_Se
7: Fim_Para
8: Fim_Para
9: Escolha a cidade c com mais peso em Prob[c,n] como a cidade associada à
notícia.
Figura 7. Algoritmo para o Georreferenciamento das Cidades a partir do Gazetteer
Após esse processo ser realizado para cada Gazetteer criado, a etapa final
consiste então em comparar a cidade correta anotada manualmente relacionada à notícia
com a cidade identificada a partir deste raciocínio probabilístico, sendo os resultados
então analisados a partir de métricas específicas, conforme ilustra a seção seguinte.
4.2 Resultados
Para determinar os resultados para cada análise foram utilizadas as métricas
relacionadas à Precisão (fórmula 8), Abrangência (fórmula 9) e F1 (fórmula 10), as
quais para os experimentos testados representam:
Prec =
Número de Cidades Corretamente
Número de Cidades Identificadas
Identificadas
(8)
68
Abr =
Número de Cidades Corretamente
Número Total de Cidades Corretas
Identificadas
(9)
2 ∗ (Prec ∗ Abr)
F1 = (10)
(Prec + Abr)
Como cada uma das 460 notícias anotadas manualmente é relacionada a apenas
uma cidade, o número máximo de cidades corretas é, portanto, igual a 1. Foram
realizadas duas avaliações distintas cada uma com 230 notícias de teste, os resultados
relacionados a cada uma delas são apresentados abaixo.
Como forma de comparar se o número de relações associados às cidades no
Gazetteer influencia na sua identificação, a quantidade de relações recuperadas para
cada tipo de corpora é apresentada na tabela 7. Uma lista dos Indicadores de Localidade
relacionados com mais peso nos Gazetteers construídos a partir da abordagem é
apresentada no anexo C.
No de
Relações
Tabela 7. Número de Relações no Gazetteer para cada Tipo de Corpora
Tipo de Corpora
C1 C2 C3 C4 Baseline
6945 5783 9159 4757 119184
Para melhor identificação, os resultados para todos os corpora utilizados são
apresentados de acordo com o tipo de peso adotado, sendo o peso global e freqüência
simples para ambas as avaliações apresentados respectivamente nas tabelas 9 e 10. Para
comparação, primeiramente são apresentados os resultados médios (considerando as
duas avaliações) relacionados ao método baseline (tabela 8) o qual utilizou a freqüência
simples como padrão, nas demais tabelas é apresentada a diferença desses resultados
para os métodos propostos pelo trabalho (comparando com a métrica F1). Os resultados
médios relacionados ao peso global e a freqüência simples são apresentados nas tabelas
11 e 12. As figuras 7 e 8 representam esses resultados graficamente.
69
Tabela 8. Resultado Médio Baseline (Ruas ∪ Bairros) para as Duas Avaliações
Gazetteer Prec Abr F1
BASELINE 94% 25% 39,5%
Tabela 9. Resultado para cada Gazetteer utilizando Peso Global
Gazetteer Avaliação 1 Avaliação 2
Prec Abr F1 Dif.
Bas.
Prec Abr F1 Dif.
(C1) 3000 old 100% 36% 52,9% +34,0% 100% 53% 69,3% +75,4%
(C2) 3000 new 100% 39% 56,1% +42,0% 100% 51% 67,5% +70,9%
(C3) 6000 100% 40% 57,1% +44,6% 100% 56% 71,8% +81,8%
(C4) 3000 (AS) 99,3% 35% 51,8% +31,1% 100% 41% 58,2% +47,3%
MÉDIA PESO
GLOBAL
99,8% 37,5% 54,5% +37,9% 100% 50,3% 66,7% +68,9%
Tabela 10. Resultado para cada Gazetteer utilizando Freqüência Simples
Bas.
Gazetteer Avaliação 1 Avaliação 2
Prec Abr F1 Dif.
Bas.
Prec Abr F1 Dif.
(C1) 3000 old 87% 37% 51,9% +31,4% 88% 59% 70,6% +78,7%
(C2) 3000 new 91% 38% 53,6% +35,7% 92% 54% 68,1% +72,4%
(C3) 6000 91% 42% 57,5% +45,6% 92% 61% 73,4% +85,8%
(C4) 3000 (AS) 90% 36% 51,4% +30,1% 90% 49% 63,5% +60,8%
MÉDIA F.
SIMPLES
89,8% 38,3% 53,6% +35,7% 90,5% 55,8% 68,9% +74,4%
Tabela 11. Resultado Final Médio para cada Gazetteer utilizando Peso Global
Gazetteer Prec Abr F1
(C1) 3000 old 100% 44,5% 61,6%
(C2) 3000 new 100% 45% 62,1%
(C3) 6000 100% 48% 64,9%
(C4) 3000 (AS) 99,6% 38% 55,0%
MÉDIA PESO GLOBAL 99,9% 43,9% 60,9%
Bas.
70
Tabela 12. Resultado Final Médio para cada Gazetteer utilizando Freqüência Simples
Gazetteer Prec Abr F1
(C1) 3000 old 87,5% 48% 62,0%
(C2) 3000 new 91,5% 46% 61,2%
(C3) 6000 91,5% 51,5% 65,9%
(C4) 3000 (AS) 90% 42,5% 57,7%
MÉDIA F. SIMPLES 90,1% 47,0% 61,7%
100%
90%
80%
70%
60%
50%
40%
Precisão
Abrangência
30%
20%
10%
0%
Baseline (C1) (C2) (C3) (C4)
Figura 8. Resultados Médios Finais relacionados ao Peso Global
100%
90%
80%
70%
60%
50%
40%
Precisão
Abrangência
30%
20%
10%
0%
Baseline (C3) (C2) (C1) (C4)
Figura 9. Resultados Finais Médios relacionados à Frequência Simples