Document Text (Pages 51-60) Back to Document

Uma Abordagem para o Enriquecimento de Gazetteers a partir de Notícias visando o Georreferenciamento de Textos na Web

by Gouvea, Cleber, MS


Page 51

51

expressões de posicionamento (positioning expressions) para sua identificação, testando
os resultados em um corpus de notícias da Espanha. Os autores sugerem a utilização
dessa abordagem para outros idiomas, contudo não identificam a correlação entre os
termos extraídos e os correspondentes topônimos relacionados. (Garbin e Mani, 2005)
utiliza notícias para identificar relações (collocations) entre termos e localidades, não
analisando, no entanto, relações em todo o texto (a janela para a análise é limitada a
uma distância de 20 termos dos topônimos). Já (Smith e Mann, 2003), utiliza
aprendizado de máquina semi-supervisionado (bootstrapping) visando identificar
também collocations úteis para desambiguação das localidades, não considerando, no
entanto o grau de importância ou peso das relações identificadas.
A seção seguinte apresenta um resumo desses trabalhos e dos problemas
relacionados às suas abordagens.

2.3.2 Problemas das Abordagens Atuais para a Identificação de Indicadores de
Localidade
De forma geral, os principais problemas dos trabalhos que buscam de alguma
forma recuperar Indicadores de Localidade compreendem:




A necessidade de seleção e preparação de um corpus de treino, com estratégias
focadas em idiomas particulares.
A análise das relações em janelas com distância limitada entre os termos
(localidades e Indicadores).
O uso de relações sem peso, não considerando a correspondente importância das
relações entre Indicadores e localidades.
Portanto, embora as abordagens busquem recuperar termos que auxiliam na
identificação das localidades, elas apresentam algumas desvantagens principalmente
relacionadas ao tempo para anotação e preparação do corpus de treino, o corpus com
dependência de atualização manual por voluntários (como a Wikipédia) e estratégias
focadas em idiomas particulares.
As estratégias que utilizam notícias acabam por sua vez não levando em conta
todo o potencial dessas informações e os Indicadores de Localidade que podem ser
identificados (ex: praças, viadutos, rodovias, faculdades etc.) não sugerindo também
métodos para identificar a importância do relacionamento dessas entidades com a


Page 52

52

Tabela 6. Principais Trabalhos Abrangendo a Recuperação de Indicadores de

Trabalho Tipo de
Corpora
Localidade
Abordagem

(Overell e Ruger, 2007) Wikipédia Identificação de Termos Sinônimos
às Localidades a partir da Descrição
dos Links Associados às Páginas das
Localidades

(Popescu et al. 2008) Wikipédia Extrai termos relacionados às cidades
a partir da identificação dos nomes
próprios encontrados nas descrições
dos links na página das Localidades
(Buscaldi e Rosso, 2007) Wordnet e Wikipédia Utiliza um algoritmo de

reconhecimento de entidades
mencionadas para extrair Indicadores

às cidades a partir da Wikipédia,
usando a Wordnet para identificar o
tipo da localização (se é estado ou
país) das páginas.
(Rattenbury et al., 2007) Flickr Análise estatística para identificar
tags semanticamente relacionadas a
lugares.
(Borges et al., 2003) Páginas da Web Wrapper pré-treinado manualmente
para identificar termos relacionados
às cidades.

Problemas

Corpus com Baixa
Atualização
Pouca Cobertura de
Indicadores
Não Qualificação dos
Indicadores
Não Qualificação dos
Indicadores
Corpus com Baixa
Atualização
Não Qualificação dos
Indicadores
Corpus com Baixa
Atualização

Não Qualificação dos
Indicadores
Corpus com Baixa
Atualização
Necessidade de
Corpus de Treino
Não qualificação dos
Indicadores
(Smith e Mann, 2003) Notícias Verifica collocations (Indicadores e
localidades) utilizando um algoritmo
de aprendizado de máquina semisupervisionado
(técnica de
bootstrapping)

(Ferres et al., 2004) Notícias Algoritmo de aprendizado de
máquina visando identificar nomes
de entidades correferenciadas (ex:
Smith => John Smith) e pares de
acrônimos (ex: USA => United
States of America)
(Maynard et al., 2004) Notícias Utiliza aprendizado de máquina para
recuperação de nomes de pessoas
focado nas línguas Hindu, Chinesa e
Arábica.

(Garbin e Mani, 2005) Notícias Busca identificar collocations
(Indicadores e localidades) a partir de

um algoritmo de aprendizado de
máquina não-supervisionado treinado

com ajuda de heurísticas.

(Kozareva et al., 2006) Notícias Busca recuperar nomes de pessoas e

lugares utilizando expressões de
posicionamento não identificando sua

relação com os topônimos.

Não Qualificação dos
Indicadores
Necessidade de
Corpus de Treino

Necessidade de
Corpus de Treino
Pouca Cobertura de
Indicadores
Não Qualificação dos
Indicadores
Dependência de
Idioma
Necessidade de
Corpus de Treino
Não Qualificação dos
Indicadores
Não Qualificação dos
Indicadores
(Distância da
Análise Limitada a
Apenas 20 Termos
das Localidades)
Dependência de
Idioma
Não Qualificação dos
Indicadores
Dependência de
Idioma
Pouca Cobertura de
Indicadores


Page 53

53

respectiva localidade. Um resumo dos trabalhos citados anteriormente e os problemas
relacionados à extração de Indicadores é apresentado na tabela 6.

3 ABORDAGEM PROPOSTA PARA A IDENTIFICAÇÃO
DE INDICADORES DE LOCALIDADE

Levando em conta os principais problemas abordados pela seção anterior e
apresentados pelos trabalhos atuais para a identificação de Indicadores de Localidade, o
presente trabalho apresenta as seguintes estratégias e diferenciais para resolução desses
problemas:




Utilização de Notícias para a etapa de treino, isto é, para descobrir Indicadores
de Localidade, sem a necessidade de seleção manual ou anotação de corpora de
treino. O trabalho não discute como capturar as notícias, apenas sugere o uso de
textos jornalísticos sem a necessidade de anotação manual.
Uso de uma larga janela para a verificação das relações entre termos (localidades
e Indicadores), utilizando pra isso nomes próprios e levando em conta todo o
texto analisado (dando mais importância para as relações que ocorrem na mesma
frase, mas considerando também as que ocorrem em frases diferentes). A
utilização de nomes próprios para a identificação de Indicadores torna a
abordagem proposta mais extensível a outros idiomas, bastando para isso que
essas entidades sejam representadas na linguagem alvo.
Uso de uma fórmula de peso específica para determinar a importância das
relações entre localidades e Indicadores.
A abordagem proposta por este trabalho busca considerar, portanto o caráter
geográfico das informações jornalísticas e consequentemente a grande abrangência de
Indicadores de Localidade incluídos nesse tipo de informação, visando com isso
desenvolver um método para a extração e qualificação dinâmica desses Indicadores
levando em conta suas características específicas.
Busca-se com isso utilizar essas entidades identificadas para a construção e
atualização de Gazetteers, auxiliando assim na superação dos principais tipos de
ambigüidades linguísticas associadas à Resolução de Topônimos. É importante notar
que o trabalho considera pra isso o sentido padrão das localidades não abrangendo,
portanto a metonímia envolvida.


Page 54

54

Com a identificação e associação dos Indicadores (ex: sinônimos e outras
entidades) às suas respectivas localidades, torna-se possível inferí-las em textos que não
possuam explicitamente a localidade referenciada em seu conteúdo (auxiliando na
resolução da ambiguidade da referência e de forma mais abrangente na ambiguidade
indireta da referência) e ajudando também na desambiguação de localidades que são
homônimas a outras (auxiliando na resolução da ambiguidade do referente).
O principal desafio é, portanto recuperar automaticamente entidades que
possibilitem a identificação de forma precisa de determinada localidade a partir delas, já
que muitos desses Indicadores podem aparecer associados a mais que uma cidade,
prejudicando assim o georreferenciamento de textos onde estejam presentes.
Para garantir a verificação de Indicadores específicos às localidades, a
abordagem proposta pelo trabalho busca, portanto, analisar a relação entre localidades
(especificamente cidades) e Indicadores em textos jornalísticos e definir métodos
próprios para a qualificação de sua relevância, levando em conta para isso as seguintes
estratégias:
Análise de Co-Ocorrência: Como os Indicadores e as localidades são representados em
grande parte dos idiomas (ex: português, inglês, espanhol) por meio de Nomes Próprios
(NPs) priorizou-se para as análises a verificação da correlação entre eles. Outro
benefício dos NPs é que a partir da sua verificação torna-se possível a identificação de
Indicadores que são representados por meio de nomes compostos, os quais conforme
verificou (Chaves e Santos, 2006) compreendem grande parte dessas entidades (75%
dos termos associados à ontologia geográfica Geo-Net-PT-01), além disso, como
constatou (Dias, 2003) em textos jornalísticos os nomes próprios apresentam grande
dinamismo (considerando tanto siglas como outras entidades) o que garante a
atualização e relevância dos Indicadores de Localidade verificados.
Força Local da Relação: Para a qualificação das relações adotaram-se pesos especiais,
levando em conta a distância dos NPs (relacionados a localidades e Indicadores)
localizados na mesma frase (distância interna) assim como dos NPs localizados em
frases diferentes (distância externa).
Força Global da Relação: Para a qualificação dos Indicadores outro tipo de peso
considerou a força global da relação, ou seja, a soma dos pesos das distâncias locais da
relação levando em conta todos os corpora analisados.


Page 55

55

A análise da força local e global parte do princípio que Indicadores mais
próximos às localidades em determinado texto tendem a ser relacionados a elas. A soma
da distância para o corpus inteiro busca normalizar Indicadores que, embora próximos,
possam não ser necessariamente relacionados às localidades. O objetivo é com isso
garantir que os Indicadores mais relevantes às localidades possuam as relações com
maior peso. Os detalhes sobre estas estratégias e também as fórmulas para a
identificação desses pesos são ilustrados na seção seguinte.

3.1 Estratégia para a Identificação e Qualificação de Indicadores de
Localidade

Visando possibilitar a construção e atualização de Gazetteers com os
Indicadores de Localidade relacionados às cidades, torna-se necessária a adoção de
técnicas específicas visando não somente recuperá-los, mas também determinar de
alguma forma sua relevância e especificidade para determinada cidade.
Para garantir isso, a primeira providência compreende a recuperação de textos
jornalísticos na Web. Para isso, a abordagem sugere a seleção aleatória de notícias em
sites jornalísticos sem nenhum tipo de filtragem e sem indicar um Website ou uma
técnica específica para essa seleção, apenas recomendando o uso de sites que publiquem
notícias com certeza. A sugestão é usar sites conhecidos e de fontes confiáveis. As
técnicas para seleção dos textos não são o foco dessa dissertação.
Na internet a estrutura das informações jornalísticas em diferentes fontes de
notícia segue um formato comum (Scanlan, 2008), geralmente utilizando a técnica
denominada de pirâmide invertida, onde segundo (Canavilhas, 2006) a redação do texto
começa pelos dados mais importantes (respondendo a perguntas como: o quê, quem,
onde, como, quando e por que) seguido de informações complementares organizadas
em blocos decrescentes de interesse. Umas das vantagens disso é que a verificação de
Indicadores de Localidade pode ser realizada independente da fonte utilizada.
O trabalho baseia-se, portanto, no pressuposto que a maioria das notícias possui
algum tipo de indicador geográfico no texto, já que é importante referenciar, para os
leitores potenciais, os fatos jornalísticos de acordo com sua posição geográfica. O
trabalho baseia-se, com isso, na idéia que uma análise estatística de notícias pode ser
utilizada para o enriquecimento de Gazetteers com relações entre localizações


Page 56

56

geográficas (particularmente cidades) e indicadores geográficos (definidos como
Indicadores de localidade), auxiliando assim no georreferenciamento e na recuperação
de notícias de acordo com sua localização.
A abrangência e especificidade das entidades e cidades abrangidas irão depender
do escopo geográfico da audiência que o site deseja alcançar, sendo que fontes com
foco nacional são adequadas para a recuperação de Indicadores relacionados a capitais e
outras cidades grandes. Dessa forma, para cidades pequenas torna-se necessário utilizar
fontes regionais que priorizem notícias dessas localidades.
Para ilustrar as características da abordagem proposta foi desenvolvido, portanto,
um módulo responsável por identificar Indicadores de Localidade a partir de notícias e
qualificá-los de acordo com sua associação com as cidades, visando assim permitir o
enriquecimento de Gazetteers úteis para o georreferenciameto. As principais etapas são
ilustradas na figura 5.

1
Verificação de NPs

2
Normalização Texto e
NPs

3
Separação Frases/NPs

4

Cálculo de
Co-Ocorrência

Figura 5. Etapas da Análise do Peso Local


Page 57

57

A estrutura inicial do Gazetteer que irá ser enriquecido com os Indicadores de
Localidade recuperados é composta por uma lista de nomes de cidades, este é o ponto
inicial do processo de enriquecimento.
As relações entre nomes de cidades e Indicadores de Localidade são
determinadas por um peso (um valor numérico representando a importância ou
probabilidade da relação), o qual é calculado pela distância entre estes termos nos textos
jornalísticos de uma coleção (o corpus de treino). A idéia é calcular o peso da relação
em cada texto da coleção (peso local) e então utilizar toda a coleção para determinar o
peso final (peso global).
Como os Indicadores de Localidade geralmente são representados através de
Nomes Próprios (NPs) a primeira etapa para a análise do peso local compreende em
analisar a notícia e extraí-los.
Uma característica que contribui na verificação é que os NPs geralmente são
representados com letra maiúscula. Dessa forma a verificação baseou-se na recuperação
de palavras em maiúsculo analisando também palavras na seqüência. A união ou
separação das palavras foi decidida a partir da análise da ocorrência de padrões
léxico/sintáticos utilizando pra isso expressões regulares específicas, por exemplo:
EXP1: ^([\"”'\(\)]?[A-ZÁÀÃÂÄÉÊÍÓÔÕÖÚÜÑ]{1})
EXP2 : ([\w-ÁÀÃÂÄÉÊÍÓÔÕÖÚÜÇÑáàãâäéêíóôõöúüçñ]+[,\.\):\"'%;“\?!]{1,2}$)
EXP3 : \b(da|das|de|do|dos)\b
Onde a EXP1 representa a expressão regular para identificação de palavras em
maiúsculo, EXP2 por sua vez é utilizada para separação de termos (ex: quando uma
palavra está em maiúsculo e possui uma vírgula após), já EXP3 representa a expressão
para a identificação de caracteres de união, ou seja, se uma palavra em maiúsculo
estiver seguida por algumas dessas preposições e após a preposição ocorrer outra
palavra em maiúsculo estas serão unidas.
Devido à possibilidade da verificação de NPs recuperar termos que possam
referenciar cidades em conjunto com outras palavras (ex: “Prefeitura de Porto Alegre”)
na etapa 2 os NPs são normalizados visando identificar essas localidades (utilizando pra
isso um Gazetteer contendo uma lista de cidades do Brasil), dessa forma levando em


Page 58

58

conta o exemplo citado, o NP “Porto Alegre” também será adicionado à lista. Para
facilitar sua identificação para a próxima etapa o texto também será atualizado com
referência a localidade identificada, sendo esta incluída logo após o NP onde ela foi
recuperada juntamente com um separador ex: “Prefeitura de Porto Alegre, Porto
Alegre”.
Na etapa 3 todas as frases do texto são separadas mantendo referência somente
aos NPs (sendo cada NP associado à posição de ocorrência na frase). Para a
identificação dos NPs contidos em cada frase é necessário definir uma ordem para sua
verificação visto que um texto pode conter NPs que aparecem separados e incluídos
dentro de outros. Isso é muito comum, por exemplo, na referência a nomes de pessoas
nos textos, sendo que a primeira referência relaciona-se ao nome completo e as demais
somente ao sobrenome. Para identificar ambas as referências, os NPs são primeiramente
ordenados em ordem decrescente de sua quantidade de palavras para então serem
identificados nas frases.
Por fim, na etapa 4 a co-ocorrência entre os NPs relacionados aos nomes de
Cidades e Indicadores de Localidade é analisada, sendo o peso de cada relação definido
visando representar através de um valor numérico a importância ou probabilidade de
cada relação. Para a identificação dos NPs relacionados a cidades foi utilizada uma base
de dados simples contendo as cidades alvo dos experimentos desenvolvidos (seção 4).
Para a análise de co-ocorrência são considerados dois tipos de peso para as
relações, os quais correspondem à análise da distância interna (para os Indicadores que
co-ocorrem na mesma frase das localidades) e externa (para os Indicadores que coocorrem
em frases diferentes). O peso para as relações internas (Ri) e externas (Re)
entre cada cidade e indicador foi calculado através de fórmulas específicas levando em
conta a respectiva distância (d) entre eles.
As fórmulas e os valores pré-definidos da constante d para ambos os pesos, e a
corresponde opção pela escala decimal, foram definidos a partir de análises empíricas
de notícias, onde se analisou, por exemplo, a distância média padrão entre cidades e
Indicadores na mesma frase e em frases diferentes dos textos jornalísticos.
O objetivo é, com isso, dar mais relevância para relações próximas (dentro da
mesma frase), mas considerar também as relações mais distantes (em frases diferentes
do texto), conforme definido em (Gouvêa et al., 2008). Ou seja, se os Indicadores de


Page 59

59

Localidade ocorrerem na mesma frase das cidades, o peso dessa relação será maior do
que se ocorrer em frases diferentes (quanto mais frases de distância, menor será o peso
da relação). Um valor mínimo é utilizado para definir o peso de relações muito
distantes, as quais não influenciam diretamente nos resultados, sendo definidas então
com um valor fixo a partir de uma distância (de palavras e frases) pré-definida. As
fórmulas seguem, portanto, uma escala descendente, utilizando pra isso valores
proporcionais.
Uma frase é um conjunto de termos ordenados separados por dois pontos finais.
As fórmulas (3) e (4) apresentam o cálculo do peso interno Pik (para a frase k) entre a
cidade c e o Indicador de Localidade r.

n m (
10

Pik (c,r) = ∑∑

i=1 j=1 10
d 9

dcirj

)
(3)

Pik (c,r) =

n m

∑ ∑

(
19

dci

i=1 j=1 100
d>9;d18

rj)
(4)

Onde,

dxy é o número de termos entre x e y na frase, sendo que x refere-se à cidade c e y

relaciona-se ao indicador de localidade r,
k é a k-ésima frase no texto, onde os termos aparecem juntos,
i é o índice da i-ésima ocorrência do nome de c na frase,
j é o índice da j-ésima ocorrência do termo r na frase,
n é o número total de ocorrências de c na frase,
m é o número total de ocorrências de r na frase.
Para d > 18, o peso Pi(c,r) tem o valor fixo de 0.01. O peso interno (Pi) deve ser
calculado então para todos os pares de termos (cidades e Indicadores) que aparecem
juntos dentro da frase.
A fórmula (5) por sua vez apresenta o cálculo do peso externo Pet, para as
relações entre determinada cidade c e o Indicador de Localidade r que ocorrem em
diferentes frases do texto t.


Page 60

60

Pet(c,r) = ∑∑

n

m

(
10

dci

i=1 j=1 1000
d9

rj)
(5)

Onde,

dxy é o número de frases entre x e y no texto t, sendo que x refere-se à cidade c e y ao

Indicador de Localidade r.
i é o índice do i-ésima ocorrência do nome de c no texto t
j é o índice da j-ésima ocorrência do termo r no texto t,
n é o número total de ocorrências de c no texto t,
m é o número total de ocorrências de r no texto t,
t é o texto no qual o peso externo está sendo calculado.
Para d > 9, o peso Pe(c,r) tem o valor fixo de 0.001. O peso externo (Pe) deve
ser calculado para todos os pares de termos (nomes de cidades e Indicadores de
Localidade) que aparecem no texto em frases diferentes.
O peso local (Pl) da relação entre c e r é calculado então por meio da soma entre
o peso interno (Pi) e externo (Pe), para cada texto (um de cada vez), como expõe a
fórmula (6). O peso local é calculado para a relação entre c e r em cada texto, devendo
considerar a soma de todos os pesos internos (Pi) dessa relação, lembrando que o peso
interno é calculado para cada frase.

n

⎡ ⎤
Plt (c,r) = = Pikt (c,r)+ Pet (c,r)
k 1 (6)

Onde,
Plt (c,r) é o peso local entre c e r para o t-ésimo texto na coleção,
t é o índice para todos os textos na coleção,
k é o índice de todas as frases no texto t onde c e r aparecem juntos,
n é o número total de frases dentro do texto t onde c e r aparecem juntos,
Pik(c,r) é o peso interno entre c e r para cada frase k no texto t,
Pe (c,r) é o peso externo entre c e r para o texto t.
Por exemplo, dado o seguinte texto:

© 2009 OpenThesis.org. All Rights Reserved.