Uma Abordagem para o Enriquecimento de Gazetteers a partir de Notícias visando o Georreferenciamento de Textos na Web
31
ambigüidade identificado e definido por este trabalho (seção 2.2.2) bem como com as
principais estratégias e arquiteturas já utilizadas para a desambiguação de topônimos
como um todo (seções 2.2.3, 2.2.4 e 2.2.5). O objetivo é ilustrar as particularidades do
georreferenciamento de textos baseado em topônimos e indiretamente demonstrar as
necessidades envolvidas para a atualização dinâmica de Gazetteers com as referências
ou mais especificamente com os Indicadores de Localidade relacionados.
2.2.1 Características dos Topônimos
Nomes de lugares, como cidades ou mesmo países exibem suas próprias
idiossincrasias, merecendo com isso tratamentos especiais (Leidner, 2007). Para
entender como realizar a Resolução de Topônimos em textos é necessário inicialmente
compreender como estes podem ser referenciados nos textos e quais tipos de
ambigüidades podem estar relacionados.
De acordo com (Garbin e Mani, 2005) um topônimo é o nome de uma entidade
geográfica na superfície da Terra que pode ser representada por alguma especificação
geométrica em um SIG, por exemplo, como um ponto, linha ou polígono.
Como ilustrado na seção 2.1 há muitas diferenças entre a visão espacial
(geográfica) da RIG e o jeito que um lugar é descrito em uma linguagem natural. O tipo
de ambigüidade a ser solucionado vai depender, portanto do nível de
georreferenciamento utilizado.
Com relação a isso um desafio é capturar os limites de expressões vagas
(vernaculares), as quais se relacionam a lugares imprecisos onde a extensão espacial
reflete uma percepção comum (Twaroch et al., 2008) não correspondendo a uma
terminologia oficial e administrativa de um lugar (Jones et al., 2007), por ex “Sul do Rio
Grande do Sul”, “Centro de Pelotas” ou “próximo a Rio Grande”. Contudo, em geral os
trabalhos buscam realizar a resolução de topônimos considerando seu aspecto
lingüístico e a extensão espacial padrão relacionada, não compreendendo assim esse
nível de refinamento para o georreferenciamento.
Do ponto de vista linguístico, portanto as principais dificuldades relacionam-se a
inferência correta das localidades referenciadas nos textos, visando com isso à
superação das seguintes ambigüidades (Clough et al., 2004), as quais são
exemplificadas na tabela 2:
32
Ambigüidade da Referência (ARC - Reference Ambiguity) – quando determinada
localidade pode ser referenciada por vários nomes diferentes (ex: devido a outros nomes
históricos e transliterações).
Ambigüidade do Referente (ART - Referent Ambiguity) – quando o nome pode ser
usado para referenciar outras localidades (ex: cidade com o mesmo nome de outra).
Ambigüidade da Classe do Referente (ACR - Referent Class Ambiguity) – quando o
nome pode ser usado para referenciar outros tipos de entidades (ex: nome de pessoas,
nomes de empresas).
Geo/Geo
Geo/Não
Geo
Tabela 2. Tipos de Ambigüidade para a Resolução de Topônimos
ARC
ART
ACR
Localização
Pelotas, RS
Rio de Janeiro, RJ
Bom Jesus, RS
Belém, PA
Pelotas, RS
Serra, ES
Ambiguidade
Princesa do Sul
Rio
Bom Jesus, RN
Belém, PB
Rua Pelotas
Serra (Governador de São
Paulo)
(Amitay et al., 2004) divide essas ambigüidades em Geo/Geo (compreendendo a
ARC e a ART) e Geo/Não Geo (compreendendo a ACR).
Outro problema é que um nome de lugar pode estar sendo utilizado no texto
como metonímico de outro, ou seja, uma localidade ser referenciada a outra entidade
que é relacionada a ela (Leveling e Hartrumpf, 2006b). Exemplos: 1) “Rio Grande
prepara-se para a construção do dique seco”, 2) “Pelotas assinou ontem lei para a
educação” nesses casos o topônimo não é referenciado no texto com o aspecto
geográfico propriamente, mas sim se relaciona a pessoas localizadas na cidade (no caso
1 à população em geral e no caso 2 especificamente ao prefeito).
Como para o presente trabalho busca-se considerar o sentido padrão das
localidades (não levando a metonímia envolvida) o decorrer desse e dos demais
capítulos buscam abranger os principais desafios relacionados à superação dos tipos de
ambigüidades padrão relacionadas à Resolução de Topônimos (conforme a tabela 2).
33
Alguns trabalhos têm proporcionado a mensuração dessas ambigüidades. (Smith
e Mann, 2003) quantificou o tipo e o grau de ambigüidade dos topônimos examinando a
ontologia geográfica TGN, conforme ilustra a tabela 3.
Tabela 3. Ambigüidade presente na TGN por (Smith e Mann, 2003)
Continente % Lugares com Múltiplos % Nomes com Múltiplos
Nomes (Sinônimos) Lugares (Homônimos)
América do Norte e 11.5 57.1
Central
Oceania 6.9 29.2
América do Sul 11.6 25.0
Ásia 32.7 20.3
África 27.0 18.2
Europa 18.2 16.6
Já (Chaves e Santos, 2006) verificou, a partir da análise de um corpus de
exemplo da coleção WPT 0314 na ontologia geográfica Geo-Net-PT-01, que 75% das
entidades geográficas possuíam mais que uma palavra, sendo que 31.21% das entidades
representavam pessoas e 23.43% organizações. Outra análise compreendeu o tipo de
EM apresentada, com relação a isso as mais freqüentes entidades geográficas
compreendiam cidades ou vilas, seguidas pelo nome de países.
Com relação a essas análises algumas técnicas podem ser úteis para medir a
entropia (no caso o nível de ambigüidade entre topônimos) automaticamente para uma
determinada coleção, auxiliando assim no processo de desambiguação. Algumas das
principais são utilizadas por (Overell e Ruger, 2007) e compreendem a KL Divergência
(Raghavan et al., 2004) e a Informação Mútua (Mutual Information (MI)) (Cover e
Thomas, 1991), as quais buscam medir o nível de informações compartilhadas por
determinadas coleções.
Outro tipo de ambigüidade particularmente identificada e atendida pelo presente
trabalho, sendo definida como Ambigüidade Indireta da Referência é mais bem
ilustrada a seguir.
2.2.2 Ambigüidade Indireta da Referência
A partir do desenvolvimento do trabalho e do estudo realizado em textos
14
http://linguateca.di.fc.ul.pt/qWPT03/
34
jornalísticos pôde-se identificar um novo tipo de ambigüidade, a qual se relaciona aos
textos que não possuem nomes de localidades explicitamente em seu conteúdo, embora
possuam entidades que de forma indireta possibilitam a inferência das localidades.
Esse tipo de ambigüidade, definida aqui como ambigüidade indireta da
referência pode ser mais bem entendida a partir da identificação dos tipos de
localizações possíveis de serem inferidas por meio de determinado Web-site, as quais de
acordo com (Wang et al., 2005) podem ser as seguintes:
� Localização do Provedor do Conteúdo: A localização geográfica atual relacionada
à empresa dona do Web-site.
� Localização do Conteúdo: A localização representada através do conteúdo do Website.
� Localização do Serviço: O escopo geográfico da audiência que o site deseja
alcançar.
Exemplificando, no caso do Web Site do jornal Folha de São Paulo15 a
localização do Provedor, ou seja, a localização física da empresa está localizada em São
Paulo, a do Conteúdo pode ser identificada analisando as localidades referenciadas no
texto de cada notícia e a do Serviço pode ser considerado o Brasil como um todo, mas
com foco específico nos estados do Rio de Janeiro e de São Paulo (o site busca
direcionar notícias de interesse do Brasil inteiro, mas tem atenção especial para notícias
desses estados).
Dessa forma, como o escopo geográfico da audiência relaciona-se a
cidades/estados específicos, as localidades referenciadas no conteúdo dos textos não
necessitam serem apresentadas explicitamente, bastando pra isso a notícia possuir
referência a determinadas entidades que são associadas a essas regiões. (Leveling et. al.,
2007) constatou a importância desse tipo de entidade no auxílio à identificação do
contexto geográfico dos textos, conceituando-os como Indicadores de Localidade
(Location Indicators) e definindo seus tipos, os quais podem ser:
Adjetivos e Sinônimos = Rio de Janeiro => Cidade Maravilhosa, Rio de Janeiro => Rio.
Gentílico = Rio de Janeiro => Carioca.
15
http://www.folha.com.br/
35
Códigos para Localidades = Brasília => BSB (Sigla Aeroportuária).
Abreviações e Acrônimos = S. Paulo => São Paulo, POA => Porto Alegre.
Variações Ortográficas de Idioma = São Paulo => San Pablo (Spanish).
Outras Entidades Associadas à Localidade = Praças, Ruas, Aeroportos, Autoridades
(Prefeito), Viadutos, Rodovias.
Os Indicadores de Localidade incluem Entidades Não-Geográficas, as quais
geralmente possuem caráter temporário, sendo relacionadas a uma situação ou
acontecimento específico. Por exemplo, nomes de pessoas relacionadas ou naturais de
determinada cidade que são alvo de notícias (estando envolvidas, por exemplo, em
acontecimentos ou outras situações as quais tem relação direta com uma cidade
específica).
Com isso, a efetividade do georreferenciamento depende da abrangência das
entidades que podem ser reconhecidas nos textos. A utilização de dicionários
toponímicos (Gazetteers) para a resolução desse tipo de ambigüidade demanda, portanto
a correta representação dos Indicadores de Localidade e sua associação com as
localidades identificadas por eles. Naturalmente a existência dessas estruturas e a
abrangência de Indicadores tornam-se potencialmente úteis também para a
desambiguação de outros tipos de ambiguidades, particularmente as ambiguidades da
referência e do referente.
Para melhor compreender o processo de resolução de topônimos, a seção
seguinte apresenta as principais estratégias utilizadas para a desambiguação dos vários
tipos de ambigüidade já apresentados.
2.2.3 Estratégias para Resolução de Topônimos
A RT abrange duas etapas principais (identificação e desambiguação).
Primeiramente as referências geográficas devem ser identificadas (superando assim a
ACR) de acordo com o tipo, por exemplo, cidade ou país, para posteriormente serem
desambiguadas, ou seja, descritas com uma extensão espacial única (superando a ART e
a ARC), podendo então ser associadas a sua localização geográfica em um Gazetteer.
Para ser completa a desambiguação deve abranger também, conforme definido por este
trabalho, a ambigüidade indireta da referência, ou seja, ser capaz também de identificar
e desambiguar textos que não possuem localidades explicitamente, mas contenham
36
algum tipo de Indicador de Localidade. Esta informação pode com isso ser utilizada em
outras tarefas, tais como a indexação e recuperação de documentos de acordo com os
seus âmbitos geográficos (Jones et al., 2004 apud Martins et al., 2006a).
Para cada uma dessas etapas são necessárias técnicas específicas. A primeira
etapa (identificação) está principalmente relacionada ao Reconhecimento de Entidades
Mencionadas (REM) do inglês Named Entity Recognition (Leidner, 2007), a qual
segundo (Clough et al., 2004) representa o processo de assinalar a cada palavra ou
grupo de palavras uma determinada categoria pré-definida. Para a RT a classificação
limita-se consequentemente à categoria “Localização”. Ao se lidar com referências
geográficas o foco é a utilização dessas entidades em outras tarefas de recuperação da
informação, tendo as referências obrigatoriamente que ser associadas a uma
representação única para o conceito geográfico subjacente (Martins et al., 2006a).
Para a segunda etapa (desambiguação) utilizam-se técnicas principalmente
inspiradas na WSD. De acordo com (Ide e Véronis, 1998) a Desambiguação Lexical de
Sentido (Word Sense Disambiguation ou WSD) tem sido almejada desde o início do
tratamento de linguagem em computadores nos anos 50 (1950), sendo que desde então
os trabalhos buscam considerar tanto ambigüidades relacionadas à polissemia quanto a
de homonímia (Specia e Nunes, 2004). Com isso a WSD consiste de forma geral na
classificação de uma palavra ambígua a partir da avaliação do sentido dos candidatos
(verificando por ex. os diferentes significados) de acordo com um contexto particular,
por ex: “Banco de areia” ou “Banco do Brasil”.
Portanto, devido a seus objetivos similares, os trabalhos relacionados à
desambiguação de topônimos têm utilizado com sucesso várias das técnicas e
heurísticas relacionadas à WSD. Embora similares, a desambiguação de topônimos
apresenta desafios próprios. De acordo com (Li et al., 2003) através da WSD é possível
identificar o topônimo como localidade, mas nem sempre é possível inferir o sentido
correto relacionado a ele. Por exemplo, na frase: “A Casa Branca é localizada em
Washington”, a expressão “localizada em” pode somente determinar que “Washington”
é um nome de lugar, mas não conseguiria decidir o atual sentido da localização (se é o
estado ou a cidade), nesse caso torna-se necessário realizar outros tipos de
processamento. Uma das estratégias é analisar termos que co-ocorrem no texto e são
37
relacionados a determinado estado, já que não é comum um mesmo estado possuir duas
cidades com o mesmo nome.
Texto
1
Atomização Seleção dos Topônimos Alvo
(Com Ajuda de Gazetteers ou Padrões Léxico/Sintáticos (Ex: Nomes Próprios))
2 Desambiguação
ACR
Desambiguação através de REM
(Evidências Externas)
Possui
ART?
Sim
3
Desambiguação ART
REM (Evidências Internas)
Co-Ocorrência de Cidades
Heurísticas
Não
Existe no
Gazetter
?
Sim
Não
4
Verificação por Topônimos
Similares
(Já Desambiguados ou Não)
Consulta por
Topônimos Similares
Lista de Topônimos
Desambiguados
Figura 3. Procedimento Padrão para a Resolução de Topônimos
A partir da análise de trabalhos envolvendo à RT, o presente trabalho organiza e
resume o seu procedimento padrão, conforme ilustra a figura 3. Na primeira etapa o
texto é atomizado (as strings são separadas) e normalizado (são retirados caracteres
inúteis para análise como stopwords, sinais de pontuação, etc.), visando recuperar os
possíveis topônimos alvo da análise. Para isso basicamente são utilizadas duas
38
abordagens: a recuperação dos topônimos alvo através de um Gazetteer ou o
reconhecimento por meio de análise léxico/sintática (ex: todas as palavras em
maiúsculo, Nomes Próprios, etc.).
Na etapa 2 as strings recuperadas são comparadas com padrões e regras
sintáticas visando separar as que se relacionam às localizações (desambiguação da
classe do referente). Após na etapa 3 é necessário verificar se alguma localidade é
homônima de outra (superando a ambigüidade do referente), para isso utiliza-se
heurísticas (ex: considerar como sentido padrão a cidade com maior número de
habitantes) e técnicas de REM.
Um procedimento também bastante importante é a verificação de similaridade
(etapa 4), no caso da localidade não estar referenciada no Gazetteer, podendo esta ser
realizada nos topônimos já desambiguados ou para todos os topônimos existentes no
Gazetteer. A desambiguação relacionada à ambigüidade da referência está implícita nas
etapas 1 e 3 (no caso da utilização de Gazetteers para a identificação dos topônimos
alvo) e na etapa 4 (na representação geográfica final do topônimo desambiguado) visto
que a desambiguação é realizada através de uma lista de alguns termos sinônimos
(incluindo por ex: abreviaturas) relacionados aos topônimos. A ambigüidade indireta da
referência pode ser vista por sua vez como um complemento à ambigüidade da
referência com a diferença que para sua resolução o Gazetteer deveria abranger outros
tipos de entidades (Indicadores de Localidade) conforme descreve a seção anterior.
Para a representação dos topônimos desambiguados as duas principais
estratégias relacionam-se a utilização de coordenadas geográficas (ex. latitude e
longitude) e estruturas hierárquicas administrativas (ex: Brasil/Rio Grande do
Sul/Pelotas) (Hu e Ge, 2007).
É interessante notar que os trabalhos relacionados à RT geralmente apresentam
estratégias com foco em ambiguidades específicas, não abrangendo com isso todas as
ambiguidades citadas.
De forma geral essas estratégias são agrupadas dentro das seguintes categorias,
podendo, no entanto compartilhar ambas (Clough et al., 2004; Overell e Ruger, 2007 e
(Hu e Ge, 2007):
39
Baseada em Regras (Rule-Based) – baseiam-se em regras e heurísticas definidas
manualmente (knowledge-based) visando reconhecer e desambiguar as entidades
geográficas. Pode utilizar dois tipos de evidências (conforme exemplifica a tabela 4):
“internas” as quais se baseiam no próprio nome da localidade (ex: verificar diretamente
no texto todos os nomes de cidades, ou padrões relacionados a letras maiúsculas e/ou
siglas de estados) e as “externas” as quais buscam identificar expressões relacionadas ao
contexto no qual a localidade aparece (ex: expressões de contexto como na cidade de,
na localidade de, etc.) (McDonald,1996). A tabela 5 apresenta uma relação de
expressões de contexto utilizadas por (Martins et al., 2006a).
Tabela 4. Tipos de Evidências para a Desambiguação de Topônimos (Exemplos)
Internas
(Pelo Próprio Nome
incluindo ou não
separadores)
(1ª Palavra de Alguma Frase) NOME CIDADE
Ex: Pelotas a cidade do doce.
PAL. MAIÚSCULO +{/,-}+Sigla de Algum Estado
Ex: Pelotas/RS ou Pelotas-RS
Externas
(Por Expressões de
Contexto relacionadas ao
Topônimo)
{em,de,na cidade de,no município de}+PAL.MAIÚSCULO
Ex: na cidade de Pelotas
{região metropolitana de}+PAL.MAIÚSCULO
Ex: região metropolitana de Porto Alegre
Tabela 5. Expressões de Contexto em Português (Martins et al., 2006a)
Tipo de Expressão
Identificadores de Contexto
Localização
Distância Relativa
Orientação
Outras Expressões
Expressão
cidade, município, distrito, rua, avenida, rio, ilha,
montanha, vale, país, continente, zona, região, condado,
freguesia, deserto, província, povoado, aldeia, monte,
vila, república, península
fora de, nos arredores de, dentro de, entre, em, acima, ao
longo, atrás, acima, ao lado, à esquerda, à direita
adjacente, longe de, perto de, próximo de
leste, norte, sul, oeste, oriente, ocidente, sudeste,
sudoeste, nordeste, noroeste
“cidades como”, “e outras cidades”, “cidades incluindo”,
“cidades especialmente”, “uma das cidades”, “cidades
tais como”
O conjunto de regras é armazenado em um Gazetteer. Um problema da
abordagem baseada em regras é que as regras são fixas e manualmente incluídas, o que
40
pode ser útil apenas para domínios específicos (Clough et al., 2004). Para uma maior
abrangência outra estratégia relaciona-se a utilização de técnicas de análise estatística
(ex: Aprendizado de Máquina) visando capturar automaticamente palavras e expressões
que auxiliem na identificação e desambiguação das localidades, essa abordagem
denominada de Guiada pelos Dados (Data-Driven) é ilustrada a seguir.
Outra estratégia também bastante comum envolvendo a abordagem Baseada em
Regras compreende a inferência de heurísticas para a identificação e desambiguação das
localidades (Amitay et al., 2004 e Overell e Ruger, 2007). Uma revisão das heurísticas
utilizadas é apresentada na seção 2.2.4.
Guiada pelos Dados (Data-Driven) – aplica Análises Estatísticas e métodos de
Aprendizado de Máquina (Machine Learning), onde um corpus de treino deve ter seus
topônimos reconhecidos e desambiguados visando à identificação de regras e
classificadores úteis para a desambiguação de topônimos vistos ou não durante o treino.
Dependendo do esforço para a seleção do corpus de treino as técnicas podem ser
divididas respectivamente em Supervisionada, Semi-Supervisionada e Não-
Supervisionada, sendo que nessa última a seleção do corpus de treino é feita de forma
automática não dependendo de anotação do corpus de treino.
Contudo, os esforços e custos requeridos para construir um corpus com
qualidade e ampla cobertura para o corpus de treino podem ser muito significativos
(Leidner, 2004 apud Hu e Ge, 2007). Uma solução parcial é utilizar métodos como os
de bootstrapping, os quais podem usar corpora de treino reduzidos, combinando uma
pequena quantidade de dados pré-classificados (com múltiplos exemplos de cada
ambigüidade) com uma grande quantidade de dados não-classificados (Riloff e Jones,
1999 apud Clough et al., 2004).
A utilização da abordagem Guiada pelos Dados passa, portanto pelo tipo de
domínio e esforço pretendidos. Embora úteis para domínios específicos a abordagem
baseada em regras pode exigir muito tempo para a reunião dessas, para diferentes
domínios a utilização de técnicas estatísticas apresenta-se com mais portabilidade e
pouca intervenção manual (Clough et al., 2004).
Outro tipo de análise estatística envolve a verificação de termos que co-ocorrem
no texto. Duas verificações comuns principalmente para identificação de sinônimos
referem-se à análise de co-ocorrência e de collocations. De acordo com (Manning e