Uma Abordagem para o Enriquecimento de Gazetteers a partir de Notícias visando o Georreferenciamento de Textos na Web
71
4.3 Discussão
A partir da realização dos experimentos e da análise dos resultados é possível
identificar a viabilidade e os desafios relacionados ao georreferenciamento de textos
(particularmente a identificação de cidades) utilizando para isso os Gazetteers
construídos e consequentemente os Indicadores de Localidade recuperados por meio da
abordagem proposta. Esta seção apresenta e discute os principais resultados
encontrados, buscando responder assim as questões levantadas na seção 1.1.
Com relação à variedade de Indicadores recuperados, uma análise da interseção
de ruas e bairros com as 100 entidades recuperadas automaticamente que possuíam mais
peso para cada cidade encontrou em média apenas 19 entidades iguais, retornando como
complemento variados tipos de Indicadores relacionadas às cidades, dentre eles: nomes
de pessoas alvos freqüentes de determinada notícia (ex: nome do prefeito e outras
autoridades), nomes de hospitais, delegacias, museus, universidades, rodovias, parques,
fundações etc. Demonstra-se, dessa forma, a utilidade dos métodos para a recuperação
de Indicadores de Localidade com variedade além de ruas e bairros. O anexo C ajuda a
ilustrar isso, apresentando uma lista dos Indicadores de Localidade relacionados com
mais peso nos Gazetteers construídos pela abordagem.
Levando em conta os experimentos realizados envolvendo a identificação da
cidade relacionada às notícias a partir dos Gazetteers criados automaticamente, pôde-se
constatar a partir dos resultados médios encontrados (considerando ambas as avaliações
realizadas) o seguinte: comparando os resultados utilizando os Gazetteers criados a
partir da Análise de Co-Ocorrência com o Gazetteer Baseline pôde-se verificar que as
técnicas para recuperação de Indicadores e as fórmulas para qualificar sua relação com
as cidades (Peso Global e as demais otimizações) possibilitam a identificação da
localidade com mais precisão e abrangência (ganhos respectivamente de 6% e 75%
sobre a utilização de ruas e bairros).
Já com relação aos experimentos que buscaram identificar o tipo de corpora
mais adequado para a recuperação de Indicadores de Localidade a partir da abordagem
proposta (utilizando peso global), pôde-se verificar o seguinte: o período temporal das
notícias demonstrou não influenciar significativamente na qualidade dos resultados, os
corpus C1 e C2, embora de períodos diferentes, apresentaram precisão e abrangência
semelhantes, com pequena vantagem para o Gazetteer com notícias mais recentes
72
(levando em conta a medida de abrangência). Embora resultados sugiram que as
notícias mais recentes são melhores para a recuperação de Indicadores de Localidade
relevantes, essa pequena diferença demonstra, no entanto que a recuperação não precisa
ser realizada frequentemente (pode ser realizada apenas 1 vez por ano) já que o
Gazetteer criado com notícias antigas (1 ano ou mais) apresentou performance
relativamente parecida.
Com relação ao volume de notícias analisados e consequentemente ao número
de relações obtidas, comparando os Gazetteers criados com diferentes quantidades (C3
vs C1 e C2), pode-se notar que o Gazetteer que utilizou maior quantidade de notícias
(C3) obteve resultados ligeiramente superiores (5%) comparando com a média dos
resultados encontrados por (C1 e C2) utilizando o peso global. Demonstra-se com isso
que o tamanho do corpus utilizado é importante para a recuperação de Indicadores
relevantes. Análises futuras poderão ser realizadas, contudo para identificar qual o
tamanho de notícias suficiente para essa inferência.
Por sua vez, considerando o Gazetteer (C4), o qual fez uso de análise sintática
para garantir a verificação de Indicadores de Localidade apenas em notícias com
somente uma cidade no texto, pode-se notar que este tipo de análise não trouxe ganhos
na performance (considerando tanto precisão como abrangência), apresentando o
Gazetteer com o menor número de relações (desconsiderando o Gazetteer baseline). A
idéia era obter ganhos relacionados à abrangência, contudo uma explicação provável
para a baixa performance é que a quantidade de relações possivelmente influenciou nos
resultados. De qualquer forma, como através de análise sintática torna-se possível
garantir que apenas relações associadas a cidades sejam recuperadas, evitando assim a
recuperação de Indicadores relacionados a estados com o mesmo nome de cidades (ex:
Rio de Janeiro pode ter o sentido de cidade ou estado) espera-se que um aumento na
quantidade de notícias analisadas garanta a melhoria desses resultados.
Os tipos de peso testados para qualificar os Indicadores de Localidade
apresentaram resultados parecidos para a identificação das cidades com relação à média
da precisão e abrangência para cada tipo de corpora. A diferença principal para os pesos
relacionou-se a precisão, tendo as cidades encontradas com mais peso (utilizando o peso
global) apresentado precisão 11% superior aos da freqüência simples. É interessante
notar que as cidades encontradas corretamente apresentavam o maior peso na maioria
73
das vezes, ilustrando assim a importância da abordagem proposta e consequentemente
da fórmula de peso estabelecida.
Considerando tudo isso, pode-se dizer que a utilidade dos métodos propostos
depende da necessidade e especificidade dos resultados esperados. Com relação à
abrangência ambos os tipos de peso apresentaram resultados semelhantes (com a
freqüência simples apresentando ganhos médios de 7% para o peso global) e
performance bem superiores aos métodos baseline, ilustrando assim o potencial da
abordagem no auxílio aos processos de georreferenciamento, mais especificamente na
identificação dos topônimos (no caso cidades) relacionados aos textos. Para resultados
mais precisos os testes com peso global mostram-se particularmente úteis, podendo ser
otimizados como se espera a partir do aperfeiçoamento das análises de co-ocorrência
(ex: utilizando Análise Sintática para identificação das cidades, realizando a análise de
similaridade entre NPs, etc.).
O principal desafio do ponto de vista da Resolução de Topônimos é, portanto
obter resultados abrangentes e precisos, ou seja, garantir que somente as cidades
realmente relacionadas aos textos sejam identificadas. A utilidade da abordagem
proposta para identificação e qualificação de Indicadores de Localidade e
consequentemente para a identificação das cidades nos textos pôde então ser constatada,
podendo ser cada vez mais aperfeiçoada tendo como base as análises desenvolvidas e os
trabalhos futuros sugeridos.
74
5 CONCLUSÃO
O presente trabalho trouxe como principal constatação a percepção do caráter
geográfico das informações jornalísticas e consequentemente da grande variedade de
Indicadores de Localidade presentes em seu conteúdo. Aproveitou-se então essa
percepção para a sugestão de uma abordagem simples e extensível visando à
recuperação abrangente dessas entidades viabilizando assim o desenvolvimento de
Gazetteers com informações detalhadas e atualizadas sobre as localidades.
A partir dos experimentos realizados pôde-se perceber então que os Gazetteers
criados a partir dos Indicadores de Localidade identificados podem aprimorar o
processo de georreferenciamento (no caso desse trabalho à identificação das cidades),
ajudando a superar assim ambiguidades importantes relacionadas à Resolução de
Topônimos, as quais compreendem: a ambiguidade do referente (para cidades com o
nome homônimo a outras), a ambiguidade da referência (para cidades que possuem
nomes sinônimos), assim como para a superação como foi definido pelo trabalho, da
ambiguidade indireta da referência (a qual se relaciona a textos que possuem apenas
Indicadores de Localidade no conteúdo não possuíndo o nome de uma localidade
explicitamente).
A abordagem proposta pelo trabalho pode ser utilizada consequentemente para a
criação e atualização automática de Gazetteers, podendo abranger um grande número de
localidades e possibilitando manter informações detalhadas sobre elas com esforço
reduzido. Isso se torna possível devido ao fato das notícias possuírem uma grande
variedade de Indicadores de Localidade, sendo mais acessíveis que bases de dados
disponíveis que buscam armazenar e distribuir essas informações (ex: bases de ruas e
bairros relacionadas às cidades), as quais são difíceis de ser encontradas, podendo
inclusive não ser gratuitas. Outro problema é que essas bases, mesmo disponíveis,
podem não suportar o caráter dinâmico dos Indicadores de Localidade, não
disponibilizando assim informações atualizadas sobre estas entidades.
Contudo, é interessante lembrar que para viabilizar a identificação de
Indicadores de Localidade a partir de notícias, as fontes analisadas devem abranger as
cidades alvo da verificação. Devido à grande quantidade de sites jornalísticos na Web
abrangendo cidades de variados tamanhos e compartilhando técnicas de redação
jornalística semelhantes, esse problema pode ser com isso solucionado e mesmo cidades
75
pequenas podem ter seus Indicadores verificados pela abordagem sugerida,
possibilitando consequentemente ter Gazetteers construídos cobrindo essas
informações. Para garantir a confiabilidade dos Indicadores verificados a sugestão é
capturar notícias de fontes bem conhecidas e com credibilidade, o trabalho, contudo não
sugere técnicas específicas para captura de notícias, apenas indica a recuperação de
informações em sites que publicam notícias com certeza.
Embora os experimentos tenham sido realizados utilizando notícias em
português, outras linguagens podem ser usadas bastando pra isso que seja possível
recuperar nomes próprios e que estes sejam utilizados para representar os Indicadores de
Localidade na linguagem analisada. Para questões de otimização das relações outra
necessidade é a existência de uma base de dados com o nome das cidades alvo da
verificação. O restante da abordagem, incluindo as fórmulas mantém-se igual
independente de idioma.
O trabalho analisou também o tipo de corpora de notícia mais adequado para a
inferência dos Indicadores de Localidade e consequentemente para a construção
automática de Gazetteers. A conclusão é que é importante manter Gazetteers
atualizados ao longo do tempo, utilizando para isso notícias publicadas recentemente
visando assim atualizar os Indicadores de Localidade e seus correspondentes pesos.
Contudo, embora importante, essa atualização pode ser realizada apenas uma vez por
ano, demandando menos esforço e custo para a manutenção dos Gazetteers. O volume
de notícias demonstrou também influenciar na qualidade dos Gazetteers criados,
ilustrando com isso que a performance da abordagem proposta cresce na medida em que
se aumenta o número de notícias analisado. Para garantir que apenas relações
associadas a cidades sejam recuperadas, a estratégia envolvendo a verificação de
notícias com apenas uma cidade no texto pode ser aperfeiçoada, visando assim obter
relações mais específicas.
Com relação à qualificação dos Indicadores, a partir da fórmula de peso
desenvolvida pôde-se obter resultados com maior precisão que a não utilização de pesos
especiais para as relações, demonstrando com isso a viabilidade da fórmula de peso
proposta para a identificação das cidades nos textos.
Para complementar o presente trabalho alguns trabalhos futuros são sugeridos,
conforme ilustra a próxima seção.
76
5.1 Trabalhos Futuros
Com relação a abordagem proposta, embora esta demonstra-se viável para a
identificação de Indicadores de Localidade a partir de notícias e consequentemente para
a Resolução de Topônimos (particularmente a identificação de cidades) a partir destes,
alguns desafios ainda estão em aberto.
Um deles compreende a verificação em larga escala do conteúdo de textos
jornalísticos. Como na Web as informações jornalísticas não estão disponíveis de uma
maneira estruturada e facilmente acessível pelas máquinas, torna-se necessário então o
desenvolvimento de mecanismos (habitualmente definidos como wrappers) para a
recuperação dessas informações não estruturadas.
Embora os resultados tenham demonstrado que o volume de notícias influencia
na qualidade dos Gazetteers e consequentemente dos Indicadores recuperados, não
ficou claro ainda qual é o tamanho de corpora suficiente para essa verificação. Outro
desafio é, portanto identificar com precisão qual o volume de notícias adequado que
garanta ao mesmo tempo a construção de Gazetteers de qualidade e a performance da
abordagem, não despendendo com isso recursos com análises desnecessárias. Análises
utilizando variadas quantidades de notícias podem ser desenvolvidas visando
possibilitar essa identificação.
Mesmo os resultados demonstrando que os Indicadores de Localidade mais
relevantes tendem a possuir o maior peso, outro problema compreende em identificar e
remover Indicadores não relacionados às localidades visando assim otimizar o Gazetteer
e aprimorar os processos de georreferenciamento. Nesse sentido uma possibilidade é o
estudo do peso definido para relações encontradas e a posterior definição de limiares
para a retirada de Indicadores não relevantes às cidades.
Para a otimização do Gazetteer outra possibilidade compreende a definição de
técnicas para verificação de similaridade dos nomes próprios recuperados visando com
isso aperfeiçoar também os processos de georreferenciamento.
Dependendo do tipo de ambiguidade a ser solucionado torna-se possível também
aplicar e complementar o presente trabalho de diferentes formas.
Com relação à ambigüidade indireta da referência e ambiguidade do
referente/referência, são sugeridos os seguintes complementos:
77
�
�
Utilização da página das cidades na Wikipédia para a verificação de relações coocorrentes
às cidades visando compará-las com os resultados obtidos pelo
trabalho atual.
Utilização da abordagem proposta visando a inferência do contexto regional e
nacional das notícias, conforme (Amitay et al., 2004), utilizando pra isso
Indicadores relacionados ao estado e país das localidades.
Por sua vez a ambiguidade da classe do referente pode ser resolvida a partir das
seguintes atividades:
� Verificação estatística das expressões de posicionamento mais comuns nas
notícias do Brasil.
� Otimização da análise sintática já desenvolvida a partir da inclusão das
expressões verificadas.
78
6 TRABALHOS PUBLICADOS
1. GOUVEA, Cleber, LOH, S., GARCIA, L. F. F., FONSECA, E. B., WENDT,
I., da S. Discovering Location Indicators of Toponyms from News to Improve
Gazetteer-Based Geo-Referencing. In: Simpósio Brasileiro de Geoinformática
- GEOINFO, 2008, Rio de Janeiro, RJ. Anais do X Simpósio Brasileiro de
Geoinformática - GEOINFO, 2008.
2. GOUVÊA, Cleber, LOH, S., GARCIA, L. F. F. Métodos para Seleção
Automática de Tags para Descrição de Notícias. In: XIV Simpósio Brasileiro
de Sistemas Multimídia e Web (Webmedia), 2008, Vila Velha, ES. XIV
Simpósio Brasileiro de Sistemas Multimídia e Web (Webmedia), 2008.
3. GOUVÊA, Cleber, LOH, S., GARCIA, L. F. F. Tags Coletivas: Analisando
Padrões de Uso para o Suporte a Sistemas de Folksonomia. In: Workshop de
Aspectos da Interação Humano-Computador na Web Social, 2008, Porto
Alegre. Workshop de Aspectos da Interação Humano-Computador na Web
Social, 2008.
4. GOUVÊA, Cleber, LOH, S., GARCIA, L. F. F. Folksonomias: Identificação
de Padrões na Seleção de Tags para Descrever Conteúdos. In: XIII Simpósio
Brasileiro de Sistemas Multimídia e Web (Webmedia), 2007, Gramado. XIII
Simpósio Brasileiro de Sistemas Multimídia e Web (Webmedia), 2007.
5. GOUVÊA, Cleber, LOH, S. Folksonomias: Identificação de Padrões na
Seleção de Tags para Descrever Conteúdos. RESI. Revista Eletrônica de
Sistemas de Informação, v. VI, p. 2, 2007.
79
7 REFERÊNCIAS BIBLIOGRÁFICAS
AMITAY E., HAR’EL N., SIVAN R., SOFFER A., Web-a-where: Geotagging Web
Content. In Proceedings of the 27th SIGIR, pages 273–280, 2004.
ANDRADE L., M. J. SILVA, Indexing Structures for Geographic Web Retrieval. In
Proceedings of the Conference on Mobile and Ubiquitous Systems (CSMU’06),
Guimarães, Portugal, Junho 2006.
BAEZA-YATES R. A., CIARAMITA M., MIKA P., ZARAGOZA H., Towards
Semantic Search. In Proceedings of Natural Language and Information Systems. n.
5039, p. 4-11, 2008.
BERNERS-LEE T.,. Isn't It Semantic?. 2006. Disponível em:
(http://www.bcs.org/server.php?show=ConWebDoc.3337)
BERNERS-LEE, T., J. HENDLER, AND O. LASSILA,. The Semantic Web: a new
form of Web content that is meaningful to computers will unleash a revolution of new
possibilities. The Scientific American, 284: 34-43. 2001.
BORGES K. A. V. Uso de uma Ontologia de Lugar Urbano para Reconhecimento e
Extração de Evidências Geo-espaciais na Web. Belo Horizonte: Instituto de Ciências
Exatas, 195p. 2006. (Tese, Doutorado em Ciência da Computação)
BORGES, K. A. V., LAENDER, A. H. F., MEDEIROS, C. B., SILVA, A. S., DAVIS
JR., C. A., 2003, The Web as a data source for spatial databases, V Simpósio Brasileiro
de Geoinformática - GeoInfo, Campos do Jordão (SP), 2003.
BUCHER B., CLOUGH P., JOHO H., PURVES P., SYED A., Geographic IR systems:
requirements and evaluation. In Proceedings of the 22nd International Cartographic
Conference, 2005.
BUSCALDI D.,ROSSO P. A Comparison of Methods for the Automatic Identification
of Locations in Wikipedia. In Proceedings of the 2007 Workshop On Geographic
Information Retrieval (GIR 2007), Lisboa, Portugal. 2007.
BUYUKKOKTEN O., CHO J., GARCIA-MOLINA H., GRAVANO L.,
SHIVAKUMAR N., Exploiting goegraphical location in-formation of Web pages. In
Proceedings of the ACM SIGMOD Workshop on the Web and Databases, WebDB,
1999.
CAI G., GeoVSM: An Integrated Retrieval Model for Geographic Information, in: M.
Egenhofer and D. Mark, Eds., Geographic Information Science—Second International
Conference, GIScience 2002, Boulder, CO, vol. 2489, Lecture Notes in Computer
Science, Springer, pp. 70-85. 2002.
CANAVILHAS, J. Webjornalismo: Da pirâmide invertida à pirâmide deitada.
Universidade da Beira Interior, Portugal. 2006.
CHAVES, M.S., SANTOS, D., What kinds of geographical information are there in the
portuguese Web? In Proc. of the 7th Workshop on Computational Processing of Written
80
and Spoken Portuguese, PROPOR 2006. Volume 3960 of Lecture Notes in Computer
Science., Itatiaia, Rio de Janeiro, Brazil. 2006.
CLOUGH P., SANDERSON M., JOHO H., Extraction of semantic annotations from
textual Web pages. Technical report, 2004.
COVER T., THOMAS J. Elements of Information Theory. Wiley, 1st edition, 1991.
DAVIS JR., C. A, FONSECA, F. T., BORGES, K. A. V. A Flexible Addressing System
for Approximate Geocoding. In Proceedings of the V Brazilian Symposium on
Geoinformatics. Campos do Jordão, SP, Brasil, 2003.
DELBONI, T.M., BORGES, K.A.V., LAENDER, A.H.F., DAVIS JR., C.A. Semantic
Expansion of Geographic Web Queries Based on Natural Language Positioning
Expressions. Transactions in GIS, 11(3): 377-397, 2007.
DIAS, M. P. L. Nomes próprios e siglas no texto jornalístico em séculos e anos
consecutivos. Polifonia, Cuiabá, v. I, n. 07, p. 91-225, 2003.
EGENHOFER, M. J., MARK, D. M., Naïve Geography, Frank A. U., Kuhn, W.(Eds.):
Spatial Information Theory: A theoretical foundation for GIS. Berlin, Springer Verlag
(LNCS 998) pp. 1-15. 1995.
EGENHOFER, M. J., Toward the Semantic Geospatial Web. National Center for
Geographic Information and Analysis. Department of Spatial Information Science and
Engineering. Department of Computer Science. Main. 2002.
EGENHOFER, M. J., FRANZOSA, R. D. Point-set topological spatial relations.
International Journal of Geographical Information Systems, London, v.5, n.2, p.161-
174, 1991.
FERRES, D., MASSOT, M., PADRO, M., RODRIGUEZ, H. AND TURMO, J.
Automatic Building Gazetteers of Co-referring Named Entities. Proceedings of the 4th
International Conference on Languages Resources and Evaluation (LREC). Lisbon,
Portugal. 2004.
FONSECA, F., EGENHOFER, M., BORGES K. A. V., Ontologias e Interoperabilidade
Semântica entre SIGs. In: II Workshop Brasileiro em Geoinformática - GeoInfo2000,
São Paulo, 2000.
GALE W., CHURCH K., YAROWSKY D. One sense per discourse. In Proceedings
of the Fourth DARPA Speech and Natural Language Workshop, pages 233 237.
Defense Advanced Research Projects Agency, Morgan Kaufmann, San Mateo, CA.
1992.
GARBIN E., MANI I., Disambiguating toponyms in news. In Proc. Human Language
Technology Conference (HLT-EMNLP’05), pages 363–370, Vancouver, BC, October
2005.
GEY F.,LARSON R.,SANDERSON M., JOHO H. E P. CLOUGH. GeoCLEF: the
CLEF 2005 cross-language geographic information retrieval track. In Working Notes