Details

Comparação de metodologias aplicadas à analise de agrupamentos na presença de variáveis categóricas e contínuas

by de Matos, Renata Assis

Abstract (Summary)
A análise de agrupamentos é um procedimento de estatística multivariada que engloba técnicas que objetivam organizar objetos em grupos de acordo com a proximidade existente entre eles. Os objetos de um mesmo grupo são tão similares quanto possível (coesão interna) e ao mesmo tempo tão dissimilares quanto possível dos objetos dos demais grupos (isolamento externo). Os métodos são compostos de dois elementos: a medida de proximidade e o algoritmo de agrupamento. Apesar da sua vasta aplicabilidade, desde o início do seu desenvolvimento o foco principal tem sido nas situações em que somente variáveis contínuas caracterizam os objetos. Atualmente é grande a necessidade de se considerar também a informação de variáveis categóricas. No entanto, os estudos encontrados na literatura envolvendo esse tipo de variável não comparam os métodos de forma adequada, fazendo com que a diversidade de possibilidades dificulte a escolha da melhor técnica.Nesta dissertação é feito um estudo comparativo de cinco algoritmos de análise de agrupamentos somente na presença de variáveis categóricas e de três metodologias que são aplicáveis para casos de variáveis categóricas e contínuas. Dentre esses, a extensão do método ROCK para o caso de mistura de variáveis é uma proposta desta dissertação. Avaliam-se também outras questões tais como o efeito do grau de separação e sobreposição, do número de grupos, de variáveis e de categorias, a correlação entre as variáveis contínuas e a atribuição de pesos da medida de proximidade combinada, usada quando há os dois tipos de variáveis caracterizando os objetos em análise. A comparação é feita a partir de um esquema de simulação e de estudos de aplicação prática e a medida de desempenho utilizada é a taxa de alocação correta.Pelos resultados obtidos, conclui-se que o aumento do número de grupos, independente da estrutura desses, prejudica o desempenho dos algoritmos. A influência do número de variáveis e de categorias depende da disposição dos grupos. Observou-se também que a correlação existente entre as variáveis contínuas não influenciou as taxas de alocação correta dos métodos e que esse têm melhores resultados quando é dado maior peso às variáveis contínuas na medida de proximidade combinada. Quanto à eficiência, o ROCK foi o algoritmo que se destacou nos estudos de simulação realizados
This document abstract is also available in English.
Bibliographical Information:

Advisor:Sueli Aparecida Mingoti; Ela Mercedes Medrano de Toscano; Arminda Lucia Siqueira; Cibele Queiroz da Silva

School:Universidade Federal de Minas Gerais

School Location:Brazil

Source Type:Master's Thesis

Keywords:Analise multivariada Teses

ISBN:

Date of Publication:04/27/2007

© 2009 OpenThesis.org. All Rights Reserved.