Comparação de metodologias aplicadas à analise de agrupamentos na presença de variáveis categóricas e contÃnuas
Abstract (Summary)
A análise de agrupamentos é um procedimento de estatÃstica multivariada que engloba técnicas que objetivam organizar objetos em grupos de acordo com a proximidade existente entre eles. Os objetos de um mesmo grupo são tão similares quanto possÃvel (coesão interna) e ao mesmo tempo tão dissimilares quanto possÃvel dos objetos dos demais grupos (isolamento externo). Os métodos são compostos de dois elementos: a medida de proximidade e o algoritmo de agrupamento. Apesar da sua vasta aplicabilidade, desde o inÃcio do seu desenvolvimento o foco principal tem sido nas situações em que somente variáveis contÃnuas caracterizam os objetos. Atualmente é grande a necessidade de se considerar também a informação de variáveis categóricas. No entanto, os estudos encontrados na literatura envolvendo esse tipo de variável não comparam os métodos de forma adequada, fazendo com que a diversidade de possibilidades dificulte a escolha da melhor técnica.Nesta dissertação é feito um estudo comparativo de cinco algoritmos de análise de agrupamentos somente na presença de variáveis categóricas e de três metodologias que são aplicáveis para casos de variáveis categóricas e contÃnuas. Dentre esses, a extensão do método ROCK para o caso de mistura de variáveis é uma proposta desta dissertação. Avaliam-se também outras questões tais como o efeito do grau de separação e sobreposição, do número de grupos, de variáveis e de categorias, a correlação entre as variáveis contÃnuas e a atribuição de pesos da medida de proximidade combinada, usada quando há os dois tipos de variáveis caracterizando os objetos em análise. A comparação é feita a partir de um esquema de simulação e de estudos de aplicação prática e a medida de desempenho utilizada é a taxa de alocação correta.Pelos resultados obtidos, conclui-se que o aumento do número de grupos, independente da estrutura desses, prejudica o desempenho dos algoritmos. A influência do número de variáveis e de categorias depende da disposição dos grupos. Observou-se também que a correlação existente entre as variáveis contÃnuas não influenciou as taxas de alocação correta dos métodos e que esse têm melhores resultados quando é dado maior peso à s variáveis contÃnuas na medida de proximidade combinada. Quanto à eficiência, o ROCK foi o algoritmo que se destacou nos estudos de simulação realizados
Bibliographical Information:
Advisor:Sueli Aparecida Mingoti; Ela Mercedes Medrano de Toscano; Arminda Lucia Siqueira; Cibele Queiroz da Silva
School:Universidade Federal de Minas Gerais
School Location:Brazil
Source Type:Master's Thesis
Keywords:Analise multivariada Teses
ISBN:
Date of Publication:04/27/2007