Details

Optimal Inference for One-Sample and Multisample Principal Component Analysis

by Verdebout, Thomas

Abstract (Summary)
Parmi les outils les plus classiques de l'Analyse Multivariée, les Composantes Principales sont aussi un des plus anciens puisqu'elles furent introduites il y a plus d'un siècle par Pearson (1901) et redécouvertes ensuite par Hotelling (1933). Aujourd'hui, cette méthode est abondamment utilisée en Sciences Sociales, en Economie, en Biologie et en Géographie pour ne citer que quelques disciplines. Elle a pour but de réduire de façon optimale (dans un certain sens) le nombre de variables contenues dans un jeu de données. A ce jour, les méthodes d'inférence utilisées en Analyse en Composantes Principales par les praticiens sont généralement fondées sur l'hypothèse de normalité des observations. Hypothèse qui peut, dans bien des situations, être remise en question. Le but de ce travail est de construire des procédures de test pour l'Analyse en Composantes Principales qui soient valides sous une famille plus importante de lois de probabilité, la famille des lois elliptiques. Pour ce faire, nous utilisons la méthodologie de Le Cam combinée au principe d'invariance. Ce dernier stipule que si une hypothèse nulle reste invariante sous l'action d'un groupe de transformations, alors, il faut se restreindre à des statistiques de test également invariantes sous l'action de ce groupe. Toutes les hypothèses nulles associées aux problèmes considérés dans ce travail sont invariantes sous l'action d'un groupe de transformations appellées monotones radiales. L'invariant maximal associé à ce groupe est le vecteur des signes multivariés et des rangs des distances de Mahalanobis entre les observations et l'origine. Les paramètres d'intérêt en Analyse en composantes Principales sont les vecteurs propres et valeurs propres de matrices définies positives. Ce qui implique que l'espace des paramètres n'est pas linéaire. Nous développons donc une manière d'obtenir des procédures optimales pour des suite d'experiences locales courbées. Les statistiques de test introduites sont optimales au sens de Le Cam et mesurables en l'invariant maximal décrit ci-dessus. Les procédures de test basées sur ces statistiques possèdent de nombreuses propriétés attractives: elles sont valides sous la famille des lois elliptiques, elles sont efficaces sous une densité spécifiée et possèdent de très bonnes efficacités asymptotiques relatives par rapport à leurs concurrentes. En particulier, lorsqu'elles sont basées sur des scores Gaussiens, elles sont aussi efficaces que les procédures Gaussiennes habituelles et sont bien plus efficaces que ces dernières si l'hypothèse de normalité des observations n'est pas remplie.
Bibliographical Information:

Advisor:Mélard, Guy; Hallin, Marc; Paindaveine, Davy; Croux, Christophe; Dehon, Catherine; Serfling, Robert; Vermandele, Catherine

School:Université libre de Bruxelles

School Location:Belgium

Source Type:Master's Thesis

Keywords:eigenvalues local optimality elliptical densities curved experiments eigenvectors

ISBN:

Date of Publication:10/24/2008

© 2009 OpenThesis.org. All Rights Reserved.