s
19 708 Pages

L 'analyse en composantes principales ou PCA, dall 'Anglais analyse en composantes principales, Il est une technique pour la simplification des données utilisées dans le cadre de statistiques multivariées. Il a été proposé dans 1901 de Karl Pearson et développé par Harold Hotelling en 1933. Il est également connu sous le nom transformer, Karhunen-Loeve (KLT) transformer Hotelling ou Décomposition Orthogonale propriétaire (POD, dall 'Anglais bonne décomposition orthogonale).

En collaboration avec le 'analyse des correspondances et tout 'analyse des correspondances multiples, appartient à 'analyse factorielle.

L'objectif principal de cette technique est la réduction d'un nombre plus ou moins grand nombre de variables (le même nombre de représentants traits du phénomène analysé) dans certaines variables latentes (fonction de réduction).

résolution linéaire

Ceci est accompli par un transformation linéaire Les variables que les projets les plus originaux dans une nouvelle système cartésien dans lequel la nouvelle variable avec le plus grand variance Il est prévu sur le premier axe, la nouvelle variable, en fonction de la taille de la variance sur le deuxième axe et ainsi de suite.

La réduction de la complexité se fait simplement d'analyser la principale (la variance) parmi les nouvelles variables.

Contrairement à d'autres transformations (linéaires) pratiquées dans le contexte des variables statistiques, dans cette technique sont les mêmes données qui déterminent les vecteurs de transformation.

En supposant que chacune des variables d'origine est soustraite de leur moyenne et donc la nouvelle variable (Xla) A moyenne nulle,

(Où arg max Il indique tous les arguments w dans lequel il est atteint le maximum.) Avec les premiers composants (k-1), l'élément k-ième peut être trouvée en soustrayant la première (k-1) composants principaux X

et le remplacement de ce

Résolution matrice

Une méthode plus simple pour calculer le composant wla utilise le matrice de covariance de x. La même opération peut être effectuée à partir de la matrice des coefficients de corrélation plutôt que de la matrice de variance-covariance variable « x ».

D'abord, vous devez trouver valeurs propres de la matrice de covariance (ou de la matrice des coefficients de corrélation). Vous donnez autant de valeurs propres comme il y a des variables x. Si la valeur propre correspondant à la première composante principale de la matrice de corrélation est utilisée, (à savoir l'une de variance maximum) sera égal à 1. La valeur propre la plus grande valeur (dans chaque cas) correspond à la taille, w qui a la plus grande variance: il sera donc la variance de la composant principal 1. Par ordre décroissant, la deuxième valeur propre sera la variance du composant principal 2, et ainsi de suite aux valeurs propres n. Pour chaque valeur propre est calculé le vecteur propre correspondant, à savoir la matrice (vecteur ligne) des coefficients qui multiplient les anciennes variables x dans la combinaison linéaire pour l'obtention de nouvelles variables w. Ces coefficients sont également définis des charges. La matrice des vecteurs propres (par exemple la matrice qui a pour chaque rangée avant de vecteur propre calculé), est le soi-disant matrice de rotation V. En effectuant l'opération de matrice W = VX (où W = vecteur colonne comportant comme éléments les nouvelles variables w1, w2, ..., wn et X = vecteur colonne comportant comme éléments x1 "anciennes variables", x2, ..., xn.), vous pouvez trouver les coordonnées de chaque point de la nouvelle espace vectoriel. Il suffit de prendre enfin les coordonnées pour chaque point sur les principaux composants pour obtenir le graphique appelé Le score de l'intrigue. Si les composants principaux sont 3, vous disposez d'un graphique en trois dimensions, si elles sont 2 seront à deux dimensions, si elle est choisie une seule parcelle de composant principal le score sera alors unidimensionnelle. En utilisant le diagramme de points, il est possible de vérifier les données sont semblables les unes aux autres (et donc vous pouvez par exemple déduire quels échantillons ont la même composition).

Dans l'APC existe aussi un autre type de graphique, défini parcelle de chargement, dans laquelle les variables x doivent être reflétées dans le nouveau système ayant des composants pour les axes principaux. Avec ce type de graphique est possible d'observer si deux variables sont similaires (et donc fournissent le même type d'information) ou si elles sont loin de l'autre (et donc ne sont pas similaires).

Pour résumer: les éléments de 'vecteur propre colonne correspondant à une valeur propre alors exprimer le lien entre le départ et les variables composant considéré par les poids. Le nombre de variables latentes à considérer comme composants principaux est basée sur l'importance relative d'une valeur propre En fait, par rapport à l'autre. Dans le cas à la place à la fois à l'opérateur de choisir les composants principaux sans tenir compte de la variance relative exprimée par leurs valeurs propres respectives, il y aura un la reconnaissance des formes supervisée.

On peut alors construire matrice facteur (Dans la pratique, matrice modal) par rangée qui énumère les variables initiales, sur la colonne pour les variables latentes: chaque valeur nous indique comment celle-ci empiètent sur la première (avec des valeurs allant de 0 à 1).

la matrice le score de facteur, cependant, il a la même structure que le précédent mais, contrairement à lui-même, nous dit comment les variables individuelles d'origine ont pesé sur la détermination de l'ampleur des infections latentes.

exemple

Nous faisons une simulation. Disons que nous avons une enquête qui nous ramène aux 10 sujets: le vote moyen (0 à 33), l'intelligence (0 à 10), la moyenne des heures étudiées en un jour et région d'origine (variant de 1 à 3) . Nous normalisons les valeurs en utilisant la formule:

(Par "E (x)", qui est de taille X).

Après que l'on calcule la matrice des coefficients de corrélation qui seront:

correlazione.jpg de Matrix

Il est clair que la diagonale est composé de valeurs égales à 1 (le coefficient de corrélation d'une variable avec elle-même doit nécessairement donner cette valeur). Il est également matrice symétrique (Le coefficient de corrélation entre la variable « x » et la variable « y » est égal à celui entre « y » et « x »). Nous voyons comment il y a un lien fort entre vote, la durée moyenne des études et de l'intelligence.

Nous étudions ensuite la valeurs propres (Eigenvalues) et la façon dont ils expliquent:

variance totale spiegata.JPG

Nous plaçons la valeurs propres le plus cher, et, comme mentionné, leur relation avec la somme de valeurs propres Il nous donne qui expliquent la variance. Nous avons choisi (arbitrairement) que ceux qui ont valeur supérieure à 1: le plus important, nous expliquons les 70,708% et 26,755% respectivement.

Penchons-nous maintenant à matrice des composants principaux:

componenti.JPG de Matrix

Le facteur 1 (qui, en faisant une supposition, vous pouvez l'appeler compétence) pèse donc lourdement sur la note moyenne. Il semblerait aussi que d'une manière négative sur les poids variables de la zone source (clairement cette déclaration ne serait pas logique parce invertiremmo le lien de cause à effet, il est pour le statisticien de savoir comment donner une explication et une lecture sensible).

Après que je reçois matrice score de facteur:

scores Matrix fattoriali.JPG

Comme on le voit la variable d'origine continue d'avoir une influence négative de la sull'autovalore principale. D'autres variables ont plutôt le poids positif.

bibliographie

  • Bolasco Sergio, L'analyse multidimensionnelle des données. Méthodes, des stratégies et des critères d'interprétation, 1999 Roma, Carocci, ISBN 88-430-1401-3 (6e réimpression 2014)
  • Roberto Todeschini, Introduction à la chimiométrie, 1 re éd., Naples, EdiSES, 2003 ISBN 88-7959-146-0.

Articles connexes

  • L'analyse de l'analyse de corrélation canonique, qui peut être vu comme une extension de l'analyse des composants principaux
  • La réduction de dimensionnalité
  • Analyse des facteurs

D'autres projets

liens externes

Activité wiki récente

Aidez-nous à améliorer BooWiki
Commencez