s
19 708 Pages

L 'analyse de la variance (ANOVA, Anglais Analyse de la variance) Est un ensemble de techniques statistiques faisant partie de statistiques déductives qui vous permettent de comparer deux ou plusieurs groupes de données en comparant la variabilité interne ces groupes avec la variabilité entre groupes.

L 'hypothèse nulle En général, il prévoit que les données de tous les groupes ont la même origine, à savoir le même Distribution stochastique, et que les différences observées entre les groupes sont dus au hasard seul.

Ils utilisent ces techniques lorsque les variables explicatives sont de type nominal (discret). Rien n'empêche l'utilisation de ces techniques, même en présence de variables explicatives de type ordinal ou continue, mais dans ce cas sont moins efficaces que les techniques alternatives (par exemple: régression linéaire).

hypothèses

Les hypothèses qui sous-tendent l'analyse de la variance est que les données groupes, il est possible de décomposer le variance en deux composantes: Variance interne aux groupes (Aussi appelé écart intérieur) et Écart entre les groupes (écart entre). La raison qui nous pousse à faire cette distinction est la croyance de la part du chercheur, que certains phénomènes devrait être attribuée aux caractéristiques du groupe. Un exemple typique, extraite de l'analyse sociologique, est l'étude des groupes d'usagers de drogues. Dans ce cas, l'analyse de la variance est utilisée pour déterminer si plusieurs groupes peuvent être d'une manière sensiblement différente de l'autre (la variance entre Elle contribue de manière significative à la variance totale - le phénomène est lié à des caractéristiques individuelles de chaque groupe dans la zone de résidence) ou, au contraire, sont homogènes (la variance à l'intérieur Elle contribue de manière significative à la variance totale - le phénomène est lié aux caractéristiques de tous les groupes). En d'autres termes, la comparaison est basée sur l'idée que si la variabilité interne des groupes est relativement élevé par rapport à la variabilité entre les groupes, puis probablement la différence entre ces groupes est que le résultat de la variabilité interne.

L'ensemble le plus connu des techniques est basée sur la comparaison des variance et utilise des variables de test réparties comme variable aléatoire F Fisher-Snedecor.

Les différentes techniques sont divisées selon que le modèle prévoit:

  • une seule cause: par exemple: le goût d'un aliment dépend de la couleur de la même;
  • plus d'une cause: par exemple: la réussite scolaire dépend à la fois du degré d'intérêt individuel dans l'étude et l'obtention de bonnes notes, et le degré d'éducation des parents;
  • l'interaction des causes multiples: par exemple, la vitesse de récupération dépend de deux médicaments, mais ceux-ci sont annulés (ou boeuf) autre.

Discussion analytique

La relation entre la variance totale fait référence à des unités et des écarts calculés sur les groupes individuels (avec ) Se révèle être:

.

La première somme est la variance à l'intérieur tandis que la seconde est la variance entre les deux. Donc, ce qui revient, vous pouvez écrire:

est le médias total tout unités, correspondant à moyen partiel de chaque groupe avec un poids égal à leur groupe de fréquences par rapport .

À son tour, la partie moyenne des valeurs la -e groupe sont donnés par:

.

De plus, il a:

La variance intra est égale à moyenne pondérée les écarts partiels, calculées dans chaque groupe. Les poids sont égaux à leur les fréquences relatives.

L'écart entre la variance est égale à la moyenne pondérée de la partie. Les coefficients de pondération sont identiques aux fréquences relatives de groupe.

Exemple d'une simple analyse de la variance

Dans cet exemple, nous groupes de même numérosité (Pour simplifier l'exemple), avec , indiqué par et unités statistiques (par exemple le nombre total d'observations expérimentales).

Le modèle prévoit que

avec indiquant le groupe et .

L'hypothèse nulle indique que:

  • les valeurs observées sont dérivées d'un distribution gaussienne;
  • avec les mêmes médias et même variance ;
  • est égale pour tous les groupes (et donc nulle).

Les données observées en quatre groupes:

j A B C
1 0,72 0,75 0,68 0,78
2 0.69 0,85 0,70 0,86
3 0,71 0,82 0,67 0,87
4 0,70 0,80 0,65 0,84
5 0,68 0,88 0,70 0,85

Laissez maintenant:

  • : La somme des écarts des moyennes des groupes individuels () De la moyenne générale ;
  • : La somme des écarts des valeurs individuelles que la moyenne le groupe auquel ils appartiennent;
  • : La somme des écarts de toutes les valeurs individuelles que la moyenne globale .

C'est:

La variable de test devient:

où:

est le nombre de groupes (dans notre exemple: )
le grand nombre de groupes individuels (dans notre cas pour chaque groupe)
, à-dire le nombre total de cas observés (dans notre cas )

Dans l'exemple, on obtient que:

et par conséquent

cette valeur est comparée avec les valeurs d'un variable aléatoire F Snedecor avec et degrés de liberté. Si vous acceptez un pourcentage de faux positifs la Cette valeur est:

par conséquent, être il rejette la 'hypothèse nulle qui comprenait l'absence d'effets et indique que la plus probable au moins l'un des quatre groupes est différente. Peut-être que tous les groupes sont différents les uns des autres, peut-être juste un d'entre eux.

Un test (proposé pour la première fois depuis Ronald Fisher) Permet de déterminer la plus petite différence significative entre la moyenne des deux groupes, en les comparant un par un.

Cette différence est égale à:

logiciel statistique R

Le calcul ANOVA avec logiciel R Elle est réalisée de différentes manières en fonction des données à analyser. Avant le calcul réel est nécessaire pour vérifier les hypothèses suivantes:

  1. Indépendance du score observé (si les sujets sont indépendants, nous sommes dans l'option « ENTRE LES CAS », si l'hypothèse est pas remplie (vous faites plus de mesures sur les mêmes sujets), nous sommes dans l'option « » DANS LES CAS mode suivant calcul propre);
  2. normalité de la distribution;
  3. homoscédasticité (ou l'homogénéité des variances);

La deuxième hypothèse peut être évaluée de deux façons:

  • normalité test de Kolmogorov-Smirnov:
> Ks.test (x, pnorm, moyenne (x), sd (x))

où:

  • x est la variable pour laquelle vous voulez évaluer la normalité;
  • moyenne (x) calcule la moyenne de cette distribution;
  • sd (x) calcule l'écart-type de cette distribution;
  • pnorm effectue la comparaison entre la distribution théorique et une distribution normale de moyenne = moyenne (x) et l'écart type = sd (x).

Sortie renvoyée ne lit que la valeur p: doit être supérieur ou égal à 0,05 (ou à une alpha prédéterminée). L'hypothèse nulle fait valoir que la distribution est normale;

  • test de normalité de Shapiro-Wilk:
> Shapiro.test (x)

cette commande ne nécessite que la variable à analyser. Même chose pour les premières hypothèses de sortie et de test.

La troisième hypothèse, l'homogénéité des variances (ie de chaque variances considérées divisées selon les niveaux du facteur, est calculé comme suit:

> Bartlett.test (y ~ A)

où:

  • y est la variable dépendante;
  • A est le facteur;

pour autant que la sortie est suffisante pour lire la p-value et faire en sorte qu'elle soit supérieure ou égale à un niveau prédéterminé alpha (valeur par défaut est de 0,05). L'hypothèse nulle estime que toutes les variances sont homogènes entre eux. Dans le cas où cette hypothèse est pas remplie, il est nécessaire d'effectuer le calcul ANOVA avec correction Welch.

vérifié les hypothèses que vous pouvez procéder à l'ANOVA lui-même.

Modèle de cas

Dans ce cas, il suffit d'utiliser la commande suivante:

> Anova (lm (y ~ A))

dont l'hypothèse nulle est que la différence moyenne des groupes de facteurs sont égaux.

Notez que l'hypothèse alternative soutient que au moins un est différent de l'autre, pas nécessairement tous différents les uns des autres.

si nous avions plus de facteurs que nous pouvons écrire:

> Anova (lm (y ~ A * B)) si l'on tient compte des interactions entre les différents facteurs
> Anova (lm (y ~ A + B)) si nous ne considérons pas l'interaction;

cas de modèle dans

Dans ce cas, nous vérifions les trois premières hypothèses, plus une quatrième: l'hypothèse de sphéricité (qui soutient que les covariances sont homogènes). Une telle vérification:

> Mauchly.test (lm (y ~ x) ~ 1, X = ~ 1)

et évalue la valeur p: doit être supérieur ou égal au seuil de signification imposée: l'hypothèse nulle est celui qui soutient la sphéricité. dans le cas où il est pas vérifiée le calcul est exécuté avec la correction de serre-Geisser

si cette hypothèse a eu lieu il suffit d'entrer la commande suivante:

> Résumé (AOV (y ~ A))

et on observe l'hypothèse nulle plaide en faveur de l'égalité entre la p-valeur moyenne: ici aussi.

bibliographie

  • Zani S;. L'analyse des statistiques, vol. I; 1994; Giuffrè; Milan
  • Gili A., Frosini B.V., Zanardi et Zenga G. M;. Variabilité et concentration, dans: la contribution italienne à la metodology de statistique; 1987; CLEUP; Padoue
  • Brasini S., F. Tassinari, Tassinari G;. Marketing et publicité; 1993; Il Mulino; Bologne
  • Rao C.R;. La diversité: sa mesure, la décomposition, l'analyse et la répartition; 1982; vol sankhya. 44 Une série pp 1-12

Articles connexes

  • L'analyse de l'analyse de corrélation canonique, qui analyse de la variance qui peut être considérée comme un cas particulier
  • George W. Snedecor
  • régression linéaire
  • Ronald Fisher
  • statistiques
  • Test des tests d'hypothèses
  • variable confortable

D'autres projets