s
19 708 Pages

régression linéaire
Exemple de régression linéaire avec une variable dépendante et indépendante d'un

la régression formalise et résout le problème d'une relation fonctionnelle entre les grandeurs de mesure sur la base des données d'échantillons extraits à partir d'une population infinie hypothétique. initialement Galton Il a utilisé le terme comme synonyme de corrélation, Cependant, aujourd'hui statistiques L'analyse de régression est associée à la résolution du modèle linéaire. En raison de leur polyvalence, les techniques de régression linéaire sont utilisés dans le domaine de la sciences appliquées: chimie, géologie, biologie, physique, ingénierie, médecine, ainsi que dans sciences humaines: économie, linguistique, psychologie et sociologie.

Plus formellement, en statistiques la régression linéaire Il est une méthode de estimation la valeur attendue Sous condition d'une variable employé, ou endogène, , les valeurs de données des autres variables indépendant, ou exogène, : . L'utilisation des termes endogène/exogène Il est parfois critiquée, car elle impliquerait une notion de causalité que l'existence d'une régression ne fournit pas; dans certains contextes, aussi source de confusion, étant par exemple le concept de exogénéité économétrie formellement défini par l'hypothèse d'orthogonalité à la base des propriétés statistiques de la régression linéaire par la méthode des moindres carrés.

Origines historiques

La première, et encore sous forme populaire de régression linéaire est basée sur méthode des moindres carrés (Voir ci-dessous). La première publication contenant une application de la méthode est connue datée 1805, au nom de Adrien-Marie Legendre; Carl Friedrich Gauss Il développe indépendamment la même méthode, en publiant ses recherches 1809. bien que gauss Il a affirmé avoir mis au point la méthode depuis 1795, la paternité de ses applications sur le terrain statistique Il est normalement attribué à legendre; le même terme moindres carrés vient des Français, utilisés par legendre, Carrés moindres.

les deux gauss que legendre appliquer la méthode au problème de la détermination, sur la base des observations astronomiques, les orbites des corps célestes autour du soleil. Euler Il avait travaillé au même problème, avec peu de succès, en 1748. en 1821 gauss développement des partenariats public méthode des moindres carrés, proposant une première version de ce qui est maintenant connu sous le nom Gauss-Markov.

L'origine du terme régression Il est historiquement documenté. l'expression réversion Il a été utilisé dans XIXe siècle pour décrire un phénomène biologique, dans lequel la descendance des individus exceptionnels sont en moyenne ont des caractéristiques moins que leurs parents rachetant, et plus semblables à ceux des plus lointains ancêtres. Francis Galton Il a étudié ce phénomène, l'application du terme, peut-être mal, la régression à la moyenne (ou médiocrité).

à Galton l'expression régression Il n'a que ce sens, confiné à la biologie. Son travail (1877, 1885) Il a ensuite été prolongé par Karl Pearson et George Udny Yule dans un contexte statistique plus général (1897, 1903); les travaux de Pearson et Noël supposer que distribution conjointe des variables dépendantes et indépendantes est dans la nature gaussienne. Cette hypothèse a ensuite été affaiblie par Ronald Fisher, dans les œuvres 1922 et 1925. pêcheur supposé en particulier que le distribution conditionnement la variable dépendante est gaussienne, ce qui ne signifie pas nécessairement que pour que les deux conjointe des variables dépendantes et indépendantes. A cet égard, la formulation de pêcheur Il est plus proche de celui de gauss la 1821.

régression linéaire simple

définition

Le modèle de régression linéaire est la suivante:[1]

où:

  • Il varie entre les observations, ;
  • est le variable dépendante;
  • est le variable indépendante ou régresseur;
  • est le ligne de régression ou la fonction de régression de la population;
  • est le 'iNTERCEPTIONS la régression linéaire de la population;
  • est le coefficient angulaire la régression linéaire de la population;
  • est le 'erreur statistique.

Il possède le particulier hypothèses OLS.

Illustration de la méthode

Pour chaque observation échantillon Il a une détermination et pas stochastique déterminations . Il recherche ensuite un rapport type linéaire entre la variable et les variables déterministes. Une première analyse peut être réalisée compte tenu d'un modèle simple avec deux variables (dans la pratique, on suppose que est égal à ). Un exemple typique est vu l'expérience économique compte tenu de la relation entre la consommation () Et du revenu (). La recherche d'une relation fonctionnelle dans laquelle la consommation est « explique » du revenu que vous pouvez utiliser la relation linéaire:

relation générique qui caractérise la consommation;
relations linéaire;

Il représenteiNTERCEPTIONS et interpoler la pente de la ligne droite.

Les estimations des paramètres si deux variables

En généralisant le problème à deux variables et , Nous écrivons:

Il est une fonction générique de et souvent il assume . En supposant, sans perte de généralité, cette condition, la formule devient:

Ainsi, la variable dépendante Il est « expliqué » par une relation linéaire de la variable indépendante (Ie: ) Et par une quantité aléatoire .

Le problème des résultats de la régression dans la détermination de et afin d'exprimer la « meilleure » la relation fonctionnelle entre et . Pour confirmer la signification statistique le choix des coefficients doit faire des hypothèses sur le modèle de régression linéaire:

  • Il est une variable déterministe;
  • constante pour chaque

Compte tenu de ces hypothèses on calcule les coefficients et selon le méthode des moindres carrés (En anglais Moindres carrés ordinaires, ou OLS, d'où la référence à la estimateurs ci-après dénommé obtenu OLS) Projeté par gauss; que:

Les estimations sont obtenues en résolvant:

Les solutions sont obtenues en égalant à zéro dérivées partielles de par rapport à et :

désigne le nombre d'observations; suit:

à partir de laquelle on obtient les solutions:

être le variance observée donnée par:

et covariance observé par:

dénoter moyen regardez, vous pouvez écrire les paramètres de la forme:

justification probabiliste de la méthode de régression des moindres carrés

Considérons le problème théorique suivant: deux dates variables aléatoires et , qui est la meilleur valuer pour valeur attendue de , à savoir que valuer présente la écart-type (Ou MSE, Anglais Erreur quadratique moyenne) Minimum?

Si vous utilisez un valuer de même origine qui exploite les informations relatives à la variable aléatoire puis , il peut être démontré que écart-type est réduite au minimum si:

Cette observation fournit une justification probabiliste aux propositions ci-dessus expressions; voir ci-dessous pour une analyse formelle, dans le cas à plusieurs variables.

Les observations sur la méthode d'estimation

la méthode des moindres carrés, est examiné dans le cas bidimensionnel, on tire une ligne droite qui interpole un nuage de points en minimisant la somme des carrés des distances des points d'une même ligne droite; le graphique fournit une intuition de la procédure.

PlotRegressione.jpg

La décision de réduire au minimum carré de Il n'est pas, bien sûr, arbitraire. En prenant, par exemple, la référence à la simple somme des , distances positives (vers le haut) et négatifs (vers le bas) compensera, ce qui rend la pire qualité de l'interpolation en général; si, d'autre part est d'adopter une fonction de critère égale à la somme des valeurs absolues , ne pas être la fonction valeur absolue différentiables sur l'axe réel tout ne pas utiliser pourrait être faite méthode élégante de minimisation illustrée ci-dessus.

Notez également que représentent une distance d'un type tout à fait particulier. en géométrie la d'un point éloigné de la droite Il est en effet donnée par la longueur du segment qui relie le point à la ligne droite, perpendiculaire à celle-ci; évidemment ce n'est pas le cas de . Le choix fait est justifiée par les propriétés statistiques des estimations, comme illustré ci-après: la forme particulière des estimateurs de moindres carrés obtenu ci-dessus permet un traitement plus facile de leurs propriétés statistiques.

Deux mots en fin de compte l'importance de la régression linéaire. Le nom de cette technique statistique pas signifie que dans fonction a estimé le variable employé est un fonction linéaire le (s) variable (s) explicative (s) , mais le paramètres objet d'estimation ( et ci-dessus). L'estimation d'un fonction Type:

se situe dans la gamme du modèle linéaire, étant donné que est un fonction paramètre linéaire , , . Pour d'autres considérations à cet égard, voir l'article La régression non linéaire.

Régression linéaire multiple

La méthode décrite ci-dessus peut être étendue au cas où plusieurs variables contribuent à expliquer la variable dépendante :[1]

où:

  • Il varie entre les observations, ;
  • est le -ième valeur de variable dépendante
  • sont les -rejette les observations de chacun des régresseurs;
  • est le ligne de régression;
  • est le valeur attendue de lorsque toutes les sont égales à zéro (à savoir, est l'ordonnée à l'origine);
  • est le coefficient angulaire de , est le coefficient angulaire de , (Constante tenant le pas pris en compte), etc.
  • est le 'erreur statistique.

Il possède le particulier hypothèses OLS.

En regroupant les observations des variables explicatives dans un matrice taille , qui est supposé avoir rang pleine et égale (Le terme constant, ou iNTERCEPTIONS, Elle correspond à une colonne ayant des en ), Vous pouvez être écrit en notation matricielle:

Dans sa formulation la plus basique, on suppose que , à savoir: (homoscédasticité) (Absence de corrélation dans les troubles). On suppose également que:

à savoir qu'il n'y a pas de corrélation entre les variables explicatives et le bruit aléatoire - cette hypothèse est d'une importance cruciale, car il permet de considérer les variables explicatives incluses dans la matrice comme variables exogène (D'où le nom par lequel l'hypothèse est souvent appelée: hypothèses exogénéité). La dernière propriété est tout sauf banal, parce que si elle est valide, vous pouvez vous assurer que le vecteur des paramètres des estimations du modèle, , a une valeur attendue pour la valeur réelle des paramètres (Ainsi profiter des bonnes propriétés, voir ci-dessous).

Dans de telles circonstances, vous pouvez obtenir estimations la vecteur de paramètres par méthode des moindres carrés résoudre le problème de minimisation:

Les conditions de premier ordre pour une minimum définir le système (connu sous le nom d'équations normales):

où:

Pour les propriétés de forme quadratique minimizzanda, il est certain que la solution correspond à un minimum, non seulement localement, mais à l'échelle mondiale.

Interprétation géométrique des estimations OLS

OLSGeometria.jpg

la vecteur estimations OLS Il permet d'obtenir les valeurs attendues ( « théoriques ») pour la variable dépendante:

Formellement, l'expression ci-dessus correspond à un projection orthogonale la vecteur commentaires sur espace généré par les colonnes de matrice ; la figure à droite illustre ce résultat.

Pour clarifier ce point, à la fois la projection de sur l'espace engendré par les colonnes de la matrice :

Cela signifie qu'il y aura un vecteur de poids de telle sorte qu'il est possible d'obtenir comment , -à-dire comme une combinaison linéaire des colonnes de . à son tour Il sera égal à plus un composant orthogonal l'espace engendré par :

donc ; pour prémultiplication nous avons: ; de sorte que:

à-dire le vecteur d'expression pour les estimations OLS dérivé précédemment. Cette intuition géométrique est formalisée dans Théorème Frisch-Waugh-Lovell.

propriétés algébriques de OLS

les estimateurs OLS bénéficient d'un certain nombre de propriétés algébriques intéressantes; ces propriétés dépendent de la méthode des moindres carrés adoptée, et non par l'estimation particulière du modèle objet.

  • Lorsque la matrice de régresseurs comprend le terme constant (une colonne de seulement , qui est désigné par le vecteur ), La première ligne du système normal d'équations écrites sous forme de matrice, est donnée par . En divisant les deux côtés par le nombre d'observations , nous avons:
de sorte que 'hyperplan qui interpole en passant par leur milieu, et les points centraux de toutes les colonnes de .
  • De ce qui précède, il apparaît aussi que le milieu de observé Il est égal à celui des valeurs à condition que du modèle: ; ceci est obtenu en observant que trivialement .
  • Pour définir le vecteur résidu , nous avons:
de sorte que la somme des résidus est rien.
  • Les résidus sont orthogonal les régresseurs; En fait:
selon le système d'équations normales. Notez que cette propriété peut être déduit immédiatement l'interprétation géométrique des estimations OLS, alors que le vecteur résiduel relie le support avec sa projection orthogonale sur l'espace engendré par les régresseurs, .
  • Les résidus sont également orthogonal les prévisions de support ; ce qui est immédiat si on observe que le vecteur de la prévision appartient à l'espace généré par la matrice des variables explicatives ; algébriquement aussi: .

Notez que les trois premières propriétés ne sont valables que si la matrice de régresseurs comprend le terme constant, à savoir si elle comprend un vecteur de seulement .

La bonté de essayage et R-carré

Le R-carré, ou coefficient de détermination, est une mesure de qualité de l'ajustement (en anglais essayage) De l'équation de régression linéaire estimée aux données observées.

Afin de définir le R-carré, à la fois ; cette matrice transforme les vecteurs de déviations par rapport à sa moyenne, de sorte que, par exemple, . Il convient de noter que la matrice il est symétrique () et idempotent (). Ainsi, la somme des carrés des écarts de de Il est tout simplement: .

Le R-carré est défini par:

Souvent, le montant dans le numérateur et le dénominateur sont appelés, respectivement, ESS (, Anglais Expliqué Somme des carrés) Et TSS (, Anglais Somme totale des carrés). Notant que, pour faciliter le remplacement:

où la dernière égalité découle du fait que la moyenne des résidus est égal à zéro, vous avez:

de sorte que le R² sera un nombre compris entre et (Certains paquets statistiques transforment ce nombre en pourcentage); par analogie avec ce qui précède, souvent le montant Il est indiqué par les initiales RSS (anglais Somme des carrés résiduels), Ou SSR (Somme des Squared Residuals, grammaticalement correct, mais peut-être moins utilisé).

Heuristique, la mesure R-carré de la fraction de la variabilité des observations nous pouvons expliquer par le modèle linéaire. deux importants avertissement Ils doivent en tout cas garder à l'esprit:

  • Le R-Squared ne mesure pas si en fait il existe une relation (de tout type) entre le et les régresseurs, mais seulement la mesure dans laquelle un modèle linéaire Il se rapproche de la réalité des données observées; un modèle non linéaire, par exemple, pourrait mieux représenter la relation entre la variable dépendante et les variables explicatives, et présenter un bon pouvoir explicatif, même en présence d'un proche de zéro R².
    RQuadroLinearita.jpg
    Les deux graphiques illustrent ce problème; dans les deux cas, l'estimation d'un type de modèle linéaire R² conduirait à une très faible, voire nul; dans le cas du graphique à gauche, cependant, il serait difficile d'exclure la possibilité qu'il y ait une relation (probablement quadratique) entre et le régresseur .
  • Vous pouvez ajouter régresseurs montrent que le modèle ne peut augmenter la valeur supposée dall'R²; cela ne signifie pas que le modèle est mieux, dans le sens où les facteurs correspond le mieux qui expliquent la variable dépendante, mais seulement la essayage Il a été artificiellement améliorée. Afin de corriger la mesure de la qualité essayage indiqué, de manière à pénaliser un modèle caractérisé par un grand nombre de variables explicatives, certains progiciels statistiques font état d'un R² correct, défini comme:

Il est évident que, avec l'augmentation du nombre de régresseurs , des diminutions générales, la correction de l'augmentation artificielle dell'R². Nous montrons ensuite que augmente, l'ajout d'un régresseur, seulement si la valeur de la statistique associée au coefficient de ce régresseur (voir ci-dessous) est supérieur à , de sorte que la valeur correcte est liée à dell'R² signifiance les variables de supplémentaires.

Il devrait faire ressortir certaines croyances erronées au sujet de la R-Squared. Tout d'abord, il ne peut jamais être négatif, car il est le rapport de deux écarts; Cependant, le logiciel statistique peut produire une sortie d'une régression qui présente une R² négative. Cela est dû au fait que ces programmes dans le R-carré est calculée comme la différence entre celui de la variance expliquée et les résidus. Cependant, dans le cas de mispecificazione du modèle ( « oublie » des variables que le procédé de génération de données contient, intersections incluses), la valeur attendue de l'estimation des résidus est généralement différent de zéro, alors la moyenne de l'estimateur de Il est différent de la moyenne . Par conséquent, le calcul du logiciel est erroné car il ne tient pas compte de cela.

propriétés statistiques de OLS

Selon les hypothèses faites ci-dessus, la valeur attendue la valuer Il est égal à vecteur paramètre ; une telle propriété est appelée exactitude; afin de vérifier la exactitude de , il suffit de constater que:

la variance (En fait, matrice variance-covariance) de Vous Obtenue sous forme de:

la Gauss-Markov affirme que cette variance Il est minime parmi ceux des estimateurs de pouvant être obtenu en tant que combinaison linéaire commentaires ; en ce sens il est l'un estimateur efficace (En fait, il est un estimateur BLEU, dall 'Anglais Meilleur estimateur linéaire sans biais, le meilleur estimateur linéaire corrigé).

parce que et des combinaisons linéaires variables aléatoires normal indépendant sont tout à fait normal, il conclut que:

Estimateur du paramètre de variance

Voulant estimer le paramètre , serait un candidat naturel de la variance échantillon:

En fait, l'estimateur serait également au-dessus de l'estimateur de maximum de vraisemblance pour . manipulations simples, cependant, montrent que ces valuer Il ne bénéficie pas des propriétés d'équité; En fait:

. la valeur attendue l'expression ci-dessus est la suivante:

indiqueopérateur trace d'une matrice. L'estimateur du paramètre Il est donc:

En fait:

A noter également que depuis , Il a une distribution Chi-carré avec degrés de liberté.

Test d'hypothèse dans le modèle linéaire

Les techniques du modèle linéaire ci-dessus peuvent trouver différentes applications; avec une certaine simplification, il y a deux utilisations principales de la régression linéaire:

  • Etalonnage d'un modèle, noter dans le contexte de 'analyse numérique comment interpolation, à savoir pour déterminer les valeurs des paramètres d'un modèle connu, sur la base des données observées;
  • Test d'hypothèse en ce qui concerne les paramètres d'un modèle.

Confiner notre attention sur le deuxième point, dans le cadre de statistiques classique (non bayésienne) Procéder à un tests statistiques Il ne peut pas conduire à accepter un 'hypothèse nulle, mais plus ne refuse pas, un peu comme dire que absout le statisticien faute de preuves.

Un premier test concerne l'ordre individuel coefficients modèle; déterminera si la variable j-ième si explicative ou non contre le pouvoir équivalent à la vérification 'hypothèse nulle que le coefficient correspondant est égal à zéro. À cette fin, nous avons recours à tests statistiques:

, que, sous la 'hypothèse nulle Il a une distribution t de Student.

Un cas plus complexe et plus intéressant, les préoccupations d'un ensemble de restrictions linéaires sur les tests coefficients modèle; examiner la question à un 'hypothèse nulle sous la forme:

est un matrice de rang . Par exemple, pour tester le 'hypothèse le premier et le troisième coefficient sont égaux, il suffira d'utiliser la matrice (Dans ce cas particulier, vecteur) , avec , de sorte que 'hypothèse nulle résultat: .

Afin de vérifier l'hypothèse de ce type, il suffit de considérer que, depuis le combinaison linéaire variables aléatoires normales toujours normales:

sous 'hypothèse nulle . Il en résulte que:

pour la propriété connue pour laquelle le combinaison linéaire carrés norme variable aléatoire normale a une distribution Chi-carré, avec des degrés de liberté égal au rang de matrice , (Notez que, en général , et Il sera généralement égal au nombre de restrictions imposées aux paramètres du modèle). Bien sûr, en général, la paramètre On ne sait pas, si l'expression ci-dessus ne peut être directement utilisé pour faire inférence statistique. Toutefois, il note que:

Être connu que la relation entre deux variables aléatoires ayant une distribution quadratique-chi, divisé par leurs degrés de liberté respectifs, est distribuée en tant que F Fisher, vous pouvez utiliser la tests statistiques:

ayant sous 'hypothèse nulle distribution F Fisher avec et degrés de liberté.

multicolinéarité

Si deux ou plusieurs colonnes de la matrice des variables explicatives dépendent de façon linéaire, il n'y a pas inverse de sorte que le vecteur des estimations OLS ne peut être déterminée. Si d'une part, il est très peu probable que cette éventualité se produit dans des applications pratiques, il est encore possible que certaines des colonnes de la matrice sont à côté de la dépendance linéaire; dans ce cas, vous pouvez toujours obtenir un vecteur d'estimations OLS, mais lèveras le problème de multicolinéarité.

On parle de multicolinéarité lorsque une ou plusieurs colonnes de la matrice des régresseurs Ils sont à côté de dépendre de façon linéaire. L'effet de la colinéarité est que la matrice Il est proche d'être singulier. Cela a deux conséquences d'une importance particulière dans les applications:

  1. la signifiance les statistiques des coefficients individuels est modeste;
  2. la essayage La régression est élevée (valeurs d'indice élevé sont observés R²).

Le premier point implique que les intervalles de confiance pour les valeurs des coefficients seront relativement grande; si ces intervalles comprennent zéro, on ne peut pas rejeter l'hypothèse nulle que la variable correspondante n'a pas d'effet sur la variable dépendante.

Un indicateur de multicolinéarité souvent utilisé dans la pratique est la variance facteur d'inflation (Écart facteur d'inflation), ou VIF. VIF est calculé pour chaque variable du modèle (souvent automatiquement à partir d'un autre logiciel statistique), selon l'expression:

R² est le coefficient d'une régression de la colonne -e toutes les autres variables explicatives (y compris le terme constant, le cas échéant). On peut montrer que la variance de l'élément -e vecteur des estimations OLS Elle est proportionnelle à la VIF; donc une avance de haute VIF dans une moindre signifiance le coefficient , va réduire la valeur de la statistique Étudiant associé. un haute est la dépendance linéaire entre l'indice de colonne -e et les autres colonnes de la matrice , -à-dire est un indice de colinéarité. Il y a, cependant, une valeur de seuil particulière du VIF qui détermine sans équivoque la colinéarité; est la sensibilité du chercheur d'évaluer, avec l'aide de l'indication VIF, que ce soit ou non multicolinéarité, dans ce cas, vous devez retirer le régresseur -th (colonne -e de la matrice sur lequel il a été multicolinéarité).

Présentation des résultats estimés

Les estimations et les statistiques de test présentées ci-dessus sont l'objectif du chercheur fait une analyse de régression linéaire. Bien que les conventions dans la présentation des résultats varient considérablement en fonction de la portée du scientifique ou du type de publication, certaines normes sont généralement respectées. Les résultats de estimation un modèle de régression linéaire peut et doit contenir:

  • le nombre d'observations;
  • les valeurs de estimations paramètres ( dans la notation adoptée ci-dessus);
  • les valeurs des statistiques de test t Étudiant est associé à chaque paramètre afin d'évaluer la signifiance; ces statistiques sont souvent accompagnées d'une indication de 'erreur standard associé ( dans la notation ci-dessus), ainsi que la p-value, égal à dans la notation ci-dessus, où est le fonction de distribution cumulative de t l'étudiant, qui présente une indication immédiate de la signifiance (Et sauve le lecteur l'effort d'effectuer un contrôle sur les conseils de t l'étudiant); tout en faisant varier en fonction du domaine scientifique, p-value pris comme une indication de signifiance statistiques sont celles de moins de 0,10, 0,05, 0,01;
  • analyses statistiques pour évaluer la qualité globale du modèle; ceux-ci peuvent être limitées selon les cas de mesure de bonté de essayage R² tels R² et corrigé pour les degrés de liberté (v. Ci-dessus), mais aussi des statistiques de test telles que test F, à savoir la statistique F Fisher associé à l'hypothèse nulle selon laquelle tous les éléments de , sauf l'ordonnée à l'origine, sont en même temps zéro (ce dernier statistique de test est égal au carré de la statistique t associé au paramètre de pente dans le cas univarié);
  • les homologues asymptotique des statistiques de test viennent d'être mentionnés (dans le cas, par exemple, où il y a des raisons de croire qu'il violait l'hypothèse de normalité des perturbations);
  • tests statistiques supplémentaires relatives aux hypothèses du modèle classique de régression linéaire, qui teste l'absence de autocorrelation Les résidus et / ou hétéroscédasticité. Dans ce dernier cas, il peut également être utile de présenter les statistiques t robuste par rapport à ces problèmes, et avec eux le parent erreurs standards et p-value.

Régression et Causalité

Une attention particulière doit être demandé à considérer qu'un modèle:

implique que les variables incluses dans la matrice « Cause » la . Il est important de noter que l'existence de régression (formellement défini dans les paragraphes précédents) Cela ne signifie pas autre chose que l'existence d'un valeur attendue conditionné:

En particulier, il ne peut en général dire que l'expression ci-dessus signifie que les variables cause le comportement des . Comme toujours été exposé par Cochrane (2003), « les régressions ne sont pas responsables des conséquences sur le second élément et le premier membre. » Cependant, il reste vrai que l'une des principales tâches de l'analyse de régression se concentre directement sur les enquêtes de cause à effet; Cependant, dans des contextes expérimentaux « contrôlés » cette possibilité est généralement acceptée. De plus, même dans des contextes d'interprétation d'observation de cause à effet, bien que beaucoup plus doux, il n'exclut pas tout à fait, même dans certains contextes reste la tâche la plus importante. Un accent particulier dans ce contexte est joué par le problème de la variables omises, Si nous sommes amenés à croire que ce problème ne concerne pas, alors une interprétation causale est licite[2].

validité

Les concepts de validité internes et externes fournissent un cadre permettant de déterminer si une étude statistique ou économétrique est utile pour répondre à une question d'intérêt.

externe

L'analyse est externe valide si ses conclusions et les conclusions peuvent être généralisées à la population et le contexte étudié à d'autres populations et contextes. Il doit être jugé en utilisant les connaissances spécifiques de la population et de l'environnement et utilisé comme ceux pour les intérêts.[1]

Une hypothèse cruciale du modèle de régression linéaire classique est que les variables explicatives sont orthogonales au bruit stochastique, par exemple, formellement:

La raison pour laquelle cette hypothèse - aussi connue sous le nom hypothèse d'exogénéité - est critique est bientôt expliqué; il suffit d'observer que:

de sorte que:

En d'autres termes, l'hypothèse d'exogénéité des variables explicatives est une condition nécessaire pour exactitude l'estimateur des moindres carrés (méthode argument similaire peut être donnée en termes asymptotiques, passant du bon cohérence l'estimateur).

Dans tous les cas où il y a des raisons de croire que l'hypothèse d'exogénéité est violée - tous les cas présumés endogénéité régresseurs - vous ne pouvez pas compter sur les résultats d'une régression avec la méthode des moindres carrés ordinaires (la solution est d'utiliser une régression variables instrumentales).

les différences de population

Il est la différence entre la population étudiée et la population d'intérêt. Un exemple est d'effectuer les mêmes tests sur des souris et des hommes sans se demander s'il y a des différences qui affectent l'analyse.

Les différences de contexte

Bien que la population étudiée et l'intérêt étaient égaux, il conviendrait d'évaluer le contexte. Un exemple est une étude d'une campagne d'alcool sur l'université et les étudiants des étudiants des classes primaires.

interne

Une analyse statistique est interne valide si les conclusions statistiques sur les effets de cause à effet sont valables pour la population étudiée.[1]

Distorsion variable omise

La polarisation variable omise survient quand une variable est omise de la régression, qui est un déterminant de la et il est en corrélation avec une ou plusieurs des variables explicatives.

L'omission des variables pertinentes (au sens décrit dans ce qui suit) peut faire des estimations OLS incompatibles. Supposons que le « vrai » modèle est:

mais on estime un modèle:

qui omet la variable considérable ce qui contribue à expliquer la variable dépendante . Ensuite, vous avez:

parce que , régresseur dans le second modèle Il est en corrélation avec la maladie . Pour être précis:

Il est ainsi violé une des hypothèses du modèle de régression linéaire classique, et les estimations des paramètres avec la méthode des moindres carrés ordinaires, ils sont incompatibles.

Il convient de noter que, si la variable pertinente est orthogonale à (Et, par conséquent, ), Le problème disparaît (la Théorème Frisch-Waugh-Lovell précise et étend cette dernière considération).

  • solution: Si l'erreur est observable, vous devez inclure la variable omise dans la régression multiple. Si ce n'est pas observée, vous pouvez:
1. Utiliser des données dans lequel des moments différents est observée de la même unité;
2. Utilisez la régression variables instrumentales;
3. Faire une expérience contrôlée randomisée.

Une mauvaise forme de régression

Cette erreur se produit lorsque la fonction de régression qui décrit les données sont incorrectes. Par exemple, une fonction de régression d'une population non linéaire Il est décrit comme linéaire.

  • solution: Changer la forme de la fonction.

Des erreurs dans les variables

Typiquement, une erreur de mesure ou de confusion, qui consiste à déformer l'ensemble de l'ensemble de données.

  • solution:
1. Obtenir une mesure plus précise de ;
2. Utilisez la régression variables instrumentales.

La causalité simultanée

La distorsion de la causalité simultanée se produit dans une régression de Y sur X lorsque, en plus du lien de causalité d'intérêt par à , il y a un lien de cause à effet de à . Cette causalité inverse fait connexe avec 'erreur statistique intérêt dans la régression.

  • solution:
1. Faire une expérience contrôlée de causalizzato où le canal de causalité inverse est contrôlé;
2. Utilisez la régression variables instrumentales.

sélection de l'échantillon

Elle se produit lorsque le processus de sélection est lié à la valeur de la variable dépendante; ceci peut introduire la corrélation entre l 'erreur statistique et régresseur, ce qui conduit à une distorsion de l'estimateur OLS.

Régresseurs estimés (ou généré)

On suppose qu'ils ne peuvent pas observer directement régresseur, qui doit être estimée (ou généré, selon une terminologie différente); pour concrétude, envisager un modèle « réel »:

et il est supposé avoir seulement une estimation de :

Si vous procédez à l'estimation:

Vous obtenez:

avec:

.

supposant , l'estimation du paramètre Il est plus proche de zéro que c'est la valeur « réelle » du paramètre (cet effet est connu comme le mot anglais biais d'atténuation). Il est facile de voir que le problème est moins prononcé lorsque la variance d'erreur dans l'observation de , Il est inférieur à la variance même - qui est, sans surprise, quand On peut estimer avec une précision relative.

Enfin, il convient de noter qu'aucun problème se pose dans le cas où la variable dépendante - - soit estimée ou généré. Dans ce cas, le terme d'erreur qu'il contient sera simplement incorporé dans la perturbation de la régression - , sans affecter la cohérence des estimations OLS.

propriétés asymptotiques du modèle de régression linéaire classique

Les propriétés décrites ci-dessus peuvent être généralisés au cas où les hypothèses sur la distribution des termes d'erreur ne sont pas nécessairement valables pour échantillons dimension finie. Dans ce cas, le recours est aux propriétés asymptotique estimations, en supposant implicitement que, pour la taille de l'échantillon suffisamment grand, la distribution asymptotique des estimations coïncident, ou une approximation raisonnable, celle réelle. Les résultats sont basés sur théorème de la limite centrale, ou ses généralisations.

Afin d'illustrer les propriétés asymptotiques des estimateurs des moindres carrés ordinaires, supposons que:

désigne la convergence en probabilité et la matrice d'identité.

L'expression de l'estimateur des moindres carrés ordinaires peut être réécrite comme:

En ce qui limite pour , Vous avez alors:

(On notera que dans la limite de probabilité inverse Il est l'inverse de ). Par conséquent, l'estimateur converge en probabilité de la valeur réelle du vecteur de paramètres - Il dit Il a la propriété de cohérence.

En appliquant une extension triviale théorème de la limite centrale le cas à plusieurs variables, vous aussi:

désigne la convergence dans la distribution. De ce résultat, il en découle que:

En d'autres termes, l'estimateur des moindres carrés ordinaires est non seulement substantiel, mais aussi asymptotiquement normalement distribué; toutes ces propriétés est indiquée par l'acronyme Anglais CAN (Cohérente et asymptotiquement normal).

Les extensions du modèle linéaire classique

Les procédés décrits ci-dessus constituent le noyau du modèle classique de régression linéaire; bien que des outils d'analyse valides pour un large éventail de disciplines et d'études de cas, ils s'exposent à un certain nombre de critiques, centrées sur la simplicité des hypothèses qui sous-tendent le modèle.

Ces critiques ont conduit à la formulation des modèles plus généraux, caractérisé par des hypothèses moins restrictives que celles posées ci-dessus. L'analyse a battu quelques rues principales:

  • Suppression de l'hypothèse d'une absence corrélation et homoscédasticité;
  • hypothèses concernant la distribution de probabilité des perturbations;
  • L'analyse des propriétés asymptotiques du modèle de régression linéaire classique, par exemple par l'intermédiaire du procédé delta.

Cela a permis le développement de modèles alternatifs, ou au moins complémentaire au modèle classique; parmi les plus connus, la méthode de moindres carrés généralisés, méthodes d'estimation par variables instrumentales, divers modèles de régression robustes, ainsi que de nombreux modèles développés dans l'analyse des séries chronologiques et données de panel.

notes

  1. ^ à b c James Stock, Mark Watson, Introduction à l'économétrie, Milan, Pearson Education, 2005, p. 95 ISBN 978-88-7192-267-6.
  2. ^ Verbeek, Un guide à l'économétrie moderne - 2e édition - section 5.3.1 - page 132: lorsque nous interprétons le modèle comme espérance conditionnelle, la condition ceteris paribus fait référence uniquement aux variables incluses, alors que pour une interprétation causale, il comprend également les inobservables (omis variables) dans le terme d'erreur..

bibliographie

Articles et contributions historiques

  • A.M. legendre (1805) Nouvelles methods versent la détermination des Orbites des Comètes (L'annexe contient une section intitulée "Sur la Méthode des Moindres Quarrés" - Sur la méthode des moindres carrés);
  • C. F. gauss (1809) Theoria Motus Corporum Coelestium dans Sectionibus Conicis Solem Ambientum;
  • C. F. gauss (1821/1823) Theoria combinationis observationum erroribus minimis obnoxiae;
  • Charles Darwin (1869) La variation des animaux et des plantes à l'état domestique (Chapitre XIII contient une description de ce qui était connu au moment de Galton, sur réversion; Darwin utilise le terme réversion (réversion) Au lieu de régression);
  • Francis Galton (1877) Les lois typiques de l'hérédité, nature 15, 492-495, 512-514, 532-533 (Galton utilise le terme réversion (réversion) Dans ce travail, dans lequel il analyse la taille des pois);
  • Francis Galton (1885) adresse présidentielle, section H, anthropologie. (Galton utilise le terme régression (régression) Dans ce travail, dans lequel il analyse la hauteur des êtres humains);
  • Francis Galton (1886) Régression vers la médiocrité dans Hereditary Stature, Le Journal de l'Institut Anthropologique, 15: 246-263 (Une copie est disponible à l'adresse: [1]);
  • George Udny Yule (1897) Sur la théorie de la corrélation, Journal de la Royal Statistical Society, 812-54;
  • Karl Pearson, G. U. Yule, Norman Blanchard, et Alice Lee (1903) La loi de Ancestral Hérédité, Biometrika;
  • Ronald Fisher (1922) La qualité de l'ajustement des formules de régression, et la distribution des coefficients de régression, Journal de la Royal Statistical Society 85, 597-612;
  • Ronald Fisher (1925) Méthodes statistiques pour les travailleurs de recherche.

La théorie moderne

  • D.C. Boes, F. A. Graybill, A. M. Mood (1988) Introduction à la statistique, McGraw-Hill Books Italie, ISBN 88-386-0661-7, le texte de référence pour les bases de statistiques mathématiques; Chapitre 10 fournit une introduction au modèle linéaire et la régression linéaire classique dans le cas unidimensionnel; Les chapitres 3, 5, 7-8 familles traitent distributions mentionnés ci-dessus, les problèmes liés aux fonctions de variables aléatoires, ainsi que la théorie générale de la classique estimation pour les points et les intervalles de confiance;
  • N.R. Draper, H. Smith (1998) Analyse de régression appliquée, Série Wiley en statistique et la probabilité, ISBN 0-471-17082-8, illustrent les procédés de la régression linéaire classique décrit ci-dessus, et introduit des méthodes les plus avancées de régression robuste et bootstrap; consacre des chapitres 20-21 aux propriétés géométriques de estimateurs OLS (en Anglais);
  • John R. Taylor, (1999) Introduction à l'erreur, Pearson Education, ISBN 88-08-17656-8, explique de manière claire et intuitive les bases de statistiques, l'introduction de la méthode de régression linéaire, les principales familles de distributions, la théorie générale du classique estimation pour les points et les intervalles de confiance, présentant également plusieurs exemples concrets.

La pratique actuelle

Dans le cadre de 'économétrie (Manuels, voir aussi l'article économétrie):

  • Davidson, J. (2000) Théorie économétrie, Blackwell, ISBN 0-631-21584-0, un texte avancé, maître / doctorat; Il contient une analyse détaillée des aspects géométriques et statistiques du modèle de régression linéaire classique, ses statistiques de propriétés asymptotiques, ainsi qu'un large débat des techniques les plus avancées liées à l'analyse des séries chronologiques (en Anglais);
  • Greene, W. H. (2000) Analyse économétrie, Prentice-Hall, ISBN 0-13-013297-7, analyse en détail le modèle classique de régression linéaire dans le cas à plusieurs variables, en particulier à ses applications dans le domaine des 'économétrie, discipline qui est le texte de niveau universitaire / maître de référence (en Anglais);
  • Lancaster, T. (2004) Une introduction à la moderne économétrie bayésienne, Blackwell, ISBN 1-4051-1720-6, contient une analyse (introduction) du modèle de régression linéaire avec la perspective de 'inférence bayésienne, Principal concurrent de notation classique, ou fréquentiste, dans 'économétrie (en Anglais).

Dans le cadre de financement:

  • Campbell, J., A. W. Lo et A. C. MacKinlay (1996) L'économétrie des marchés financiers, Princeton University Press, ISBN 978-0-691-04301-2, un livre de référence pour les applications d'analyse statistique et en régression particulier, l'étude des marchés financiers (en Anglais);
  • Cochrane, J. (2003) Asset Pricing - Édition révisée, Princeton University Press ISBN 0-691-12137-0, un texte d'introduction sur la théorie des 'prix des actifs, avec de nombreux chapitres consacrés aux applications du modèle de régression linéaire à des tests empiriques des modèles de prix des actifs.

Dans le cadre de physique:

  • Loreti, M. (1998) Théorie des erreurs et des fondations statistiques, Decibel Zanichelli, ISBN 88-08-09785-4, une excellente introduction à la statistique en physique, peut également être téléchargé (légalement) Du site de l'auteur, [2]

Dans le cadre de la recherche sociale:

  • Pisati M. et P. Corbetta Gasperoni G., (2001). « Statistiques de la recherche sociale », Il Mulino.

Dans le domaine de la linguistique, en particulier psycholinguistique:

  • Baayen, R. H., (2006). L'analyse des données linguistiques. Introduction pratique à l'aide de la statistique R., Cambridge University Press. (Téléchargeable également sur le site Web de l'auteur, [3])

Articles connexes

D'autres projets

liens externes