s
19 708 Pages

1leftarrow blue.svgArticle détaillé: Time Series.

L 'analyse des séries chronologiques Il comprend une série de méthodes statistique agit pour enquêter sur une séries chronologiques, déterminer le processus à la base de celui-ci et d'en tirer des prédictions.

Selon l'approche traditionnelle, on suppose que le processus a une partie déterministe, ce qui permet de décomposer en éléments de tendance, cycliques et / ou saisonniers, et que la différence entre les données théoriques du modèle déterministe et les données observées sont attribuables à un composant aléatoire résiduel.

Selon l'approche moderne, cependant, il suppose que le processus décrit a été généré par un processus stochastique descriptible au moyen d'un modèle probabiliste de type paramétrique.

objectifs

L'analyse d'une série chronologique peut avoir des objectifs différents:

  • décrire brièvement la tendance au fil du temps d'un phénomène; le graphique d'une série, en particulier, met en évidence à la fois facilement une certaine régularité, les deux valeurs aberrantes;
  • expliquer le phénomène, en identifiant son mécanisme de générateur, et une relation avec d'autres phénomènes;
  • la filtration de la série; on entend par là la répartition de la même série en ses composants non observables;
  • prédire l'évolution future du phénomène.

Mise en route

Avant toute analyse, nous examinons les données brutes et vous faites souvent quelques ajustements pour purifier les données à discontinuités ou les effets de différentes durées des intervalles ou des périodes considérées, ou pour tenir compte des valeurs aberrantes.

discontinuité

Quelques exemples de discontinuité sont les changements de base de la série historique de numéros d'index, ou la présence de différents paramètres pour les variables économiques (prix courants ou constants, différents critères déflation etc.).

Dans ce cas, si vous ne parvenez pas à éliminer la discontinuité peut être préférable de limiter l'analyse aux données homogènes.

effets de calendrier

La durée différente des périodes affecte les valeurs observées pour les mêmes périodes de plusieurs années, la production de variations ne peut être attribué à la performance du phénomène; par exemple, dans les séries mensuelles de données de production, les variations des données brutes dépendent en partie seulement du nombre de jours ouvrables dans différents mois. Vous pouvez éliminer ces perturbations de diverses façons:

  • l'agrégation des données sur des périodes plus longues, telles que le déplacement de la série mensuelle ou trimestrielle demi-série;
  • faire passer les données moyennes journalières, à savoir par le remplacement du brut mensuel donné par la relation entre la valeur observée et le nombre de jours concernés dans le mois auquel la valeur se réfère; indiquant ym la valeur observée au cours du mois m et Nm le nombre du nombre de jours ouvrables pertinents (par exemple jours) au cours du mois:
  • l'application des coefficients de correction, par exemple en remplaçant la valeur mensuelle ym avec une valeur « corrigée » yAGm, égal au produit de la valeur brute pour le rapport de la moyenne mensuelle des jours concernés dans l'année et le nombre de jours du mois auquel la valeur fait référence:

valeurs aberrantes

On peut distinguer deux catégories de valeurs aberrantes (également connu sous le nom valeurs aberrantes):

  • il a une variation brusque de la série à un instant donné, après quoi, cependant, la même série retourne immédiatement (que l'on appelle valeurs aberrantes additif) ou progressivement (que l'on appelle changement temporaire) Avant l'exécution;
  • il a une variation brutale qui persiste au fil du temps, ce qui provoque un changement de niveau ou la même tendance de la série (par exemple, la PIB de Allemagne Il est nivelé après la réunification 1990).

Dans le premier cas, il est préférable d'ignorer la valeur aberrante, en remplaçant éventuellement avec une moyenne de valeurs précédant immédiatement et suivant, dans le second il est préférable de briser la série et pour analyser séparément l'avant et à l'arrière pour les données de variation.

Analyse des séries chronologiques
Des exemples de valeurs aberrantes

corrélogramme

icône Loupe mgx2.svg Le même sujet en détail: corrélogramme.

Il est utilisé souvent voir la corrélogramme la série, afin de détecter la prévalence éventuelle d'une composante tendancielle, saisonnière ou stochastique.

approche traditionnelle

En général, on suppose que les données dans les séries historiques liées à un phénomène Y Ils sont générés par un processus du type:

fa(t) Génère une séquence complètement déterministe (partie systématique Série) et {ut} Il est une séquence de variables aléatoires obéit une loi probabilité (partie stochastique de la série).

Dans l'approche traditionnelle, il suppose qu'il existe une « loi » de l'évolution temporelle du phénomène, représenté par fa(t), Et que les résidu (Les différences entre les valeurs théoriques et les valeurs observées) sont dues au hasard et, par conséquent, sont comparables à des erreurs accidentelles. Les résidus sont normalement indiquées par εt et conçu comme variables aléatoires indépendant, identique distribué, avec médias rien variance constante (approche moderne, cependant, on suppose que la partie systématique est manquante ou a déjà été supprimé, en utilisant des estimations ou d'autres motifs, et nous étudions la composante stochastique ut).

Il croit aussi qu'une partie systématique est le résultat de trois éléments qui ne sont pas directement observables:

  • la tendances (ou composante tendancielle) Il est la tendance du fond du phénomène considéré, souvent exprimé par une fonction polynomiale de degré pas trop élevé;
  • la cycle (ou composante cyclique) Est l'alternance de différentes fluctuations des signes autour de la tendance (v. Aussi cycle économique);
  • la saisonnalité (ou saison) Il est constitué par les variations qui se produisent avec une intensité similaire dans les mêmes périodes de l'année à l'autre, mais avec une intensité différente au cours d'une seule et même année (par exemple, la production tombe chaque année en été en raison de la fermeture pour les vacances de nombreuses entreprises mais il augmente chaque année à l'approche de Noël et plus grand effet de la consommation).

Le composant accidentel est comprise entre les résidus εt. Par exemple, si vous avez des données trimestrielles, si on estime que les données sont produites par une tendance de croissance linéaire du type:[1]

Si vous apercevez une composante saisonnière qui provoque une augmentation des deuxième et quatrième trimestres et une diminution de la première et la troisième:

(Où Qla sont des variables qui prennent la valeur 1 dans 'la-e trimestre et 0 dans l'autre), les différences entre les valeurs observées yt et les valeurs estimées sont les suivantes:

Analyse des séries chronologiques
séries chronologiques échantillon et sa décomposition en composantes de tendance, saisonnière et accidentelle

la combinaison des composants Modèles

Certains modèles traditionnels typiques sont les suivants:

  • modèle additif: ;
  • modèle multiplicatif: ;
  • modèle mixte: ;

Tt est la tendance de la valeur au moment t, Ct est la valeur du cycle, St le caractère saisonnier et εt composant accidentel.

Le modèle multiplicatif peut être transformé en utilisant des additifs logarithmes:

;

Le cycle a une base à long terme. Pour cette raison, dans l'analyse à court / moyen terme (appelé cyclique) la tendance et la composante cyclique sont souvent considérées comme un tout et il existe des modèles du type:

TCt est un composant appelé « cycle de tendance. »

tendance linéaire dans les paramètres ou linéarisable

Il est dit linéaire dans les paramètres type de tendance polynomiale:

que les paramètres à estimer, α0...αp, Ils sont tous au premier degré.

Il dit à la place linéarisable dans les paramètres une sorte de tendance:

0 « />

adapté pour représenter les phénomènes qui augmentent (α1 > 0) ou diminuer (α1 < 0) secondo una progression géométrique, et qui peut être linéarisé comme suit:

Dans le cas des données mensuelles ou trimestrielles, vous pouvez prendre en compte la composante saisonnière, comme déjà mentionné ci-dessus, au moyen du soi-disant mannequins (variables fictif). Dans le cas des données mensuelles en utilisant 12 variables Mla vaut 1 'la-e mois et 0 dans l'autre; dans le cas des données trimestrielles utilisant quatre variables Qla vaut 1 'la-e trimestre et 0 dans l'autre. Par exemple, un modèle linéaire de l'additif avec composante saisonnière de données trimestrielles est du type:

où:

  • α Il représente l'intersection avec l'axe des ordonnées;
  • β Il est l'augmentation absolue de Yt pour chaque unité de temps;
  • γ1...γ4 sont les paramètres du mannequin variables.

Si on croit être en mesure d'assumer une tendance linéaire ou linéarisable, les paramètres peuvent être facilement estimés par régression linéaire. Vous ne devez utiliser quelques astuces lors de l'utilisation des variables muettes. Ceux-ci, en fait, ils introduisent multicolinéarité dans les données et, par conséquent, vous ne pouvez pas être ensemble pour estimer l'interception α et les paramètres des variables nominales (γla).[2] Il utilise ensuite estimer que les paramètres des variables muettes, ou que l'interception et trois des paramètres variables factices; par exemple, on suppose que le modèle:

Une fois obtenu l'estimation des paramètres signalés par un astérisque, il remonte à la série de paramètres avec une simple transformation qui est basée sur les égalités:

  •    (L'ordonnée à l'origine obtenue « comprend » la non-variable estimée);
  •    (Si vous calculez une nouvelle interception, inférieure à celle obtenue, le graphe « est abaissé », vous devez alors ajouter la différence aux paramètres variables factices pour « augmenter » le graphique);
  •    (Les effets saisonniers décalés les uns des autres).

D'eux, on obtient:

qui vous permet de calculer les paramètres α, γ1, γ2, γ3 et γ4 basé sur α*, γ*1, γ*2, γ*3.

Modèle d'évaluation et prévisions

En général, il est utilisé pour évaluer l'ajustement du modèle aux données observées à l'aide de la coefficient de détermination R2. Cependant, l'augmentation du degré du polynôme interpoler l'adaptation améliore, mais il devient plus difficile d'interpréter les paramètres, dont le nombre augmente avec le degré.

Il utilise ensuite un coefficient "correct« :

n est le nombre d'observations et p le nombre de paramètres (y compris l'ordonnée à l'origine) et dont la valeur augmente si elle augmente R2, mais elle diminue si elle augmente p.

Il vérifie également la corrélogramme des déchets, qui doivent être fluctuant dans une bande étroite.

Si l'ajustement est bon, le modèle peut être utilisé pour la prévision. Par exemple, si vous avez 80 enquêtes trimestrielles depuis le premier trimestre 1989 au quatrième trimestre de 2008, si vous avez obtenu un bon ajustement pour l'estimation:

  • les prévisions pour le premier trimestre de 2009: 200 + 1,5 × 81-4 ×Q1= 200 + = 121,5 à 4 317,5 (Q2 = Q3 = Q4 = 0 pour le premier trimestre);
  • les prévisions pour le deuxième trimestre de 2009: 200 + 1,5 x 82 + 4 ×Q2= 200 + 123 + 4 = 327 (Q1 = Q3 = Q4 = 0 pour le deuxième trimestre).

linéarisable pas dans les paramètres de tendance

Si le phénomène observé a une phase de croissance suivie d'une décélération progressive, vous pouvez supposer que la tendance suivante:

  • courbe exponentielle modifiée;
  • courbe logistique;
  • courbe Gompertz;

la présentation d'un asymptote horizontal comme ils ont tendance à α quand t Elle tend vers l'infini.

Dans des cas comme ceux-ci (la dynamique des populations, l'évolution de la demande de linéarisation n'est pas possible de biens durables, etc.). et est utilisé, par conséquent, régression non linéaire.

moyennes mobiles

icône Loupe mgx2.svg Le même sujet en détail: moyenne mobile.
Analyse des séries chronologiques
L'analyse des échantillons d'une série temporelle avec une moyenne mobile

Si la tendance du phénomène semble inégale, il est préférable de localiser la composante tendancielle de façon empirique, ce qui élimine les composantes saisonnières et / ou par accident moyennes mobiles.

En particulier, pour éliminer le présent saisonnier dans les données trimestrielles, vous pouvez utiliser une moyenne mobile à 4 termes:

ou:

Dans les deux cas, ils utiliseraient les valeurs qui, étant la moyenne des valeurs observées dans quatre trimestres successifs, non affectés par la composante saisonnière.

Le milieu d'un nombre égal de termes, cependant, ont tendance à exprimer la valeur du phénomène à un temps intermédiaire par rapport à ceux observés (intermédiaire entre t-1 et t dans le cas de M1, entre t et t+1 dans le cas de M2).

Il est donc préférable de composer le moyen M1 et M2 dans une moyenne mobile de cinq termes centrés sur le temps t:

La série de moyennes mobiles est la tendance (ou tendance-cycle), qui peut alors être étudiée à l'aide d'autres méthodes. Sa détection, cependant, permet le calcul d'un saisonnalité brut, qui incorpore une partie accidentelle; indiquant les données observées au moment t et la tendance estimée avec des moyennes mobiles, nous avons:

  ou  

selon ce que vous préférez un modèle additif ou multiplicatif.

Dans l'analyse sur la base des constantes de régression, on obtient des coefficients de saisonnalité. Dans les analyses basées sur cependant, les moyennes mobiles, vous pouvez choisir parmi:

  • modèles de saisonnalité constante: il calcule la moyenne, pour chaque trimestre des facteurs saisonniers bruts et ainsi obtenir les facteurs de saisonnalité net Sla, qui sont ensuite ajustées de façon à assurer qu'ils se compensent, de sorte que leur somme soit 0 (modèles additifs) ou leur produit est de 1 (modèles multiplicatifs);
  • modèles de saisonnalité variables: le remplacement, pour chaque trimestre, les facteurs saisonniers bruts avec leur moyenne mobile (normalement 3 termes), ou en utilisant une « tendance de saisonnalité ».

Une fois que les facteurs de saisonnalité nets identifiés, on calcule les résidus:

   ou   

selon qu'ils suivent l'additif ou multiplicatif l'approche, il se produit (dans le premier cas avec un corrélogramme) Que les résidus ont la variance moyenne 0 et constante.

exponentiel

Lorsque vous utilisez les moyennes mobiles, ils perdent une partie des valeurs initiales et finales de la série chronologique (par exemple, si vous avez des données de temps 1 à temps 80, avec une moyenne mobile à 5 termes sont obtenus en moyenne de temps 3 à l'heure 78) . Ceci est un inconvénient, surtout si vous visez à faire des prédictions, parce qu'ils ne les termes plus proches de ceux estimés. On pourrait penser à obvier le problème avec des moyennes mobiles non centrée et asymétrique, par exemple du type:

  ou:  

Dans la pratique, ils préfèrent cependant des approches qui généralisent ce qui a été spéculé.

lissage exponentiel simple

en lissage exponentiel simple se déplace à partir de la moyenne des n valeurs observées:

et il se transforme en une moyenne pondérée avec un poids croissant de façon exponentielle (plus bas pour les valeurs initiales, à la suite de celles finales) dont la somme est 1. On affecte ensuite un poids α entre 0 et 1 au dernier terme, le poids (1 - α) Dans l'avant-dernier, (1 - α)2 le troisième dernier et ainsi de suite, et vous avez (v. série géométrique):

Il remplace alors la série observée yt avec la série niveau:

quand α, le poids attribué à la dernière valeur observée, il est dit nivellement constant.[3]

Pour le calcul sont plus confortables récursives les formulations suivantes:

    (Roberts, 1959)[4]

ou:

    (Hunter, 1986)[5]

La valeur initiale est calculée de diverses manières nivelé série: pose égale à la première valeur observée, ou la moyenne de toutes les valeurs observées ou une partie d'entre eux (le premier 4 ou 5, ou la première moitié). Ce sont des accords qui ne modifient pas le résultat final (la prévision météorologique n + 1), parce que les premiers termes de la série sont affectés des poids très faibles.

Les formules Roberts et Hunter diffèrent dans l'interprétation des ln, la dernière valeur calculée:

  • dans le premier cas est comprise comme une valeur prédite, de sorte que  ;[6]
  • dans le second cas il est entendu que le nivellement de la valeur observée, de sorte que , sur la base de laquelle la prédiction est réalisée par répétition de la formule:  .

Dans tous les cas, il suffit que la série observée est pas trop court parce que vous obtenez les mêmes valeurs  .

En ce qui concerne la mise à niveau constant α, il peut être choisi de manière à réduire au minimum les carrés des écarts entre les valeurs observées et celles de niveau, ou en fonction des objectifs de l'étude; une valeur élevée (proche de 1) donne plus d'importance aux dernières valeurs observées, une faible valeur favorise plutôt la tendance moyenne du phénomène.

Analyse des séries chronologiques
Exemple d'une série de temps de lissage exponentiel (en noir) avec mise à niveau constant égal à 0,7 (en rouge) et 0,1 (en bleu)

Il est très important de noter que le lissage exponentiel simple conduit à une prédiction constante. En fait, compte tenu de la formule Roberts, nous avons:

et ainsi de suite. Il est donc une méthode utilisable uniquement pour aucune série de tendance.

Les méthodes de Holt-Winters

Une première façon de rendre compte de la tendance est la mise en place d'un dérive (dérive en anglais) qui modifie les valeurs lissées en fonction des grandeurs variables dans le temps; par exemple:

Ils sont principalement utilisés i méthodes de Holt-Winters, ce qu'on appelle les noms de ceux qui les ont présentés.

Un premier modèle ne prend en compte la tendance, en supposant que, au moment t le phénomène peut être approchée par une ligne droite du type:

avec une interception lt et la pente t. Ils définissent les rapports suivants:[7]

La première (de façon similaire à ce qui se passe dans le lissage exponentiel simple) peut être considéré comme une moyenne pondérée entre la valeur observée et la prédiction calculée au moment précédent; la seconde comme une moyenne pondérée de la différence entre la prévision à l'époque t et précédente et la pente calculée à l'instant précédent (1 poids attribué à ce dernier reviendrait à prendre une tendance linéaire, ou d'une constance de la pente).

Le modèle est étendu pour tenir compte de la saisonnalité, en plaçant un poids supplémentaire γ. Nous avons un additif modèle saisonnier:

st Il est un facteur saisonnier p sa périodicité (4 pour les données trimestrielles, 12 pour les données mensuelles), et un modèle multiplicatif saisonnier:

Il est des modèles très flexibles, car ils vous permettent de garder la tendance en compte non polynomiale et non saisonnier constant. En ce qui concerne le choix de α, β et γ, également dans ce cas (mais avec une plus grande complexité évidente), vous pouvez rechercher les valeurs qui réduisent au minimum les écarts au carré ou il peut être ajusté en fonction des objectifs de l'analyse.

la cote de qualité de prédiction

indiquant avec T le temps de la valeur la plus récente considérée dans la mise à niveau d'une série, les prévisions, les valeurs observées à des instants successifs à T et leurs différences (erreurs de prévision) sont indiquées, respectivement, avec:

Ils utilisent les mesures de qualité suivantes:

  • l'erreur absolue moyenne (MAE, Erreur moyenne absolue, l'erreur moyenne absolue); a choisi un horizon prévu k, la vérification est effectuée pour la valeur attendue au moment T pour le moment T + k, puis de la valeur prédite à l'époque T + 1 (grâce à la disponibilité d'une nouvelle valeur observée) pour le temps T + 1 + k; Vous avez donc:[8]
  • l'erreur quadratique moyenne (MSE, Erreur quadratique moyenne en anglais, erreur quadratique moyenne):
  • la racine carrée de la précédente (RMSE, Erreur quadratique moyenne en anglais):

Il utilise également la comparaison entre les « tournants » (test Kendall). Pour « point tournant » désigne un point où une série graduée devient décroissant ou vice versa. Ils comptent les points de retournement présents dans la série détectée et celle estimée ou lissé et sont calculés:

  • indice d'erreur de première espèce: le rapport entre le nombre de points de retournement qui ne coïncident pas, car seulement présent dans la série estimée et le nombre total de points d'inflexion de la série estimée;
  • indice d'erreur de seconde espèce: le rapport entre le nombre de points de retournement qui ne coïncident pas parce que présent dans la série détectée, et le nombre total de points d'inflexion de la série détectée.

Il convient de noter que, puisque le modèle est recalculé avec l'augmentation de s, toutes les mesures mentionnées servent à estimer l'approche suivie bonté, non pas que l'adaptation aux données.

approche moderne

Définition formelle des séries chronologiques

Rappelez-vous d'abord que variable aléatoire peut être définie en fonction d'une valeur réelle mesurable sur un espace probabiliste: X:

où:

  • : Espace de l'événement
  • F sigma-algèbre
  • P probabilité définie
  • B (R) sigma-algèbre de Borel défini sur l'ensemble des nombres réels R
  • probabilité induite par X sur (R, B (R))

Compte tenu de cette prémisse, vous pouvez définir un processus stochastique comme une succession de variables aléatoires indexée par un paramètre. Dans l'analyse des séries chronologiques, ce paramètre est le temps, noté t T, avec un espace de paramètre T, qui peut être considéré discret (Cas habituel, si l'on considère les différents jours ou mois, ou des années) ou continu.

De là, vous pouvez déduire la notion de séries chronologiques, qui sera le la mise en œuvre sur d'un processus stochastique, indiqué par la notation , où N '

Processus stochastiques spéciaux Cas

  • t et Ils sont variables: est un processus stochastique proprement dite
  • t variable et fixe de telle sorte que =, Il est le soi-disant trajectoire le processus stochastique
  • t fixe, variable et t =, Il est une variable aléatoire
  • tous les paramètres: est un nombre réel
  • données et sécurisé il a une série historique proprement dite.

notes

  1. ^ Il utilise normalement le « plafond » ^ pour indiquer que la Elles sont données estimées et pour les distinguer des données observées .
  2. ^ Il utilise évidemment Régression linéaire multiple. Le modèle ressemble à ceci:
    Il y a tellement de lignes comme celle-ci comme il y a des valeurs t (Par exemple, 60 si l'on considère les données trimestrielles pour 15 ans). Vous pouvez donc réécrire le modèle sous forme matricielle:
    où:
    le transporteur β Il est égal à:
    mais cela signifie qu'il ne peut être calculé si la matrice XTX il est renversement, alors que si la matrice X il a rang p. Toutefois, si β1 est l'ordonnée à l'origine, puis la première colonne de la matrice X Il se compose de tous les 1; si quatre variables indiquent la saisonnalité, les colonnes correspondantes de la matrice sont les suivantes:
    Il en résulte que la première colonne est la somme des quatre colonnes correspondant aux variables muettes et, par conséquent, le rang de X Il est moins p.
  3. ^ Certains auteurs appellent le nivellement constant montant δ = (1 - α).
  4. ^ S. W. Roberts, « mires de contrôle basés sur des moyennes mobiles géométriques » technométrie, 1959, vol. 1, pp. 239-250 (cfr. NIST Statistiques d'ingénierie Manuel, section 6.3.2.4).
  5. ^ J. S. Hunter, « La exponentiellement pondérée moyenne mobile » Journal of Technology Qualité, 1986, vol. 18, pp. 203-210 (cfr. NIST Statistiques d'ingénierie Manuel, section 6.4.3.1).
  6. ^ Au sens strict, la valeur attendue est  . Cependant, comme dans l'approche traditionnelle, il suppose que les variations accidentelles ont moyenne zéro, valeur attendue zéro, un a  .
  7. ^ Ici, comme dans le cas d'un simple lissage exponentiel et dans celui de la méthode Holt-Winters par la saisonnalité, certains auteurs inversent les rôles des facteurs α et (1 - α) β et (1 - β) γ et (1 - γ).
  8. ^ En d'autres termes, si vous avez des données trimestrielles qui vient au 4ème trimestre X, Il ne se produit pas la qualité des prévisions pour la prochaine n quarts, puisque le modèle est calibré pour fonctionner dans un très court ou moins les prévisions à court terme (dans le cas d'un simple lissage exponentiel, par exemple, un α proche de 1 est approprié pour la prévision immédiate, un α plus petit est mieux adapté à moins prévisions à court terme). Elle est ensuite réalisée, par exemple, les prévisions pour le 1er trimestre X+1, puis, quand il devient disponible, la valeur « true » à cette date, il les prévisions pour le 2ème trimestre et ainsi de suite. k Il est donc constant.

bibliographie

  • Estela Bee Dagum, analyse des séries chronologiques - la modélisation, la prévision et la répartition, Milan, Springer Verlag, 2002. ISBN 88-470-0146-3.
  • Tommaso Di Fonzo et Francesco Lisi, séries chronologiques économiques, Roma, Carocci, 2005. ISBN 978-88-430-3423-9.
  • Gary Koop, la logique statistique des données économiques '', Torino, UTET, 2001. ISBN 88-7750-735-7.

Articles connexes