s
19 708 Pages

PMML
extension .PMML
développé par Data Mining Group (DMG)
format ouvert? oui

la Predictive Model Markup (PMML) Il est langage de balisage sur la base ouverte XML, mis au point par le Data Mining Group (DMG), conçu pour permettre la description des modèles analyse prédictive qui peuvent être partagées entre les différents systèmes et applications. PMML est une norme de facto,[1][2] qui a pris naissance en 1997.

Étant donné que PMML est une norme basée sur XML, les spécifications sont Schéma XML.

Composants PMML

PMML suit une structure intuitive pour décrire un modèle d'exploration, que ce soit un modèle de réseau de neurones ou un modèle de régression logistique.

La structure peut être décrite par les éléments suivants:[3][4]

  • En-têteIl contient des informations générales sur le document PMML, telles que les informations de droit d'auteur du modèle, sa description et des informations sur l'application (nom et la version) utilisée pour générer. Il contient également un attribut d'horodatage qui peut être utilisé pour spécifier la date de création du modèle.
  • Dictionnaire de donnéesIl contient les définitions de tous les champs possibles utilisés par le modèle. Ici, il est défini comme le champ (attribut optype) continue, catégorique ou ordinal. De cette définition, il dépend de l'évaluation correcte de la plage qui est définie après le type de données (par exemple sous forme de chaîne et double).
  • Transformations de données: Les transformations qui permettent la mise en correspondance des données sous diverses formes, à utiliser par le modèle d'exploration. PMML définit cinq transformations:
    • Normalisation: Les valeurs de la carte vers les numéros, l'entrée peut être continue ou discrète.
    • Discrétisation: Carte des valeurs continues en valeurs discrètes.
    • la cartographie de la valeur: la carte des valeurs discrètes en valeurs discrètes.
    • Fonctions: une valeur dérivée de l'application d'une fonction d'un ou de plusieurs paramètres.
    • Agrégation: utilisé pour synthétiser ou recueillir des groupes de valeurs.
  • modèleIl contient la définition du modèle d'exploration. Le réseau de neurones feedforward multicouche est la représentation la plus commune du réseau de neurones dans les applications d'aujourd'hui, qui gagnant la popularité grâce à l'efficacité de la formation donnée par l'algorithme connu sous le nom rétropropagation. Un réseau est représenté dans PMML par un élément « NeuralNetwork » qui contient les attributs tels que:
    • Nom du modèle (attribut ModelName)
    • Nom de la fonction (attribut functionName)
    • Nom de l'algorithme (attribut AlgorithmName)
    • Fonction d'activation (attribut activationFunction)
    • Nombre de couches (numberOfLayers d'attributs)

Cette information est suivie par couches de neurones de modélisation des arbres qui spécifient l'architecture du modèle de réseau de neurones. Ces attributs sont NeuralInputs, NeuralLayer et NeuralOutputs. À côté du réseau de neurones, PMML permet la représentation d'autres types de modèles d'exploration de données telles que: les machines à vecteurs, règles d'association, classificateur bayésien, modèles de regroupement, des modèles de texte, Les arbres de décision et différents modèles de régression.

  • Mining Scheme: Le régime minier énumère tous les champs utilisés dans le modèle. Cela peut être un sous-ensemble des champs définis dans le dictionnaire. Il contient des informations spécifiques pour chaque domaine, tels que:
    • Nom (attribut name) doit se référer à un champ du dictionnaire
    • Type d'utilisateur (attribut usageType): définit comment utiliser un champ dans le modèle. Les valeurs typiques sont: actif, prédit et complémentaire. Les champs prédites sont ces valeurs entières prédites par le modèle.
    • Le traitement extrême (valeurs aberrantes attribut): définit les traitements extrêmes qui peuvent être utilisés. En PMML, les extrêmes (valeurs aberrantes) peuvent être considérées comme des valeurs manquantes, comme des valeurs extrêmes (basées sur la définition de la valeur maximale et minimale du domaine particulier, ou en les laissant inchangés).
    • la valeur politique SUPERSEDE (attribut missingValueReplacement): Si cet attribut est spécifié après une valeur manquante est remplacée automatiquement par une valeur calculée.
    • valeur manquante de traitement (attribut missingValueTreatment): indique comment la valeur est dérivée SUPERSEDE (par exemple comme une valeur moyenne ou médiane.).
  • cibles: Permet le post-traitement des valeurs prédites à des opérations d'échelle lorsque la sortie du modèle est continue. Les cibles peuvent également être utilisés pour classer les tâches. Dans ce cas, l'attribut priorProbability spécifie une probabilité de défaut de la catégorie cible correspondante. Il est utilisé si la logique de prédiction ne produit pas le résultat. Cela peut se produire, par exemple, si une valeur d'entrée est manquante et ce n'est pas une méthode de traitement des valeurs manquantes.
  • sortieCet élément peut être utilisé pour nommer tous les champs de sortie souhaités attendus du modèle. Les caractéristiques du champ prédit sont généralement les valeurs prédites, la probabilité, l'affinité de cluster (pour les modèles de mise en cluster), standard, etc. erreur

Histoire des rejets

version Date de sortie
version 0.7 juillet 1997
version 0.9 juillet 1998
version 1.0 août 1999
version 1.1 août 2000
version 2.0 août 2001
version 2.1 mars 2003
version 3.0 octobre 2004
version 3.1 décembre 2005
version 3.2 mai 2007
version 4.0 juin 2009
la version 4.1 décembre 2011
version 4.2 février 2014
version 4.2.1 mars 2015
version 4.3 août 2016

notes

  1. ^ Alex Guazzelli, Qu'est-ce que PMML?, IBM developerWorks, dont 28 Septembre de 2010. Récupéré le 11 Août, 2013.
  2. ^ Mark F. Hornick, Erik Marcadé, Sunil Venkayala, Java Data Mining: Stratégie, Standard, et la pratique, Morgan Kaufmann, 2010, pp. 452-453, ISBN 978-0080495910.
  3. ^ A. Guazzelli, M. Zeller, W. Chen, G. et Williams. PMML: une norme ouverte pour les modèles de partage. Le Journal R, Volume 1/1, mai 2009.
  4. ^ A. Guazzelli, W. Lin, T. Jena (2010). PMML en action: Déclencher le pouvoir des normes ouvertes pour les données minières et l'analyse prédictive. CreateSpace.