s
19 708 Pages

en théorie de la décision (Par exemple, dans la gestion des risques), A arbre de décision est un graphique des décisions et de leurs conséquences possibles (y compris les coûts liés, des ressources et des risques) utilisés pour créer un « plan d'action » (plan) Destiné à un objet (objectif). Un arbre de décision est construit pour appuyer la décision action (la prise de décision).

en apprentissage machine un arbre de décision est un modèle prédictif, dans lequel chaque noeud interne représente une variable, un arc vers un noeud enfant représente une valeur possible pour cette propriété et une feuille de la valeur prédite de la variable de cible à partir des valeurs des autres propriétés, en « arbre est représenté par le chemin (chemin) A partir du nœud racine (racine) Au nœud de feuille. Normalement, un arbre de décision est construit en utilisant des techniques d'apprentissage de l'ensemble de données initiales (ensemble de données), Qui peut être divisé en deux sous-ensembles: la ensemble de la formation sur la base desquels il crée la structure de l'arbre et jeu de test lequel il est utilisé pour tester la précision du modèle prédictif ainsi créé.

en data mining un arbre de décision permet de classer les cas de grandes quantités de données (ce qui est aussi appelé Arbre classement). Dans ce contexte, un arbre de décision décrit une structure arborescente où les nœuds feuilles représentent des classifications et des branches l'ensemble des propriétés qui conduisent à ces classifications. Par conséquent, chaque noeud interne se révèle être une macro-classe constituée par l'union des classes associées à ses nœuds enfants.

Le prédicat qui est associé à chaque noeud interne (sur la base de laquelle la répartition des données) se produit est appelée split état.

Dans de nombreuses situations, il est utile de définir un critère d'arrêt (hésitant), Ou même taille critère (taille) Afin de déterminer la profondeur maximale. En effet, l'augmentation de la profondeur d'un arbre (ou de sa taille) ne touche pas directement la bonté du modèle. En fait, une croissance excessive de la taille de l'arbre ne pouvait entraîner une augmentation disproportionnée de la complexité de calcul par rapport aux avantages quant à l'exactitude des prévisions / classifications.

Une évolution est la technique forêt aléatoire (forêt aléatoire).

Remarques sur les paramètres scission et taille

Les paramètres les plus utilisés pour les conditions de division sont les suivantes:

  • erreur dans le taux de classement (erreur de classification erronée).
  • Indice de Gini (indice de Gini): Utilisé par PANIER (Et régression des arbres)

L'indice de Gini atteint son minimum (zéro) lorsque le noeud appartient à une seule catégorie.

  • Variation de l'entropie (également connue sous le nom entropie deviance): Utilisé par C4.5 et C5.0, il est basé sur le concept de entropie défini théorie de l'information.

Dans les deux formules fa Il représente la valeur de la fréquence j dans le noeud la.

L'indice de Gini et la variation de entropie sont les paramètres qui sont habituellement utilisés pour guider la construction de l'arbre, alors que l'évaluation du taux d'erreur dans la classification est utilisée pour faire optimisation dell 'arbre connu sous le nom d'un processus de taille ( « Taille » des noeuds redondants). Parce que, en général, un bon nœuds feuilles d'arbre de décision doit être aussi pur (Par exemple, ne contiennent que des instances de données qui appartiennent à une seule classe), une optimisation de l'arbre consiste à essayer de minimiser le niveau d'entropie qui descend de la racine vers les feuilles. En ce sens, l'évaluation de l'entropie détermineront quels sont ceux, parmi les différents choix disponibles, les conditions de répartition optimale de l'arbre de classification.

Articles connexes

  • L'exploration de données
  • algorithme ID3

D'autres projets

liens externes