s
19 708 Pages

Nell 'apprentissage machine, la perceptron Il est un type de classificateur Binary qui mappe ses entrées (a vecteur type réel) Dans une valeur de sortie (A scalaire de type réel) calculé avec

est un vecteur de poids avec des valeurs réelles, l'opérateur est le produit scalaire (Qui calcule une somme pondérée des entrées), Il est le « biais », un terme constant qui ne dépend pas d'une valeur d'entrée et est la fonction de sortie. Les choix les plus courants pour la fonction ils sont les suivants:

est le fonction Heaviside

Le premier cas correspond à un classificateur binaire (la sortie ne peut prendre que les valeurs et ); un cas particulier étudié est celui dans lequel à la fois l'entrée que la sortie Ils sont binaires.

le biais Il peut être considéré comme un cadre de la fonction d'activation (par exemple. Lorsque Tout se passe comme dans le cas 3), ou comme un niveau d'activation en fonction de la sortie du neurone (par ex. Lorsque Il est comme dans les cas 1 et 2). Dans ce dernier cas, la valeur représente une valeur de seuil que la somme pondérée des entrées doit dépasser pour que le dispositif est actif (à savoir que la sortie est positive).

Le Perceptron peut être considéré comme le modèle le plus simple réseau de neurones feed-forward,[1][2] que les entrées alimenter directement l'unité de sortie via des connexions pondérées. Dans le cas où les entrées et sorties sont du même type, il est possible de créer des réseaux plus complexes associant plusieurs perceptron ensemble, par exemple en utilisant un groupe de perceptron (ou couche) comme entrée à un deuxième groupe de perceptrons, ou en faisant en sorte que l'entrée de chaque perceptron du réseau est donnée par la sortie de l'autre perceptron (réseau entièrement connecté).

Le problème de l'apprentissage

Simulation d'un perceptron avec un neurone. La tâche est de trouver une ligne qui divise les données en deux groupes différents. Cette approche ne fonctionne pas à cause de problème XOR

En changeant le vecteur de poids , Il est possible de moduler la sortie d'un perceptron, dans le but d'obtenir les propriétés d'apprentissage ou de stockage. Par exemple, vous pouvez essayer de charger un perceptron de telle sorte que, étant donné une entrée , sortie est aussi proche que possible d'une valeur donnée choisi a priori; capacité de calcul d'un seul perceptron sont toutefois limitées, et le rendement que l'on peut obtenir dépend fortement à la fois par le choix des entrées (qui peut par exemple être limité à un sous-ensemble de toutes les entrées possibles, ou il peut être extrait de façon aléatoire en fonction d'une certaine distribution probabilité prédéterminée) que le choix de la fonction que vous souhaitez mettre en œuvre, . Dans une moindre mesure, cela dépend de la façon dont il est quantifiée par la distance entre la sortie effective et attendue.

Une fois défini le problème de l'apprentissage, vous pouvez essayer de trouver l'allocation optimale des poids pour le problème donné.

Algorithme d'apprentissage standard

L 'algorithme apprentissage standard est un algorithme itératif, défini comme suit: à chaque itération , un vecteur d'entrée Il est présenté au perceptron, qui calcule la sortie et la compare avec le résultat souhaité ; Par conséquent, le vecteur de poids Il est mis à jour comme suit:

Il est un apprentissage constant strictement positif qui ajuste la vitesse d'apprentissage. A l'étape suivante, la nouvelle entrée Il sera pesé selon le nouveau support , qui sera ensuite changé de nouveau en et ainsi de suite.

l'ensemble à partir duquel les échantillons sont prélevés présenté à Perceptron au cours de la période d'apprentissage est appelé ensemble de la formation.

perceptron
Les coefficients de pondération appropriés (W) sont appliqués à l'entrée (x) qui est passé à une fonction qui produit la sortie (y)

Dans les cas où il y a:

  • un support
  • une certaine constante 0 \ t.c.g (x ^ {t}) \ langle x ^ {t}, {\ hat {w}} \ rangle \ geq \ gamma \ \ forall t} « />
  • une certaine constante

L'ensemble de la formation est appelée linéairement séparable (géométriquement, cette condition décrit la situation où il y a une hyperplan capable de séparer, dans l'espace vectoriel des entrées, celles qui exigent une sortie positive de ceux qui nécessitent une sortie négative). Dans ce cas, Novikoff (1962) a montré que l'algorithme standard converge dans le sens où le nombre d'erreurs est limité par , en un nombre fini d'étapes.[3] Il est pas garanti que l'algorithme décrit si l'ensemble converge de formation ne sont pas linéairement séparables. En outre, d'autres algorithmes (par exemple. L'algorithme de adatron), peut avoir, dans certaines situations, les meilleures performances en termes de temps de convergence, de la capacité d'apprentissage, etc. de généralisation.

histoire

Le Perceptron a été proposé par Frank Rosenblatt dans 1958 comme une entité avec une couche d'entrée et une sortie et une règle d'apprentissage basée sur la minimisation de l'erreur, la fonction que l'on appelle l'erreur de rétro-propagation (Propagation d'erreur Retour) qui repose sur l'évaluation sortie effective du réseau par rapport à une entrée donnée modifie les poids des connexions (synapses) Comme la différence entre la sortie réelle et celle souhaitée.

L'enthousiasme était énorme et est né sur le terrain cybernétiques, mais après Marvin Minsky et Seymour Papert Ils ont démontré les limites du perceptron et à savoir sa capacité à reconnaître après une formation appropriée ne fonctionne linéairement séparables (par exemple, la fonction logique XOR ne peut pas être mis en œuvre par un perceptron) l'intérêt déclina rapidement.

En fait, un réseau perceptron à plusieurs niveaux pourrait résoudre des problèmes plus complexes, mais la complexité de calcul de plus en plus de la formation en cette route impraticables. Seulement dans la décennie suivante, il a commencé à examiner l'utilité de ces entités opérationnelles.

notes

  1. ^ Cristianini, Nello; Shawe-Taylor, John. Support Vector Machines et d'autres méthodes d'apprentissage en noyau. Cambridge University Press: 2000.
  2. ^ Haykin, Simon. Réseaux de neurones - Une fondation complète. Deuxième édition. Pearson Prentice Hall: 1999.
  3. ^ Michael Collins, Convergence Preuve de l'algorithme Perceptron (PDF), De cs.columbia.edu, Université de Columbia - Département des sciences informatiques. Récupéré le 1er Juillet 2017 (déposé 25 juin 2017).

Articles connexes

  • perceptron multicouche

liens externes