Apprentissage supervisé expliqué

0
21

L’apprentissage de la Machine est une branche de l’intelligence artificielle qui comprend des algorithmes pour créer automatiquement des modèles de données. À un niveau élevé, il y a quatre types de machine d’apprentissage: l’apprentissage supervisé, l’apprentissage non supervisé, l’apprentissage par renforcement, et active l’apprentissage de la machine. Depuis le renforcement de l’apprentissage et de l’actif de la machine d’apprentissage sont relativement nouveaux, ils sont parfois omis à partir des listes de ce genre. Vous pouvez également ajouter d’apprentissage semi-supervisé pour la liste, et de ne pas se tromper.

[ Donner un sens à l’apprentissage de la machine: de l’IA, de l’apprentissage de la machine, et l’apprentissage en profondeur: Tout ce que vous devez savoir. | Apprentissage en profondeur expliqué. | Apprentissage de la Machine expliqué. | Algorithmes d’apprentissage automatique expliqué. Machine | apprentissage des compétences pour les ingénieurs en logiciel. | Aller en profondeur dans l’analytique et le big data avec la InfoWorld Big Data et de l’Analytique du Rapport de la newsletter. ]Qu’est-ce que l’apprentissage supervisé?

Apprentissage supervisé commence avec les données d’entraînement qui sont marqués avec les réponses correctes (valeurs cibles). Après le processus d’apprentissage, vous vous retrouvez avec un modèle à l’écoute de poids, ce qui peut prédire les réponses pour les mêmes données qui n’ont pas déjà été balisé.

Vous souhaitez former un modèle qui a de grande précision sans surajustement ou underfitting. Haute précision signifie que vous avez optimisé la perte de fonction. Dans le contexte de problèmes de classification, la précision est la proportion d’exemples pour lesquels le modèle produit des résultats corrects.

Le surajustement signifie que le modèle est si étroitement liée aux données qu’il a vu qu’il ne permet pas de généraliser les données qu’il n’a pas vu. Underfitting signifie que le modèle n’est pas assez complexe pour capturer les tendances sous-jacentes dans les données.

La perte de fonction est choisi pour refléter la “méchanceté” du modèle; de minimiser la perte de trouver le meilleur modèle. Numérique (régression) des problèmes, la perte de fonction est souvent l’erreur quadratique moyenne (MSE), également formulée comme la racine de l’erreur quadratique moyenne (RMSE), ou de la racine de la moyenne des carrés de l’écart (RMSD). Cela correspond à la distance Euclidienne entre les points de données et le modèle de la courbe. Pour la classification (non numérique) des problèmes, la perte de fonction peut être fondée sur l’un d’une poignée de mesures, y compris l’aire sous la courbe ROC (AUC), la moyenne de la précision, de rappel et de précision, et le journal de la perte. (Plus de détails sur l’ASC et la courbe ROC ci-dessous.)

Pour éviter le surajustement, vous divisent souvent les données étiquetées en deux ensembles, la majorité de la formation et de la minorité pour la validation ou l’essai. L’ensemble de validation de la perte est généralement plus élevé que l’ensemble de la formation de la perte, mais c’est celle que vous vous souciez, car il ne présente pas de biais vers le modèle.

Pour de petits ensembles de données, à l’aide de fixe exclusion des ensembles de test de validation peut entraîner de faibles statistiques. Une façon de contourner cela est d’utiliser un cross-validation de schéma, dans lequel les différents plis (sous-ensembles de données) sont tour à tour le jeu d’exclusion de formation différentes époques.

J’ai mentionné que l’ASC est l’aire sous la courbe ROC. ROC est la caractéristique de fonctionnement du récepteur de la courbe; le terme vient de signal radio de l’analyse, mais essentiellement de la courbe ROC montre la sensibilité du classificateur en traçant le taux de vrais positifs et le taux de faux positifs. Haut de l’aire sous la courbe ROC est bonne, de sorte que lorsque vous l’utilisez comme base pour une perte de fonction que vous voulez vraiment maximiser l’ASC.

Le nettoyage des données pour l’apprentissage de la machine

Il n’y a pas une telle chose comme la qualité des données à l’état sauvage. Pour être utile pour l’apprentissage de la machine, les données doivent être agressive filtrée. Par exemple, vous aurez envie de:

  • Regardez les données, et de l’exclure de toutes les colonnes qui ont beaucoup de données manquantes.
  • Regardez à nouveau les données et choisir les colonnes que vous souhaitez utiliser (sélection de fonction) pour votre prédiction. Fonction de sélection est quelque chose que vous voudrez peut varier lorsque vous parcourez.
  • Exclure toutes les lignes qui ont encore des données manquantes dans les autres colonnes.
  • Corriger des fautes évidentes, et fusionner équivalent réponses. Par exemple, les états-UNIS, US, USA, et l’Amérique devraient être fusionnées en une seule catégorie.
  • Exclure les lignes qui ont des données qui sont hors de portée. Par exemple, si vous êtes d’analyser les trajets en taxi dans la Ville de New York, vous aurez envie de filtrer les lignes avec ramassage ou dépôt latitudes et les longitudes sont en dehors de la zone de délimitation de la région métropolitaine.
  • Il y a beaucoup plus que vous pouvez faire, mais il repose sur les données collectées. Cela peut être fastidieux, mais si vous configurez un nettoyage de données étape dans votre apprentissage de la machine pipeline, vous pouvez modifier et de le répéter à volonté.

    L’encodage des données et la normalisation pour l’apprentissage de la machine

    Pour utiliser des données catégorielles pour la machine de classement, vous devez encoder le texte des étiquettes en une autre forme. Il existe deux types de codages.

    L’un est un label de codage, ce qui signifie que chaque texte de l’étiquette de valeur est remplacé par un numéro. L’autre est un chaud-encodage, ce qui signifie que chaque texte de l’étiquette de valeur est transformée en une colonne avec une valeur binaire (1 ou 0). La plupart d’apprentissage de la machine cadres des fonctions qui ne la conversion pour vous. En général, la chaude de codage est préféré, comme étiquette de codage peuvent parfois confondre l’algorithme d’apprentissage automatique en pensant que l’encodage de la colonne est commandé.

    Pour utiliser des données numériques pour la machine de régression, vous avez généralement besoin de normaliser les données. Sinon, les numéros avec de grandes plages ont tendance à dominer la distance Euclidienne entre les fonction de vecteurs, leurs effets pourraient être agrandie au détriment des autres champs, et la plus raide descente d’optimisation pourrait avoir des difficultés à converger. Il y a un certain nombre de façons de normaliser et standardiser les données pour l’apprentissage de la machine, y compris min-max normalisation, la moyenne de la normalisation, la standardisation et la mise à l’échelle unité de longueur. Ce processus est souvent appelé la fonction de mise à l’échelle.

    Dotés de technologies pour l’apprentissage de la machine

    Une fonction est un particulier mesurables propriété ou caractéristique d’un phénomène observé. Le concept de “fonction” est lié à celui de la variable explicative, qui est utilisé dans les techniques statistiques telles que la régression linéaire. Fonction des vecteurs de combiner toutes les fonctions pour une seule ligne dans un vecteur numérique.

    Une partie de l’art de choisir des caractéristiques est de choisir un ensemble minimal de variables indépendantes qui expliquent le problème. Si deux variables sont fortement corrélées, soit ils doivent être combinés dans une seule entité, ou de l’un devrait être abandonnée. Parfois, les gens effectuer l’analyse en composantes principales pour convertir une corrélation des variables dans un ensemble de linéaire de variables non corrélées.

    Certaines des transformations que les gens utilisent pour construire de nouvelles fonctionnalités ou de réduire la dimensionnalité de la fonction vecteurs sont simples. Par exemple, soustraire l’Année de Naissance à partir de l’Année de la Mort et de vous construire l’Âge au Décès, qui est une prime variable indépendante de la durée de vie et d’analyse de la mortalité. Dans d’autres cas, la fonction de la construction peut ne pas être si évident.

    Commune d’algorithmes d’apprentissage automatique

    Il y a des dizaines d’algorithmes d’apprentissage automatique, allant de la complexité à partir de la régression linéaire et la régression logistique profondes des réseaux de neurones et des ensembles de (combinaisons d’autres modèles). Cependant, la plupart des algorithmes comprennent:

    • La régression linéaire, aka régression des moindres carrés (pour les données numériques)
    • De régression logistique (pour la classification binaire)
    • Analyse discriminante linéaire (pour multi-classement par catégories)
    • Les arbres de décision (pour les deux de classification et de régression)
    • Naïve Bayes (pour les deux de classification et de régression)
    • K-plus proches voisins, aka KNN (pour les deux de classification et de régression)
    • L’apprentissage de quantification de vecteur, aka LVQ (pour les deux de classification et de régression)
    • Machines à vecteurs de Support, aka SVM (pour la classification binaire)
    • Forêts aléatoires, un type de “ensachage” (bootstrap agrégation) ensemble de l’algorithme (pour les deux de classification et de régression)
    • Stimuler les méthodes, y compris AdaBoost et XGBoost, sont l’ensemble des algorithmes de créer une série de modèles où chaque modèle incrémental tente de corriger les erreurs du modèle précédent (pour les deux de classification et de régression)
    • Les réseaux de neurones (pour les deux de classification et de régression)

    Hyper-paramètre de réglage

    Hyperparameters sont libres des variables autres que le poids étant à l’écoute au sein d’une machine modèle d’apprentissage. Le hyperparameters varier d’un algorithme à un, mais incluent souvent l’apprentissage de taux utilisés pour contrôler la taille de la correction à appliquer après les erreurs ont été calculées pour un lot.

    Plusieurs machine de production de plates-formes d’apprentissage offrent maintenant automatique de l’hyper-paramètre de réglage. Essentiellement, vous dire le système de ce hyperparameters vous voulez varier, et éventuellement ce qui métrique vous souhaitez optimiser, et le système balaie ces hyperparameters sur autant de pistes que vous le permettent. (Google Cloud Apprentissage automatique du Moteur hyper-paramètre de réglage des extraits de la méthode de mesure de la TensorFlow modèle, de sorte que vous n’avez pas à le préciser.)

    Il existe trois principaux algorithmes de recherche pour le balayage hyperparameters: Bayésienne de l’optimisation, de la grille de recherche, et la recherche aléatoire. Bayésien optimisation tend à être la plus efficace. Vous pouvez facilement mettre en place votre propre hyper-paramètre de ratissage dans le code, même si ce n’est pas automatisé par la plate-forme que vous utilisez.

    Pour résumer, l’apprentissage supervisé tourne marqué les données d’entraînement dans une écoute modèle prédictif. Le long du chemin, vous devez nettoyer et normaliser les données, concevoir un ensemble de caractéristique non corrélée de façon linéaire, et d’essayer plusieurs algorithmes pour trouver le meilleur modèle.

    Cette histoire, “l’apprentissage Supervisé expliqué” a été initialement publié par