Accueil Finances personnelles Machine Apprendre avec Mahout dans Hadoop - les nuls

Machine Apprendre avec Mahout dans Hadoop - les nuls

Table des matières:

Vidéo: How to create a Java project with Maven in Netbeans IDE 2024

Vidéo: How to create a Java project with Maven in Netbeans IDE 2024
Anonim

L'apprentissage automatique fait référence à une branche des techniques d'intelligence artificielle qui fournit des outils permettant aux ordinateurs d'améliorer leur analyse en fonction des événements antérieurs. Ces systèmes informatiques exploitent les données historiques des tentatives précédentes de résolution d'une tâche afin d'améliorer les performances des futures tentatives de tâches similaires.

En termes de résultats attendus, l'apprentissage automatique peut ressembler beaucoup à cet autre mot à la mode «exploration de données»; cependant, le premier se concentre sur la prédiction par l'analyse des données de formation préparées , la dernière concerne la découverte de connaissances à partir de données brutes non traitées. Pour cette raison, l'apprentissage automatique dépend fortement des techniques de modélisation statistique et s'inspire des domaines de la théorie des probabilités et de la reconnaissance des formes.

Mahout est un projet open source d'Apache, proposant des bibliothèques Java pour des algorithmes d'apprentissage automatique distribués ou évolutifs.

Ces algorithmes couvrent des tâches d'apprentissage automatique classiques telles que la classification, le regroupement, l'analyse des règles d'association et les recommandations. Bien que les bibliothèques Mahout soient conçues pour fonctionner dans un contexte Apache Hadoop, elles sont également compatibles avec tout système supportant le framework MapReduce. Par exemple, Mahout fournit des bibliothèques Java pour les collections Java et les opérations mathématiques courantes (algèbre linéaire et statistiques) qui peuvent être utilisées sans Hadoop.

Mahout est un projet en évolution avec plusieurs contributeurs. Au moment d'écrire ces lignes, la collection d'algorithmes disponibles dans les bibliothèques Mahout n'est en aucun cas complète; Cependant, la collection d'algorithmes mis en œuvre pour l'utilisation continue de s'étendre avec le temps.

Il existe trois catégories principales d'algorithmes Mahout pour la prise en charge de l'analyse statistique: le filtrage collaboratif, le clustering et la classification.

Filtrage collaboratif

Mahout a été spécialement conçu pour servir de moteur de recommandation, en utilisant ce que l'on appelle un algorithme de

filtrage collaboratif . Mahout combine la richesse des algorithmes de classification et de classification à sa disposition pour produire des recommandations plus précises basées sur les données d'entrée. Ces recommandations sont souvent appliquées en fonction des préférences de l'utilisateur, en tenant compte du comportement de l'utilisateur. En comparant les sélections précédentes d'un utilisateur, il est possible d'identifier les voisins les plus proches (personnes avec un historique de décision similaire) à cet utilisateur et de prédire les sélections futures en fonction du comportement des voisins.

Pensez à un moteur de «profil de goût» tel que Netflix - un moteur qui recommande des notes basées sur les habitudes de notation et de visionnement précédentes de cet utilisateur. Dans cet exemple, les modèles de comportement d'un utilisateur sont comparés à l'historique de l'utilisateur - et aux tendances des utilisateurs ayant les mêmes goûts appartenant à la même communauté Netflix - pour générer une recommandation pour le contenu non encore visualisé par l'utilisateur en question.

Clustering

Contrairement à la méthode d'apprentissage supervisé pour la fonction moteur de recommandation de Mahout, le clustering est un apprentissage

non supervisé - où les étiquettes des points de données sont inconnues à l'avance et doivent être déduites des données sans intervention humaine (partie supervisée ). Généralement, les objets d'un cluster doivent être similaires. les objets provenant de différentes grappes devraient être dissemblables. Les décisions prises à l'avance sur le nombre de clusters à générer, les critères de mesure de la «similarité» et la représentation des objets auront un impact sur l'étiquetage produit par les algorithmes de clustering.

Par exemple, un moteur de mise en cluster disposant d'une liste d'articles d'actualités devrait être capable de définir des clusters d'articles dans cette collection qui traitent de sujets similaires.

Supposons qu'une série d'articles sur le Canada, la France, la Chine, la foresterie, le pétrole et le vin soient regroupés. Si le nombre maximal de clusters a été défini sur 2, votre algorithme peut générer des catégories telles que «régions» et «industries». "Les ajustements au nombre de grappes produiront des catégorisations différentes; par exemple, la sélection pour 3 groupes peut aboutir à des regroupements par paire des catégories nation-industrie.

Classifications

Les algorithmes de classification utilisent des ensembles de données d'apprentissage étiquetés par l'homme, où la catégorisation et la classification de toutes les entrées futures sont régies par ces étiquettes connues. Ces classificateurs implémentent ce que l'on appelle l'apprentissage supervisé

dans le monde de l'apprentissage automatique. Les règles de classification - définies par les données d'apprentissage, qui ont été étiquetées à l'avance par des experts du domaine - sont ensuite appliquées aux données brutes non traitées afin de déterminer au mieux leur étiquetage approprié.

Ces techniques sont souvent utilisées par les services de messagerie qui essaient de classer les spams avant qu'ils ne traversent votre boîte de réception. Plus précisément, étant donné un courriel contenant un ensemble de phrases connues pour se produire ensemble dans une certaine classe de courrier indésirable - délivré à partir d'une adresse appartenant à un botnet connu - votre algorithme de classification est capable d'identifier de manière fiable l'e-mail comme malveillant.

En plus de la richesse des algorithmes statistiques fournis par Mahout, un module

User Defined Algorithms (UDA) est également disponible. Les utilisateurs peuvent remplacer les algorithmes existants ou implémenter les leurs via le module UDA. Cette personnalisation robuste permet un réglage des performances des algorithmes natifs de Mahout et une flexibilité dans la résolution de problèmes d'analyse statistique uniques. Si Mahout peut être considéré comme une extension d'analyse statistique à Hadoop, UDA devrait être vu comme une extension des capacités statistiques de Mahout.

Les applications d'analyse statistique traditionnelles (telles que SAS, SPSS et R) sont dotées d'outils puissants pour générer des flux de travail. Ces applications utilisent des interfaces utilisateur graphiques intuitives qui permettent une meilleure visualisation des données. Les scripts Mahout suivent un modèle similaire à ces autres outils pour générer des workflows d'analyse statistique.

Lors de l'étape finale d'exploration et de visualisation des données, les utilisateurs peuvent exporter vers des formats lisibles par l'homme (JSON, CSV) ou tirer parti des outils de visualisation tels que Tableau Desktop.

L'architecture de Mahout se trouve au sommet de la plateforme Hadoop. Hadoop décharge le programmeur en séparant la tâche de programmation des tâches MapReduce de la gestion complexe requise pour gérer le parallélisme entre les systèmes de fichiers distribués. Dans le même esprit, Mahout fournit des abstractions conviviales d'algorithmes statistiques complexes, prêts à être implémentés avec le framework Hadoop.

Machine Apprendre avec Mahout dans Hadoop - les nuls

Le choix des éditeurs

Utilisant le mode rafale: La photographie d'action des mannequins

Utilisant le mode rafale: La photographie d'action des mannequins

Canon EOS Rebel T1i / 500D nécessite un vitesse d'obturation rapide - et un doigt de déclenchement rapide. Heureusement, le Canon EOS Digital Rebel a un mode Drive (ou Burst), qui enregistre une série continue d'images tant que vous maintenez le bouton de l'obturateur enfoncé. Si vous voulez obtenir de superbes photos d'un sujet en mouvement rapide, le mode Drive ...

En utilisant le mode en direct (détection de visage) sur votre Canon EOS Rebel T6 / 1300

En utilisant le mode en direct (détection de visage) sur votre Canon EOS Rebel T6 / 1300

Lorsque vous activez ce mode, le Rebel T6 recherche les visages dans le cadre. Vous devrez peut-être appuyer brièvement sur le déclencheur pour réactiver l'appareil photo avant que la fonction de détection de visage ne s'enclenche. Si un visage est détecté, l'appareil photo affiche un cadre de mise au point sur le visage, comme indiqué sur ...

En utilisant les modes automatiques sur votre Canon EOS Rebel T3 / 1100D - mannequins

En utilisant les modes automatiques sur votre Canon EOS Rebel T3 / 1100D - mannequins

Pour le plus automatique de la photographie automatique, permettant aux personnes ayant une expérience minimale de capturer de belles images, réglez votre sélecteur de mode Canon EOS Rebel T3 / 1100D sur l'un des deux paramètres suivants: Auto complet: Le nom de ce mode, indiqué dans la figure suivante, indique que le l'appareil photo prend le contrôle total de toutes les expositions, luminosité, flash, ...

Le choix des éditeurs

5 Bons contrôles comptables qui minimisent le vol - les nuls

5 Bons contrôles comptables qui minimisent le vol - les nuls

Voici un résumé de cinq techniques puissantes pour minimiser les problèmes surgissez lorsque vous avez des personnes ayant des niveaux de compétence et de fiabilité différents qui travaillent avec vos données QuickBooks: Comparez régulièrement les inventaires physiques avec les enregistrements de comptabilité d'inventaire. Une des choses que vous pouvez faire, à la fois pour minimiser vos pertes d'inventaire et ...

6 Astuces pour utiliser la stratégie avec QuickBooks - les nuls

6 Astuces pour utiliser la stratégie avec QuickBooks - les nuls

Si vous utilisez QuickBooks pour vous aider à mettre en place une stratégie pratique, il y a quelques choses que vous pourriez vouloir considérer. Assurez-vous de bien comprendre ces points clés: Connaissez les trois stratégies. Habituellement, une entreprise ne peut avoir qu'une stratégie commerciale sur trois: Stratégie basée sur les coûts Stratégie basée sur la différenciation Stratégie axée sur les objectifs Choisissez une stratégie. ...

5 Astuces pour simplifier l'installation de QuickBooks 2014 - les nuls

5 Astuces pour simplifier l'installation de QuickBooks 2014 - les nuls

Si vous êtes une petite entreprise configurant QuickBooks Logiciel de comptabilité 2014, vous apprécierez ces cinq conseils utiles. Minimisez le processus d'installation de QuickBooks avec ces astuces et techniques, et vous obtiendrez une conclusion rapide et réussie. Astuce # 1 de QuickBooks: Convertir en QuickBooks à compter du 1er janvier Convertir en un nouveau système de comptabilité dès le début ...

Le choix des éditeurs

Logique Puzzles pour garder votre esprit net - les mannequins

Logique Puzzles pour garder votre esprit net - les mannequins

Mettent votre casse-tête pour résoudre ces énigmes logiques! Chacun a juste une réponse. Les niveaux sont faciles, délicats, durs et traîtres, «facile» étant (bien sûr) les puzzles les plus faciles, et «traître» étant les plus difficiles. Facile: Combien de fois un mathématicien peut-il soustraire dix de 100? Facile: Déchiffrez cet indice: YYYMEN Tricky: Une femme ...

Maintien de la stabilité de l'humeur dans les troubles bipolaires - mannequins

Maintien de la stabilité de l'humeur dans les troubles bipolaires - mannequins

Plan thérapeutique global qu'une personne atteinte de trouble bipolaire doit suivre et maintenir la stabilité de l'humeur est assez simple. Suivez ce plan de traitement: Prenez vos médicaments tels que prescrits, même lorsque vous vous sentez bien, et consultez votre médecin avant de faire des changements de médicaments. Établir des routines qui assurent un horaire régulier de veille-sommeil. Manque de qualité ...

Faire un pré-accord pour recevoir un traitement pour trouble bipolaire - les variables nominales

Faire un pré-accord pour recevoir un traitement pour trouble bipolaire - les variables nominales

En pleine Manie ou dépression, une personne peut ne pas penser assez clairement pour se faire soigner et peut même refuser le traitement nécessaire. Les êtres chers veulent faire ce qu'il y a de mieux, mais ils hésitent souvent, ne sachant pas quand intervenir et quoi faire. Devraient-ils appeler votre médecin ou votre thérapeute ou vous conduire?