Accueil Finances personnelles Machine Apprendre avec Mahout dans Hadoop - les nuls

Machine Apprendre avec Mahout dans Hadoop - les nuls

Table des matières:

Vidéo: How to create a Java project with Maven in Netbeans IDE 2025

Vidéo: How to create a Java project with Maven in Netbeans IDE 2025
Anonim

L'apprentissage automatique fait référence à une branche des techniques d'intelligence artificielle qui fournit des outils permettant aux ordinateurs d'améliorer leur analyse en fonction des événements antérieurs. Ces systèmes informatiques exploitent les données historiques des tentatives précédentes de résolution d'une tâche afin d'améliorer les performances des futures tentatives de tâches similaires.

En termes de résultats attendus, l'apprentissage automatique peut ressembler beaucoup à cet autre mot à la mode «exploration de données»; cependant, le premier se concentre sur la prédiction par l'analyse des données de formation préparées , la dernière concerne la découverte de connaissances à partir de données brutes non traitées. Pour cette raison, l'apprentissage automatique dépend fortement des techniques de modélisation statistique et s'inspire des domaines de la théorie des probabilités et de la reconnaissance des formes.

Mahout est un projet open source d'Apache, proposant des bibliothèques Java pour des algorithmes d'apprentissage automatique distribués ou évolutifs.

Ces algorithmes couvrent des tâches d'apprentissage automatique classiques telles que la classification, le regroupement, l'analyse des règles d'association et les recommandations. Bien que les bibliothèques Mahout soient conçues pour fonctionner dans un contexte Apache Hadoop, elles sont également compatibles avec tout système supportant le framework MapReduce. Par exemple, Mahout fournit des bibliothèques Java pour les collections Java et les opérations mathématiques courantes (algèbre linéaire et statistiques) qui peuvent être utilisées sans Hadoop.

Mahout est un projet en évolution avec plusieurs contributeurs. Au moment d'écrire ces lignes, la collection d'algorithmes disponibles dans les bibliothèques Mahout n'est en aucun cas complète; Cependant, la collection d'algorithmes mis en œuvre pour l'utilisation continue de s'étendre avec le temps.

Il existe trois catégories principales d'algorithmes Mahout pour la prise en charge de l'analyse statistique: le filtrage collaboratif, le clustering et la classification.

Filtrage collaboratif

Mahout a été spécialement conçu pour servir de moteur de recommandation, en utilisant ce que l'on appelle un algorithme de

filtrage collaboratif . Mahout combine la richesse des algorithmes de classification et de classification à sa disposition pour produire des recommandations plus précises basées sur les données d'entrée. Ces recommandations sont souvent appliquées en fonction des préférences de l'utilisateur, en tenant compte du comportement de l'utilisateur. En comparant les sélections précédentes d'un utilisateur, il est possible d'identifier les voisins les plus proches (personnes avec un historique de décision similaire) à cet utilisateur et de prédire les sélections futures en fonction du comportement des voisins.

Pensez à un moteur de «profil de goût» tel que Netflix - un moteur qui recommande des notes basées sur les habitudes de notation et de visionnement précédentes de cet utilisateur. Dans cet exemple, les modèles de comportement d'un utilisateur sont comparés à l'historique de l'utilisateur - et aux tendances des utilisateurs ayant les mêmes goûts appartenant à la même communauté Netflix - pour générer une recommandation pour le contenu non encore visualisé par l'utilisateur en question.

Clustering

Contrairement à la méthode d'apprentissage supervisé pour la fonction moteur de recommandation de Mahout, le clustering est un apprentissage

non supervisé - où les étiquettes des points de données sont inconnues à l'avance et doivent être déduites des données sans intervention humaine (partie supervisée ). Généralement, les objets d'un cluster doivent être similaires. les objets provenant de différentes grappes devraient être dissemblables. Les décisions prises à l'avance sur le nombre de clusters à générer, les critères de mesure de la «similarité» et la représentation des objets auront un impact sur l'étiquetage produit par les algorithmes de clustering.

Par exemple, un moteur de mise en cluster disposant d'une liste d'articles d'actualités devrait être capable de définir des clusters d'articles dans cette collection qui traitent de sujets similaires.

Supposons qu'une série d'articles sur le Canada, la France, la Chine, la foresterie, le pétrole et le vin soient regroupés. Si le nombre maximal de clusters a été défini sur 2, votre algorithme peut générer des catégories telles que «régions» et «industries». "Les ajustements au nombre de grappes produiront des catégorisations différentes; par exemple, la sélection pour 3 groupes peut aboutir à des regroupements par paire des catégories nation-industrie.

Classifications

Les algorithmes de classification utilisent des ensembles de données d'apprentissage étiquetés par l'homme, où la catégorisation et la classification de toutes les entrées futures sont régies par ces étiquettes connues. Ces classificateurs implémentent ce que l'on appelle l'apprentissage supervisé

dans le monde de l'apprentissage automatique. Les règles de classification - définies par les données d'apprentissage, qui ont été étiquetées à l'avance par des experts du domaine - sont ensuite appliquées aux données brutes non traitées afin de déterminer au mieux leur étiquetage approprié.

Ces techniques sont souvent utilisées par les services de messagerie qui essaient de classer les spams avant qu'ils ne traversent votre boîte de réception. Plus précisément, étant donné un courriel contenant un ensemble de phrases connues pour se produire ensemble dans une certaine classe de courrier indésirable - délivré à partir d'une adresse appartenant à un botnet connu - votre algorithme de classification est capable d'identifier de manière fiable l'e-mail comme malveillant.

En plus de la richesse des algorithmes statistiques fournis par Mahout, un module

User Defined Algorithms (UDA) est également disponible. Les utilisateurs peuvent remplacer les algorithmes existants ou implémenter les leurs via le module UDA. Cette personnalisation robuste permet un réglage des performances des algorithmes natifs de Mahout et une flexibilité dans la résolution de problèmes d'analyse statistique uniques. Si Mahout peut être considéré comme une extension d'analyse statistique à Hadoop, UDA devrait être vu comme une extension des capacités statistiques de Mahout.

Les applications d'analyse statistique traditionnelles (telles que SAS, SPSS et R) sont dotées d'outils puissants pour générer des flux de travail. Ces applications utilisent des interfaces utilisateur graphiques intuitives qui permettent une meilleure visualisation des données. Les scripts Mahout suivent un modèle similaire à ces autres outils pour générer des workflows d'analyse statistique.

Lors de l'étape finale d'exploration et de visualisation des données, les utilisateurs peuvent exporter vers des formats lisibles par l'homme (JSON, CSV) ou tirer parti des outils de visualisation tels que Tableau Desktop.

L'architecture de Mahout se trouve au sommet de la plateforme Hadoop. Hadoop décharge le programmeur en séparant la tâche de programmation des tâches MapReduce de la gestion complexe requise pour gérer le parallélisme entre les systèmes de fichiers distribués. Dans le même esprit, Mahout fournit des abstractions conviviales d'algorithmes statistiques complexes, prêts à être implémentés avec le framework Hadoop.

Machine Apprendre avec Mahout dans Hadoop - les nuls

Le choix des éditeurs

Façons de perfectionner vos compétences scientifiques pour le test de sciences GED - mannequins

Façons de perfectionner vos compétences scientifiques pour le test de sciences GED - mannequins

Vous voulez pour vous assurer que vous êtes prêt quand vous allez passer le test GED Science. Lorsque vous passez le test, vous avez 90 minutes pour répondre à environ 50 questions dans les domaines scientifiques suivants: Domaine de contenu Pourcentage de questions Sciences de la vie 40% Sciences physiques (physique et chimie) 40% Terre et espace ...

À Quoi s'attendre de la section Raisonnement mathématique du GED - Les nuls

À Quoi s'attendre de la section Raisonnement mathématique du GED - Les nuls

Raisonnement mathématique section sur le GED teste les mathématiques que vous connaissez normalement à la fin de l'école secondaire. Parce que ce nouveau test est conçu pour vous préparer aux études postsecondaires et à l'emploi, il met l'accent sur les mathématiques en milieu de travail et les mathématiques scolaires. Environ 45% du test concerne un problème quantitatif ...

Conseils pour renforcer les phrases Wordy pour le GED RLA - dummies

Conseils pour renforcer les phrases Wordy pour le GED RLA - dummies

Un problème courant d'écriture sur le Raisonnement GED à travers le test d'arts du langage est des phrases verbeuses. La verbosité, dans l'esprit de la bonne écriture, est, selon les mots du grand poète, quelque chose que tout le monde devrait viser à éliminer pour que la précision de nos mots transparaisse et illumine le passage. Vous avez juste souffert à travers un ...

Le choix des éditeurs

Création d'un rapport avec Crystal Reports 10 - témoins

Création d'un rapport avec Crystal Reports 10 - témoins

Lorsque vous démarrez Crystal Reports 10, généralement l'une des trois choses suivantes: créer un rapport, modifier un rapport ou exécuter un rapport sur les données de votre base de données. Les rapports prennent des données à partir d'une base de données, les traitent, les formatent et les affichent ensuite sur une imprimante, un écran d'ordinateur ou un site Web. Crystal Reports ...

Traitant des commentaires Javadoc dans Eclipse - mannequins

Traitant des commentaires Javadoc dans Eclipse - mannequins

Lorsque vous utilisez Eclipse pour écrire du code Java, n'oubliez pas de éditez les commentaires de Javadoc (les choses qui commencent par / **). Vous pouvez ajouter des informations utiles lorsque vous modifiez les commentaires Javadoc et lorsque vous les modifiez, l'aide au code d'Eclipse propose des suggestions. N'oubliez pas ces astuces lorsque vous modifiez vos commentaires Javadoc: Ajouter un commentaire Javadoc: ...

Conversion de fichiers PDF, EPS ou Adobe Illustrator en éléments natifs QuarkXPress - mannequins

Conversion de fichiers PDF, EPS ou Adobe Illustrator en éléments natifs QuarkXPress - mannequins

Voici l'un des développements les plus excitants de QuarkXPress: Si vous avez déjà un document au format PDF, EPS ou Adobe Illustrator, QuarkXPress 2016 peut convertir tous ses objets en éléments natifs QuarkXPress en quelques secondes. Vous pouvez ensuite travailler avec ces éléments comme vous le pouvez avec d'autres éléments ...

Le choix des éditeurs

Traitement des bouffées de chaleur pendant la ménopause - les mannequins

Traitement des bouffées de chaleur pendant la ménopause - les mannequins

Souffrent souvent de bouffées de chaleur une vague intense de chaleur les surmonte. Suivez ces conseils pour réduire les bouffées de chaleur et leurs effets: Faites de l'exercice régulièrement. Seulement une femme sur 20 qui fait de l'exercice régulièrement éprouve des bouffées de chaleur. Parmi les femmes qui ne font pas d'exercice, une personne sur quatre éprouve des bouffées de chaleur. Allumez le ventilateur de plafond ou ...

Sexe For Dummies Cheat Sheet - les nuls

Sexe For Dummies Cheat Sheet - les nuls

Que vous vous considériez comme un Don Juan, une Lady Chatterly, ou un novice sexuel , tout le monde peut tirer le meilleur parti du sexe avec un peu plus de connaissances. Vous devriez savoir que les préliminaires sont quelque chose que vous devriez prendre en considération avec chaque interaction que vous et votre partenaire avez, ainsi que la façon de garder les choses ...

Mots et significations liés à la ménopause - mannequins

Mots et significations liés à la ménopause - mannequins

Bien que ce soit loin d'être une liste complète des termes que vous pourriez entendre être utilisé lorsque la ménopause est discutée, les cinq termes essentiels suivants devraient vous aider à comprendre les bases. HRT (hormonothérapie substitutive): Un traitement pour compléter les hormones que vous perdez pendant la ménopause - généralement une combinaison d'œstrogènes, ...