Accueil Finances personnelles Machine Apprendre avec Mahout dans Hadoop - les nuls

Machine Apprendre avec Mahout dans Hadoop - les nuls

Table des matières:

Vidéo: How to create a Java project with Maven in Netbeans IDE 2025

Vidéo: How to create a Java project with Maven in Netbeans IDE 2025
Anonim

L'apprentissage automatique fait référence à une branche des techniques d'intelligence artificielle qui fournit des outils permettant aux ordinateurs d'améliorer leur analyse en fonction des événements antérieurs. Ces systèmes informatiques exploitent les données historiques des tentatives précédentes de résolution d'une tâche afin d'améliorer les performances des futures tentatives de tâches similaires.

En termes de résultats attendus, l'apprentissage automatique peut ressembler beaucoup à cet autre mot à la mode «exploration de données»; cependant, le premier se concentre sur la prédiction par l'analyse des données de formation préparées , la dernière concerne la découverte de connaissances à partir de données brutes non traitées. Pour cette raison, l'apprentissage automatique dépend fortement des techniques de modélisation statistique et s'inspire des domaines de la théorie des probabilités et de la reconnaissance des formes.

Mahout est un projet open source d'Apache, proposant des bibliothèques Java pour des algorithmes d'apprentissage automatique distribués ou évolutifs.

Ces algorithmes couvrent des tâches d'apprentissage automatique classiques telles que la classification, le regroupement, l'analyse des règles d'association et les recommandations. Bien que les bibliothèques Mahout soient conçues pour fonctionner dans un contexte Apache Hadoop, elles sont également compatibles avec tout système supportant le framework MapReduce. Par exemple, Mahout fournit des bibliothèques Java pour les collections Java et les opérations mathématiques courantes (algèbre linéaire et statistiques) qui peuvent être utilisées sans Hadoop.

Mahout est un projet en évolution avec plusieurs contributeurs. Au moment d'écrire ces lignes, la collection d'algorithmes disponibles dans les bibliothèques Mahout n'est en aucun cas complète; Cependant, la collection d'algorithmes mis en œuvre pour l'utilisation continue de s'étendre avec le temps.

Il existe trois catégories principales d'algorithmes Mahout pour la prise en charge de l'analyse statistique: le filtrage collaboratif, le clustering et la classification.

Filtrage collaboratif

Mahout a été spécialement conçu pour servir de moteur de recommandation, en utilisant ce que l'on appelle un algorithme de

filtrage collaboratif . Mahout combine la richesse des algorithmes de classification et de classification à sa disposition pour produire des recommandations plus précises basées sur les données d'entrée. Ces recommandations sont souvent appliquées en fonction des préférences de l'utilisateur, en tenant compte du comportement de l'utilisateur. En comparant les sélections précédentes d'un utilisateur, il est possible d'identifier les voisins les plus proches (personnes avec un historique de décision similaire) à cet utilisateur et de prédire les sélections futures en fonction du comportement des voisins.

Pensez à un moteur de «profil de goût» tel que Netflix - un moteur qui recommande des notes basées sur les habitudes de notation et de visionnement précédentes de cet utilisateur. Dans cet exemple, les modèles de comportement d'un utilisateur sont comparés à l'historique de l'utilisateur - et aux tendances des utilisateurs ayant les mêmes goûts appartenant à la même communauté Netflix - pour générer une recommandation pour le contenu non encore visualisé par l'utilisateur en question.

Clustering

Contrairement à la méthode d'apprentissage supervisé pour la fonction moteur de recommandation de Mahout, le clustering est un apprentissage

non supervisé - où les étiquettes des points de données sont inconnues à l'avance et doivent être déduites des données sans intervention humaine (partie supervisée ). Généralement, les objets d'un cluster doivent être similaires. les objets provenant de différentes grappes devraient être dissemblables. Les décisions prises à l'avance sur le nombre de clusters à générer, les critères de mesure de la «similarité» et la représentation des objets auront un impact sur l'étiquetage produit par les algorithmes de clustering.

Par exemple, un moteur de mise en cluster disposant d'une liste d'articles d'actualités devrait être capable de définir des clusters d'articles dans cette collection qui traitent de sujets similaires.

Supposons qu'une série d'articles sur le Canada, la France, la Chine, la foresterie, le pétrole et le vin soient regroupés. Si le nombre maximal de clusters a été défini sur 2, votre algorithme peut générer des catégories telles que «régions» et «industries». "Les ajustements au nombre de grappes produiront des catégorisations différentes; par exemple, la sélection pour 3 groupes peut aboutir à des regroupements par paire des catégories nation-industrie.

Classifications

Les algorithmes de classification utilisent des ensembles de données d'apprentissage étiquetés par l'homme, où la catégorisation et la classification de toutes les entrées futures sont régies par ces étiquettes connues. Ces classificateurs implémentent ce que l'on appelle l'apprentissage supervisé

dans le monde de l'apprentissage automatique. Les règles de classification - définies par les données d'apprentissage, qui ont été étiquetées à l'avance par des experts du domaine - sont ensuite appliquées aux données brutes non traitées afin de déterminer au mieux leur étiquetage approprié.

Ces techniques sont souvent utilisées par les services de messagerie qui essaient de classer les spams avant qu'ils ne traversent votre boîte de réception. Plus précisément, étant donné un courriel contenant un ensemble de phrases connues pour se produire ensemble dans une certaine classe de courrier indésirable - délivré à partir d'une adresse appartenant à un botnet connu - votre algorithme de classification est capable d'identifier de manière fiable l'e-mail comme malveillant.

En plus de la richesse des algorithmes statistiques fournis par Mahout, un module

User Defined Algorithms (UDA) est également disponible. Les utilisateurs peuvent remplacer les algorithmes existants ou implémenter les leurs via le module UDA. Cette personnalisation robuste permet un réglage des performances des algorithmes natifs de Mahout et une flexibilité dans la résolution de problèmes d'analyse statistique uniques. Si Mahout peut être considéré comme une extension d'analyse statistique à Hadoop, UDA devrait être vu comme une extension des capacités statistiques de Mahout.

Les applications d'analyse statistique traditionnelles (telles que SAS, SPSS et R) sont dotées d'outils puissants pour générer des flux de travail. Ces applications utilisent des interfaces utilisateur graphiques intuitives qui permettent une meilleure visualisation des données. Les scripts Mahout suivent un modèle similaire à ces autres outils pour générer des workflows d'analyse statistique.

Lors de l'étape finale d'exploration et de visualisation des données, les utilisateurs peuvent exporter vers des formats lisibles par l'homme (JSON, CSV) ou tirer parti des outils de visualisation tels que Tableau Desktop.

L'architecture de Mahout se trouve au sommet de la plateforme Hadoop. Hadoop décharge le programmeur en séparant la tâche de programmation des tâches MapReduce de la gestion complexe requise pour gérer le parallélisme entre les systèmes de fichiers distribués. Dans le même esprit, Mahout fournit des abstractions conviviales d'algorithmes statistiques complexes, prêts à être implémentés avec le framework Hadoop.

Machine Apprendre avec Mahout dans Hadoop - les nuls

Le choix des éditeurs

Comment créer un en-tête ou un pied de page personnalisé dans Excel 2010 - dummies

Comment créer un en-tête ou un pied de page personnalisé dans Excel 2010 - dummies

Texte d'en-tête et de pied de page standard que vous pouvez sélectionner dans les menus déroulants, vous pouvez également créer un en-tête ou un pied de page personnalisé. En plus des éléments d'en-tête ou de pied de page typiques tels que le numéro de page, le nom de fichier et la date ou l'heure, vous pouvez insérer et mettre en forme une image. En outre, vous pouvez mettre en forme ...

Comment créer un en-tête ou un pied de page personnalisé dans Excel 2013 - dummies

Comment créer un en-tête ou un pied de page personnalisé dans Excel 2013 - dummies

Bien qu'Excel 2013 propose plusieurs en-têtes de stock et pieds de page, vous pouvez insérer des informations non disponibles ou dans un arrangement qu'Excel n'offre pas dans les en-têtes et pieds de page prêts à l'emploi. Pour ce faire, vous devez utiliser les boutons de commande qui apparaissent dans le groupe Éléments d'en-tête et de bas de page de l'onglet Conception de ...

Comment créer un nouveau dictionnaire personnalisé dans Excel 2007 - dummies

Comment créer un nouveau dictionnaire personnalisé dans Excel 2007 - dummies

Dans Excel 2007, vous pouvez créer des dictionnaires personnalisés à utiliser lors de la vérification orthographique de vos feuilles de calcul. Vous utilisez le bouton Ajouter au dictionnaire dans la boîte de dialogue Orthographe pour ajouter des mots inconnus à un dictionnaire personnel. Par défaut, Excel ajoute ces mots à un fichier de dictionnaire personnalisé nommé CUSTOM. DIC, mais vous pouvez créer un nouveau custom ...

Le choix des éditeurs

Conseils pour photographier un coucher de soleil Photo - mannequins

Conseils pour photographier un coucher de soleil Photo - mannequins

Le coucher de soleil vous donne la même lumière merveilleuse que le matin , seulement vous obtenez la lumière merveilleuse à la fin de la journée, puis le soleil plonge sous l'horizon et tous les nuages ​​dans la région sont baignés de teintes vertigineuses d'orange, de rose et de pourpre. Le lever et le coucher du soleil sont les proverbes ...

Utiliser le mode Live View - les mannequins

Utiliser le mode Live View - les mannequins

Live View est une fonction extrêmement utile sur votre appareil photo numérique. Lorsque vous utilisez l'affichage en direct, le miroir de la caméra se verrouille et vous voyez la scène sur votre écran LCD plutôt que dans le viseur. Cela vous donne une toile plus grande sur laquelle composer vos images. Lorsque vous photographiez en mode Live View, vous ...

Conseils pour une prise de vue photo Sunrise - mannequins

Conseils pour une prise de vue photo Sunrise - mannequins

Le lever du soleil est un moment glorieux pour la nature et la photographie de paysage. Vous capturez des images merveilleuses juste avant que le soleil se lève et comme il jette un coup d'oeil sur l'horizon, et aussi pendant une heure ou deux après le lever du soleil. Si vous faites votre travail en tant que photographe de la bonne façon, vous ne prenez pas une image - ...

Le choix des éditeurs

Utilisez Répétition dans votre blog - mannequins

Utilisez Répétition dans votre blog - mannequins

Dans la conception, répétition signifie utiliser les mêmes éléments ou des éléments similaires dans votre blog conception. Si vous étalez tous les éléments de votre conception de blog sur une table (virtuelle), vous voulez que toutes ces pièces semblent appartenir à un ensemble plus vaste. La répétition améliore la fluidité du design de votre blog en connectant différents designs ...

Utiliser Google Analytics pour consulter le trafic de référence de votre blog - le trafic de référence

Utiliser Google Analytics pour consulter le trafic de référence de votre blog - le trafic de référence

Est le trafic vous recevez qui vient de sites autres que les moteurs de recherche. Vous pourriez recevoir du trafic provenant de sites de médias sociaux comme Facebook, Twitter ou StumbleUpon. Ou vous pourriez recevoir du trafic d'autres blogs ou sites Web qui pointent vers vous. En regardant les endroits où votre trafic vient (et ne vient pas ...

Utiliser le serveur publicitaire OpenX OnRamp pour votre maman Blog - mannequins

Utiliser le serveur publicitaire OpenX OnRamp pour votre maman Blog - mannequins

Un serveur publicitaire est un logiciel Cela vous permettra de gérer toutes vos annonces d'un endroit, même si vous avez plus d'un blog. Il affiche les annonces, les fait pivoter, les cible et fournit des rapports de performances à vos clients publicitaires. OpenX a un produit gratuit appelé OpenX OnRamp quand vous arrivez à ...