Vidéo: Hadoop Tutorial For Beginners | Apache Hadoop Tutorial | Hadoop Training | Edureka 2024
une quantité importante de ressources de traitement de données, cependant, ce qui a limité l'ampleur des déploiements. La classification des images est un sujet brûlant dans le monde Hadoop, car aucune technologie traditionnelle n'était capable - jusqu'à ce que Hadoop arrive - d'ouvrir la porte à ce genre de traitement coûteux sur une échelle aussi massive et efficace.
La classification des images commence avec la notion que vous construisez un ensemble de formation et que les ordinateurs apprennent à identifier et classifier ce qu'ils regardent. De la même manière que le fait d'avoir plus de données permet de mieux construire la détection de la fraude et les modèles de risque, cela aide aussi les systèmes à mieux classer les images.
Dans ce cas d'utilisation, les données sont appelées ensemble d'apprentissage et les modèles sont des classificateurs. Les classificateurs reconnaissent les caractéristiques ou les motifs du son, de l'image ou de la vidéo et les classifient de manière appropriée. Les classificateurs sont construits et raffinés itérativement à partir des ensembles d'apprentissage de sorte que leurs scores de précision (une mesure de l'exactitude) et les scores de rappel (une mesure de la couverture) sont élevés.
Hadoop convient parfaitement à la classification d'images car il fournit un environnement de traitement massivement parallèle non seulement pour créer des modèles de classeurs (itérer sur des ensembles de formation), mais aussi pour offrir une évolutivité quasi illimitée pour traiter et exécuter ces classificateurs sur des volumes massifs de données non structurées.
Tenez compte des sources multimédia telles que YouTube, Facebook, Instagram et Flickr. Toutes ces sources sont des sources de données binaires non structurées. La figure montre une façon dont vous pouvez utiliser Hadoop pour mettre à l'échelle le traitement de gros volumes d'images et de vidéos stockées pour la classification sémantique multimédia.
Vous pouvez voir comment tous les concepts relatifs au framework de traitement Hadoop sont appliqués à ces données. Notez comment les images sont chargées dans HDFS. Les modèles de classificateurs, construits au fil du temps, sont maintenant appliqués aux composants d'image supplémentaire dans la phase Map de cette solution. Comme vous pouvez le voir dans le coin inférieur droit, la sortie de ce traitement consiste en des classifications d'images allant des dessins animés aux sports et aux lieux, entre autres.
Hadoop peut aussi être utilisé pour l'analyse audio ou vocale. Un client de l'industrie de la sécurité avec lequel nous travaillons crée un système de classification audio pour classer les sons qui sont entendus à l'aide de câbles à fibres optiques enrichis acoustiquement disposés autour du périmètre des réacteurs nucléaires.
Par exemple, ce système sait classer presque instantanément le murmure du vent par rapport au chuchotement d'une voix humaine ou distinguer le bruit des pas humains qui courent dans les parcs périphériques de ceux de la faune.
Cette description peut avoir une certaine sensation Star Trek , mais vous pouvez maintenant voir des exemples en direct. En effet, IBM rend public l'un des plus grands systèmes de classification d'images au monde, via le système IMARS (IBM Multimedia Analysis and Retrieval System).
Voici le résultat d'une recherche IMARS pour le terme ski alpin. En haut de la figure, vous pouvez voir les résultats des classificateurs mappés à l'ensemble d'images traité par Hadoop, ainsi qu'un nuage de tags associé.
Notez le classificateur parent plus grossièrement défini, par opposition au plus granulaire. En fait, notez les multiples niveaux de classification: rolls into, qui s'introduit dans - tous générés automatiquement par le modèle de classificateur, construits et notés en utilisant Hadoop.
Aucune de ces images n'a de métadonnées ajoutées. Personne n'a ouvert iPhoto et étiqueté une image comme un sport d'hiver pour la faire apparaître dans cette classification. C'est le classificateur de sports d'hiver qui a été construit pour reconnaître les attributs d'image et les caractéristiques des sports qui sont joués dans un décor d'hiver.
La classification d'images a de nombreuses applications, et être capable d'effectuer cette classification à grande échelle en utilisant Hadoop ouvre davantage de possibilités d'analyse car d'autres applications peuvent utiliser les informations de classification générées pour les images.
Regardez cet exemple de l'industrie de la santé. Une grande agence de santé en Asie s'est concentrée sur la fourniture de soins de santé via des cliniques mobiles à une population rurale répartie sur une grande superficie. Un problème important auquel l'agence a été confrontée était le défi logistique de l'analyse des données d'imagerie médicale générées dans ses cliniques mobiles.
Un radiologue est une ressource rare dans cette partie du monde, il est donc logique de transmettre électroniquement les images médicales à un point central et de les faire examiner par une armée de médecins. Les médecins examinant les images ont été rapidement surchargés, cependant.
L'agence travaille actuellement sur un système de classification pour aider à identifier les conditions possibles afin de fournir efficacement des suggestions à vérifier aux médecins. Les premiers tests ont montré cette stratégie pour aider à réduire le nombre de diagnostics manqués ou inexacts, en économisant du temps, de l'argent et, surtout, des vies.