Table des matières:
- Grattage des données avec l'importation. io
- ImageQuilts est une extension Chrome développée en partie par le légendaire Edward Tufte, l'un des premiers grands pionniers de la visualisation de données - il a popularisé l'utilisation de la data-to- ratio d'encre pour juger de l'efficacité des cartes.
- DataWrangler est un outil en ligne pris en charge par le Interactive Data Lab de l'Université de Washington (au moment où DataWrangler a été développé, ce groupe s'appelait Stanford Visualization Group). Ce même groupe a développé Lyra, un environnement interactif de visualisation de données que vous pouvez utiliser pour créer des visualisations complexes sans expérience de programmation.
Vidéo: Apiculture : comment extraire le miel ? - Jardinerie Truffaut TV 2024
Que vous ayez besoin de données pour soutenir une analyse commerciale ou un article de journalisme à venir, le web scraping peut vous aider à trouver des sources de données uniques et intéressantes. Dans web-scraping , vous configurez des programmes automatisés, puis laissez-les parcourir le Web pour trouver les données dont vous avez besoin. Voici des outils gratuits szome que vous pouvez utiliser pour gratter des données ou des images, y compris l'importation. io, ImageQuilts et DataWrangler.
Grattage des données avec l'importation. io
Avez-vous déjà essayé de copier et coller une table à partir du Web dans un document Microsoft Office sans pouvoir aligner correctement les colonnes? Frustrant, non? C'est exactement le point de douleur que l'importation. io a été conçu pour répondre.
importer. io - prononcé "import-eye-oh" - est une application de bureau gratuite que vous pouvez utiliser pour copier, coller, nettoyer et mettre en forme sans effort n'importe quelle partie d'une page Web en quelques clics de souris. Vous pouvez même utiliser l'importation. io pour explorer automatiquement et extraire des données à partir de plusieurs listes de pages.
Utilisation de l'importation. io, vous pouvez gratter des données à partir d'une série simple ou compliquée de pages Web:
-
Simple: Accéder aux pages Web par de simples hyperliens qui apparaissent sur Page 1, Page 2, Page 3.
-
Compliquée: > Remplissez un formulaire ou faites votre choix dans une liste déroulante, puis soumettez votre demande de raclage à l'outil. importer. La caractéristique la plus impressionnante de io est sa capacité à observer vos clics de souris pour apprendre ce que vous voulez, et ensuite vous offrir des moyens de remplir automatiquement vos tâches pour vous. Bien que l'importation. io apprend et suggère des tâches, il n'agit sur ces tâches qu'après avoir marqué la suggestion comme correcte. Par conséquent, ces interactions augmentées par l'homme diminuent le risque que la machine tire une conclusion incorrecte en raison d'une surestimation.
ImageQuilts est une extension Chrome développée en partie par le légendaire Edward Tufte, l'un des premiers grands pionniers de la visualisation de données - il a popularisé l'utilisation de la data-to- ratio d'encre pour juger de l'efficacité des cartes.
La tâche ImageQuilts est faussement simple à décrire mais très complexe à mettre en œuvre. ImageQuilts réalise des collages de dizaines d'images et les regroupe en une seule «quilt» constituée de plusieurs rangées de même hauteur. Cette tâche peut être complexe car les images source n'ont presque jamais la même hauteur. ImageQuilts racle et redimensionne les images avant de les assembler en une image de sortie.
La courtepointe illustrée est dérivée d'une recherche Google Images "Etiqueté pour Réutilisation" du terme
données science . ImageQuilts vous permet même de choisir l'ordre des images ou de les randomiser. Vous pouvez utiliser l'outil pour glisser et déposer n'importe quelle image à n'importe quel endroit, supprimer une image, zoomer toutes les images en même temps ou zoomer chaque image individuellement.
Vous pouvez même utiliser l'outil pour passer d'une image à l'autre - de la couleur à l'échelle de gris ou inversée (ce qui est pratique pour créer des contacts négatifs, si vous êtes une des rares personnes à traiter une photographie analogique).
Wrangling Data avec DataWrangler
DataWrangler est un outil en ligne pris en charge par le Interactive Data Lab de l'Université de Washington (au moment où DataWrangler a été développé, ce groupe s'appelait Stanford Visualization Group). Ce même groupe a développé Lyra, un environnement interactif de visualisation de données que vous pouvez utiliser pour créer des visualisations complexes sans expérience de programmation.
Si votre but est
de sculpter votre jeu de données - ou de nettoyer les choses en faisant bouger les choses comme un sculpteur (divisez cette partie en deux, coupez ce morceau et déplacez-le, poussez vers le bas afin que tout ce qui se trouve en dessous soit décalé vers la droite, et ainsi de suite) - DataWrangler est l'outil qu'il vous faut. Vous pouvez effectuer des manipulations avec DataWrangler similaires à celles que vous pouvez effectuer dans Excel à l'aide de Visual Basic. Par exemple, vous pouvez utiliser DataWrangler ou Excel avec Visual Basic pour copier, coller et formater des informations à partir de listes sur Internet.
DataWrangler suggère même des actions basées sur votre jeu de données et peut répéter des actions complexes sur des ensembles de données entiers - par exemple, éliminer des lignes sautées, diviser des données d'une colonne en deux ou transformer un en-tête en colonne. DataWrangler peut également vous montrer où votre dataset manque des données.
Des données manquantes peuvent indiquer une erreur de formatage qui doit être nettoyée.