Vidéo: Filtrer et extraire les données Excel selon critères 2024
Interagir avec des données provenant d'une seule source est un problème; interagir avec des données provenant de plusieurs sources en est une autre. Cependant, les ensembles de données proviennent généralement de plus d'une source, vous devez donc comprendre les complications que l'utilisation de plusieurs sources de données peut entraîner. Lorsque vous travaillez avec plusieurs sources de données, vous devez effectuer les opérations suivantes:
- Déterminez si les deux ensembles de données contiennent toutes les données requises. Il est peu probable que deux concepteurs créent des ensembles de données contenant exactement les mêmes données, dans le même format, du même type et dans le même ordre. Par conséquent, vous devez déterminer si les ensembles de données fournissent les données dont vous avez besoin ou si vous devez corriger les données d'une manière ou d'une autre pour obtenir le résultat souhaité.
- Vérifiez les deux ensembles de données pour les problèmes de type de données. Un jeu de données peut avoir des dates entrées en tant que chaînes, et un autre peut avoir les dates entrées en tant qu'objets de date réels. Les incohérences entre les types de données provoquent des problèmes pour un algorithme qui attend des données dans un formulaire et le reçoit dans un autre.
- Assurez-vous que tous les jeux de données ont la même signification pour les éléments de données. Les données créées par une source peuvent avoir une signification différente de celles créées par une autre source. Par exemple, la taille d'un entier peut varier d'une source à l'autre, de sorte que vous pouvez voir un entier de 16 bits provenant d'une source et un entier de 32 bits d'une autre source. Les valeurs inférieures ont la même signification, mais l'entier 32 bits peut contenir des valeurs plus grandes, ce qui peut causer des problèmes avec l'algorithme. Les dates peuvent également causer des problèmes car elles reposent souvent sur le stockage de plusieurs millisecondes depuis une date donnée (comme JavaScript, qui stocke le nombre de millisecondes depuis le 1er janvier 1970). L'ordinateur ne voit que des nombres; les humains ajoutent une signification à ces nombres afin que les applications les interprètent de manière spécifique.
- Vérifiez les attributs de données. Les éléments de données ont des attributs spécifiques. Cette interprétation peut changer en utilisant
numpy
. En fait, vous trouvez que les attributs de données changent entre les environnements, et les développeurs peuvent les modifier encore plus en créant des types de données personnalisés. Pour combiner des données provenant de diverses sources, vous devez comprendre ces attributs pour vous assurer que vous interprétez les données correctement.
Plus vous passez de temps à vérifier la compatibilité des données de chacune des sources que vous souhaitez utiliser pour un ensemble de données, moins vous risquez de rencontrer des problèmes lorsque vous travaillez avec un algorithme. Les problèmes d'incompatibilité de données n'apparaissent pas toujours comme des erreurs définitives. Dans certains cas, une incompatibilité peut entraîner d'autres problèmes, tels que des résultats erronés qui semblent corrects mais qui fournissent des informations trompeuses.
La combinaison de données provenant de plusieurs sources ne signifie pas toujours créer un nouveau jeu de données qui ressemble exactement aux jeux de données sources. Dans certains cas, vous créez des agrégats de données ou exécutez d'autres formes de manipulation pour créer de nouvelles données à partir des données existantes. L'analyse prend toutes sortes de formes, et certaines des formes les plus exotiques peuvent produire de terribles erreurs lorsqu'elles sont mal utilisées. Par exemple, une source de données pourrait fournir des informations générales sur les clients et une seconde source de données pourrait fournir des habitudes d'achat à la clientèle. Les discordances entre les deux sources peuvent correspondre à des informations incorrectes sur les habitudes d'achat des clients et causer des problèmes lorsque vous essayez de commercialiser de nouveaux produits auprès de ces clients. À titre d'exemple extrême, considérez ce qui se passerait en combinant des informations sur les patients provenant de plusieurs sources et en créant des entrées de patients combinées dans une nouvelle source de données avec toutes sortes de discordances. Un patient sans antécédents d'une maladie particulière pourrait se retrouver avec des dossiers montrant le diagnostic et le soin de la maladie.