Table des matières:
Vidéo: Entretien d’embauche : comment aborder un cas pratique 2024
Vous devez établir deux services différents d'assurance qualité dans le flux des services middleware. Vous devez effectuer les premières tâches de contrôle qualité sur l'extrait de la source de données avant d'effectuer d'autres services de middleware.
Assurance de la qualité des données: partie I
Essayez d'attraper (et de corriger) les erreurs et les problèmes le plus tôt possible dans le processus. Le déplacement des données vers le magasin de données est inutile si les problèmes sont si importants qu'ils nécessitent beaucoup plus d'efforts pour corriger plus tard dans le processus ou ne peuvent tout simplement pas être corrigés.
Alors, quels types de problèmes devriez-vous rechercher? En voici quelques-unes:
-
Valeurs dans les éléments de données qui dépassent une fourchette raisonnable: Un client a soumis 150 millions de bons de commande au cours du dernier mois, par exemple, ou un employé a travaillé avec l'entreprise pendant 4 297 ans, selon la base de données des employés et la date d'embauche enregistrée.
-
Valeurs dans les éléments de données qui ne correspondent pas à la liste officielle et complète des valeurs admissibles: Une valeur peut avoir un code A, par exemple, lorsque les seules valeurs autorisées pour ce champ sont M et F. (Si ce champ était étiqueté SEXE, A pourrait être androgyne!)
-
Incompatibilités inter-tables: Pour les entrées de la table CUSTOMER_ORDER, aucune entrée correspondante (identifiée par CUSTOMER_ID) n'existe dans CUSTOMER_MASTER_TABLE.
-
Incompatibilités entre champs: Enregistrements dont l'état ou le code postal est incorrect pour la ville indiquée.
-
Valeurs manquantes: Enregistrements dont les valeurs sont manquantes dans certains champs où elles doivent avoir un contenu.
-
Lacunes dans les données: Par exemple, une table source doit contenir une ligne de données comprenant le nombre total d'unités vendues et le dollar des ventes pour chaque mois au cours des deux dernières années. Cependant, pour un grand nombre de clients, aucune ligne n'existe pour au moins un de ces mois.
-
Données incomplètes: Si des informations sur tous les produits vendus par l'entreprise sont supposées disponibles, par exemple, tous les produits sont-ils inclus dans l'extrait?
-
Violations des règles métier: Si une règle métier stipule qu'un seul grossiste peut vendre des produits à l'un des clients de l'entreprise, vous devez vérifier si les enregistrements clients indiquent des ventes effectuées par plusieurs grossistes, pourrait indiquer des données incorrectes dans la source.
-
Corruption de données depuis le dernier extrait: Si l'extraction est mensuelle, par exemple, vous devez garder une trace des valeurs de données ou des sommes qui doivent être constantes, telles que VENTES PAR CLIENT PAR MOIS.Si, au cours d'un mois ultérieur, la valeur de VENTES PAR CLIENT PAR MOIS change pour un client donné pour un mois précédent, les données sous-jacentes peuvent avoir été corrompues.
-
Incohérences d'orthographe: Le nom d'un client s'écrit de plusieurs façons, par exemple.
Que faites-vous quand vous trouvez des problèmes? Vous pouvez essayer l'une des techniques suivantes:
-
Appliquer une règle de correction automatique. Lorsque vous trouvez une orthographe incohérente, par exemple, effectuez une recherche dans une table principale des corrections orthographiques précédentes et effectuez automatiquement la modification dans les données.
-
Mettez de côté le record pour un membre de l'équipe à analyser et corriger plus tard. Dans ce cas, vous pouvez effectuer la partie humaine du contrôle qualité conjointement avec la correction automatique.
Par exemple, des corrections automatiques sont effectuées, si possible, et un rapport sur d'autres problèmes est placé dans un fichier séparé et envoyé à la personne chargée de l'assurance qualité. Lorsque la personne responsable de l'assurance qualité effectue toutes les corrections manuelles, vous fusionnez les corrections dans les données qui ont été traitées automatiquement par l'assurance qualité.
-
Rafraîchissez vos jets. Si vous découvrez suffisamment de problèmes qui sont sérieux ou nécessitent un nombre indéterminé de recherches, pensez à interrompre tout le processus jusqu'à ce que vous ayez trouvé et résolu le problème.
Vous pouvez rendre le processus d'assurance qualité beaucoup plus efficace et beaucoup moins problématique si vous effectuez une analyse approfondie des systèmes sources. Si vous avez une assez bonne idée des types de problèmes de données que vous pourriez rencontrer dans chaque source de données, vous pouvez reprogrammer votre processus d'assurance qualité pour détecter et (espérons-le) corriger ces problèmes avant de continuer.
Historiquement, les organisations traitaient le processus de contrôle qualité de l'entrepôt de données comme un flux unidirectionnel. Les problèmes sont corrigés avant que les données ne soient déplacées davantage dans le flux des processus middleware, mais ne soient jamais corrigées dans les sources de données. La plupart des nouveaux entrepôts de données disposent d'une boucle de rétroaction intégrée au processus d'assurance qualité qui corrige les problèmes de qualité des données dans les données source.
Assurance qualité des données: partie II
Une fois les processus de transformation terminés, les données doivent être de nouveau QA. Vous ne savez jamais quel type d'erreurs ou de contradictions le processus de transformation a pu introduire dans les données. Une fois les modifications effectuées, les processus d'assurance qualité précédents ne sont plus valides.
Exécutez les données consolidées et transformées à l'aide du même type d'étapes de contrôle qualité abordées ici. Bien que vous ne trouviez probablement pas autant d'erreurs rudimentaires (telles que des fautes d'orthographe ou des valeurs hors de portée) si vous avez effectué un travail approfondi sur votre assurance qualité de premier niveau, vous voulez toujours vous assurer. De plus, assurez-vous que le code ou les scripts utilisés pour la transformation des données ne causent pas accidentellement de nouvelles erreurs.
Le but de ce contrôle qualité de second niveau est de s'assurer que vos données consolidées et transformées sont prêtes à être chargées. entrepôt de données - dès qu'une étape supplémentaire se produit, si nécessaire.