Vidéo: Identifier les clients à plus fort potentiel grâce a la Data Science? Eric Lorentz - HP Inc. 2024
Pour votre projet d'analyse prédictive, vous devrez identifier les sources de données appropriées, regrouper les données de ces sources et les mettre dans un format structuré et bien organisé. Ces tâches peuvent être très difficiles et nécessiteront probablement une coordination minutieuse entre les différents gestionnaires de données de votre organisation.
Vous devrez également sélectionner les variables que vous allez analyser. Ce processus doit prendre en compte les contraintes de données, les contraintes du projet et les objectifs commerciaux.
Les variables que vous sélectionnez doivent avoir une puissance prédictive. En outre, vous devez tenir compte des variables qui sont à la fois valables et faisables pour votre projet dans le budget et les délais. Par exemple, si vous analysez des transactions bancaires dans une enquête criminelle, les enregistrements téléphoniques de toutes les parties impliquées peuvent être pertinents pour l'analyse, mais pas accessibles aux analystes.
Attendez-vous à passer beaucoup de temps sur cette phase du projet. La collecte de données, l'analyse des données et le processus de traitement du contenu, de la qualité et de la structure des données peuvent constituer une longue liste de choses à faire.
Pendant le processus d'identification des données, il est utile de comprendre vos données et leurs propriétés; cette connaissance vous aidera à choisir l'algorithme à utiliser pour construire votre modèle. Par exemple, les données de séries temporelles peuvent être analysées par des algorithmes de régression; Les algorithmes de classification peuvent être utilisés pour analyser des données discrètes.
La sélection des variables dépend de votre compréhension des données. Ne soyez pas surpris si vous devez regarder et évaluer des centaines de variables, au moins au début. Heureusement, lorsque vous travaillez avec ces variables et commencez à obtenir des informations clés, vous commencez à les réduire à quelques dizaines. En outre, attendez-vous à ce que la sélection des variables change au fur et à mesure que votre compréhension des données évolue tout au long du projet.
Vous pouvez trouver utile de créer un inventaire de données que vous pouvez utiliser pour suivre ce que vous savez, ce que vous ne savez pas et ce qui pourrait manquer. L'inventaire des données doit inclure une liste des différents éléments de données et des attributs pertinents dans les étapes suivantes du processus.
Par exemple, vous pouvez indiquer si des segments ne contiennent pas de codes postaux ou d'enregistrements manquants pour une période donnée.
Votre go-to pour les connaissances commerciales (également connu sous le nom experts de connaissances de domaine ) vous aidera à choisir les variables clés qui peuvent influencer positivement les résultats de votre projet. Ils peuvent vous aider à expliquer l'importance de ces variables, ainsi que l'endroit et la façon de les obtenir, entre autres contributions précieuses.