Vidéo: ALLPLAN : Organisation et exploitation de la maquette numérique 2024
L'exploration de données a des exigences très strictes en matière d'organisation des données. Ce ne sont pas des exigences exotiques, complexes ou difficiles à respecter, mais elles sont strictes. La figure montre un échantillon de données visualisées sous forme de tableau dans un logiciel d'exploration de données.
Chaque rangée représente une parcelle de bien immobilier. Les informations sur les parcelles de biens immobiliers sont organisées en colonnes. La première colonne contient le numéro d'identification fiscale (TAXKEY), la seconde colonne contient la valeur estimée du terrain à partir d'une évaluation préalable (P_A_LAND), et ainsi de suite.
Chaque entrée d'une rangée se rapporte à une parcelle de terrain spécifique. Chaque entrée dans une colonne est le même type d'information. Aucune ligne ou colonne n'est laissée vide pour des raisons de style et de lisibilité. Ces données sont correctement organisées pour étudier les différences entre les parcelles de biens immobiliers.
Si, au lieu de l'immobilier, vous interrogez des personnes, chaque personne serait représentée par une ligne dans les données, et tous les détails sur les personnes seraient organisés en colonnes. Si vous étudiez les radiographies thoraciques, chaque radiographie thoracique serait représentée par une rangée dans les données, et tous les détails sur les radiographies thoraciques seraient organisés en colonnes.
Dans la terminologie de l'analyse des données, les choses que vous étudiez - les choses dans les lignes - sont appelées cas ou enregistrements. Et les détails à leur sujet, qui sont dans les colonnes, sont appelés variables . Vous entendrez également les colonnes champs, notamment dans le contexte des bases de données.
L'exploration de données requiert donc que les données soient organisées avec une seule ligne pour chaque observation et une seule colonne pour chaque variable. De nombreuses sources de données sont déjà organisées de cette manière. Les statisticiens organisent les données de cette façon par habitude. Les professionnels de la base de données n'utilisent peut-être pas cette approche pour une grande partie de leur travail, mais ils comprennent généralement ce que vous voulez si vous l'appelez une table plate .
Vous trouverez des variations subtiles dans la structure des données. Certains types de logiciels utilisent des informations descriptives dans un en-tête avant les données, comme certains formats spécialisés associés aux applications de fouille de données d'Orange et de Weka. Certaines procédures analytiques complexes ont des exigences supplémentaires ou légèrement différentes (elles sont assez inhabituelles). Mais le noyau des données a toujours les cas dans les lignes et les variables dans les colonnes.