Accueil Finances personnelles Comment rechercher vos données Predictive Analytics - mannequins

Comment rechercher vos données Predictive Analytics - mannequins

Table des matières:

Vidéo: 3 methodes complexes d'imputation des données manquantes 2025

Vidéo: 3 methodes complexes d'imputation des données manquantes 2025
Anonim

vos données analytiques prédictives vous devez savoir comment trouver l'information que vous voulez trouver. Il y a deux concepts principaux de la recherche de vos données en préparation pour l'utiliser dans l'analyse prédictive:

  • Se préparer à aller au-delà de la recherche par mot-clé

  • Rendre sémantique vos données

analyse

Imaginez si vous étiez chargé de rechercher de grandes quantités de données. Une façon d'aborder le problème consiste à émettre une requête de recherche constituée (de toute évidence) de mots. L'outil de recherche recherche les mots correspondants dans la base de données, dans l'entrepôt de données, ou fouille dans le texte dans lequel se trouvent vos données.

Supposons que vous lancez la recherche suivante: le président des États-Unis se rend en Afrique . Les résultats de la recherche comprendront un texte qui contient exactement un ou une combinaison des mots Président, États-Unis, visites, Afrique . Vous pourriez obtenir l'information exacte que vous cherchez, mais pas toujours.

Que diriez-vous des documents qui ne contiennent aucun des mots mentionnés précédemment, mais une combinaison des éléments suivants: Le voyage d'Obama au Kenya .

Aucun des mots que vous avez initialement recherchés n'y figure - mais les résultats de la recherche sont sémantiquement (significatifs) utiles. Comment pouvez-vous préparer vos données pour être sémantiquement récupérable? Comment pouvez-vous aller au-delà de la recherche par mot-clé traditionnelle? Vos réponses peuvent être trouvées si vous continuez à lire.

Comment utiliser les recherches sémantiques dans l'analyse prédictive

Une illustration du fonctionnement de la recherche sémantique est un projet qu'Anasse Bari a mené au sein du Groupe de la Banque mondiale, une organisation internationale dont la mission principale est de lutter contre la pauvreté dans le monde entier.

Le projet visait à étudier la recherche et l'analyse d'entreprise à grande échelle sur le marché et à construire un prototype pour un cadre de pointe qui organiserait les données de la Banque mondiale - la plupart étant une collection non structurée de documents, publications, rapports de projets, des mémoires et des études de cas.

Ces connaissances massives et précieuses constituent une ressource utilisée pour la mission principale de la Banque de réduire la pauvreté dans le monde. Mais le fait qu'il soit non structuré rend difficile l'accès, la capture, le partage, la compréhension, la recherche, l'extraction de données et la visualisation.

La Banque mondiale est une organisation immense, avec de nombreuses divisions à travers le monde. L'une des principales divisions s'efforçait d'avoir un cadre et était prête à allouer des ressources pour aider l'équipe de Bari était le Réseau de développement humain au sein de la Banque mondiale.

Le vice-président du Réseau du développement humain a souligné un problème qui venait de l'ambiguïté: sa division utilisait plusieurs termes et concepts qui avaient la même signification générale mais des nuances différentes.

Par exemple, des termes tels que climatologie, changement climatique, appauvrissement de la couche d'ozone gazeux, et émissions de gaz à effet de serre étaient tous sémantiquement liés mais non identiques. Il voulait une capacité de recherche assez intelligente pour extraire des documents contenant des concepts connexes lorsque quelqu'un cherchait l'un de ces termes.

Le prototype de cette fonctionnalité sélectionnée par l'équipe de Bari était l'architecture de gestion de l'information non structurée (UIMA), une solution logicielle. Conçu à l'origine par IBM Research, UIMA est disponible dans des logiciels IBM tels que IBM Content Analytics, l'un des outils qui a permis à IBM Watson, le célèbre ordinateur qui a remporté le jeu Jeopardy.

L'équipe de Bari s'est associée à une équipe très talentueuse d'IBM Content Management et Enterprise Search, puis d'une équipe IBM Watson pour collaborer à ce projet.

Une solution de gestion de l'information non structurée (UIM) est un système logiciel qui analyse de gros volumes d'informations non structurées (texte, audio, vidéo, images, etc.) pour découvrir, organiser et transmettre des connaissances pertinentes. le client ou l'utilisateur final de l'application.

L'ontologie d'un domaine est un tableau de concepts et de termes associés propres à un domaine. Une solution basée sur UIMA utilise des ontologies pour fournir un marquage sémantique, ce qui permet une recherche enrichie indépendamment du format de données (texte, discours, présentation PowerPoint, e-mail, vidéo, etc.). UIMA ajoute une autre couche aux données capturées, puis ajoute métadonnées pour identifier les données qui peuvent être structurées et recherchées sémantiquement. La recherche sémantique

est basée sur la signification contextuelle des termes de recherche tels qu'ils apparaissent dans l'espace de données interrogeable que construit UIMA. La recherche sémantique est plus précise que la recherche par mot-clé habituelle car une requête utilisateur renvoie des résultats de recherche non seulement des documents contenant les termes recherchés, mais également des documents sémantiquement pertinents pour la requête. Si vous recherchez

biodiversité en Afrique , une recherche classique (basée sur un mot clé) renverra des documents ayant les mots exacts biodiversité et Afrique . Une recherche sémantique basée sur UIMA renverra non seulement les documents qui ont ces deux mots, mais aussi tout ce qui est sémantiquement pertinent pour les documents «biodiversité en Afrique» qui contiennent des combinaisons de mots telles que «ressources végétales en Afrique», «ressources animales en Maroc, "ou" ressources génétiques au Zimbabwe. " Grâce au marquage sémantique et à l'utilisation des ontologies, l'information devient sémantiquement récupérable, indépendamment de la langue ou du support dans lequel l'information a été créée (Word, PowerPoint, e-mail, vidéo, etc.). Cette solution fournit un concentrateur unique où les données peuvent être capturées, organisées, échangées et rendues sémantiquement récupérables.

Les dictionnaires de synonymes et les termes associés sont open-source (disponibles gratuitement) - ou vous pouvez développer vos propres dictionnaires spécifiques à votre domaine ou à vos données. Vous pouvez créer une feuille de calcul avec le mot racine et ses mots associés correspondants, des synonymes et des termes plus généraux. La feuille de calcul peut être téléchargée dans un outil de recherche tel qu'IBM Content Analytics (ICA) pour alimenter la recherche d'entreprise et l'analyse de contenu.

Comment rechercher vos données Predictive Analytics - mannequins

Le choix des éditeurs

Conventions de dénomination pour Ruby on Rails - mannequins

Conventions de dénomination pour Ruby on Rails - mannequins

Vous utilisez Ruby on Rails pour créer un site Web application ou application de base de données Web, ce qui est très intelligent de votre part. En fonction de ce que vous utilisez (une application, une relation un-à-plusieurs ou une relation plusieurs-à-plusieurs), vous utilisez différentes variantes des protocoles d'attribution de noms Rails, qui sont expliquées dans les sections suivantes. Ruby Naming for ...

En orbite, panoramique et zoom dans la vue 3D de Blender - mannequins

En orbite, panoramique et zoom dans la vue 3D de Blender - mannequins

En essayant de naviguer dans un espace en trois dimensions à travers un écran bidimensionnel comme un écran d'ordinateur, vous ne pouvez pas interagir avec cet espace 3D virtuel exactement comme vous le feriez dans le monde réel, ou espace de vie. La meilleure façon de visualiser le travail en 3D à travers un programme comme Blender est d'imaginer la vue 3D comme vos yeux ...

Déplacement de clips sur la timeline dans Final Cut Pro HD - Ficelles

Déplacement de clips sur la timeline dans Final Cut Pro HD - Ficelles

Final Cut Pro HD Timeline vous permet d'organiser tous vos clips vidéo et audio afin qu'ils racontent l'histoire que vous voulez raconter. Pour comprendre le fonctionnement de la Timeline, imaginez-la comme une page de partitions, mais plutôt que de placer des notes de musique de différentes durées (noires, demi-notes, ...

Le choix des éditeurs

Contrôle et modification de l'associativité des dimensions dans AutoCAD - Dummies

Contrôle et modification de l'associativité des dimensions dans AutoCAD - Dummies

Lorsque vous ajoutez des dimensions en sélectionnant des objets ou en utilisant l'accrochage aux objets Pour sélectionner des points sur les objets, AutoCAD crée normalement des dimensions associatives, qui sont connectées aux objets et se déplacent avec eux. C'est le cas dans les nouveaux dessins créés à l'origine dans toute version d'AutoCAD à partir de 2002. Si vous ...

Copie de styles de cote existants dans AutoCAD 2008 - mannequins

Copie de styles de cote existants dans AutoCAD 2008 - mannequins

Si vous avez la chance de travailler dans un bureau Quelqu'un a mis en place des styles de cotes qui conviennent à votre secteur d'activité et à votre projet. Vous pouvez le copier et ainsi éviter de devoir créer vos propres styles de cote. (Un style de cote - ou dimstyle pour faire court - est une collection de paramètres de dessin appelée dimension ...

En choisissant un style d'édition AutoCAD -

En choisissant un style d'édition AutoCAD -

Dans AutoCAD vous passez généralement plus de temps à éditer que dessiner des objets. C'est en partie parce que le processus de conception et de rédaction est, par nature, sujet à des changements, et aussi parce que AutoCAD vous permet de modifier facilement les objets proprement. AutoCAD propose trois styles d'édition: Commande-première Sélection-première Objet-direct (poignée) AutoCAD fait référence à l'édition de commandes comme verbe-nom ...

Le choix des éditeurs

Praxis Examen d'éducation élémentaire - Présentations orales - mannequins

Praxis Examen d'éducation élémentaire - Présentations orales - mannequins

Parce que les élèves doivent généralement donner des présentations orales en classe , vous rencontrerez probablement une question sur ce sujet dans l'examen Praxis Elementary Education. Plus formelles que les discussions de groupe, les présentations orales ont leurs propres règles pour le conférencier. Lorsque vous donnez une présentation en classe, il y a plusieurs ...

Praxis Examen d'éducation élémentaire - Littérature et texte d'information - mannequins

Praxis Examen d'éducation élémentaire - Littérature et texte d'information - mannequins

L'examen Praxis Elementary Education sur la littérature et le texte d'information, c'est-à-dire la fiction et la non-fiction. Vous devrez donc vous familiariser avec les différents genres d'écriture. La compréhension du texte est un processus qui se produit au fil du temps.

Praxis Examen d'éducation élémentaire - Connaissance phonologique - mannequins

Praxis Examen d'éducation élémentaire - Connaissance phonologique - mannequins

Vous rencontrerez probablement une ou deux questions qui impliquent des questions phonologiques sensibilisation à l'examen Praxis Elementary Education. La conscience phonologique est une compétence large impliquant la reconnaissance de son. Les lecteurs débutants commencent par apprendre les sons individuels, ou phonèmes, dans des mots parlés. Par exemple, le mot chat a trois phonèmes: / c / / a / / t /. Un lecteur débutant apprend ...