Extraction de données

Extraction de données

L’extraction de données encore nommée exploration de données est un moyen d’extraction de savoir dans des données énormes de façon semi-automatique ou automatique. Elle utilise des algorithmes issus de l’informatique, de l’intelligence artificielle et des statistiques pour faire des modèles à partir des données et en extraire des connaissances. Ainsi, il existe plusieurs méthodes utilisées pour faire l’extraction de données dont les plus populaires sont les suivantes :

La méthode CRISP-DM (Cross Industry Standard Process for Data Mining)
La méthode CRISP-DM est une méthode basée sur l’extraction des connaissances métiers. Si elle est considérée comme un processus, elle procure un aperçu du cycle de vie du Data Mining et si elle est considérée comme une méthode, cette méthode partage la fouille de données en 6 phases :

  1. La compréhension du métier : il s’agit de procéder à la détermination des objectifs commerciaux, à l’évaluation de la situation, à la détermination des objectifs du Data Mining et à la production d’un plan de projet.
  2. La compréhension des données : Elle consiste à collecter les informations initiales, de les décrire, de les explorer et de vérifier leur qualité.
  3. La préparation des données : Il s’agit de sélectionner les données, de les nettoyer, de construire de nouvelles données, d’intégrer les données et de les formater
  4. La modélisation : Elle consiste à choisir les méthodes de modélisation, à générer un concept de test, à créer des modèles et les évaluer.
  5. L’évaluation : Elle consiste à évaluer les résultats et le processus de révision et à déterminer les phases suivantes.
  6. Le déploiement : Il s’agit de planifier le déploiement, la surveillance et la maintenance, de produire le rapport final et d’exécuter une révision du rapport final

La méthode SEMMA (Sample then Explore Modify, Model, Assess)
En français cette méthode signifie : échantillonner, puis explorer, modifier, modéliser, évaluer. Elle est utilisée pour explorer des données de façon indépendante du logiciel utilisé. Elle est de SAS Institute et est destinée à la fouille de données.

La méthode Six Segma DMAIC (Define, Measure, Analyse, Improve, Control)
Cette méthode signifie définir, mesurer, analyser, améliorer et contrôler. Elle est très structurée et consiste à une orientation des données afin d’éliminer les défauts et redondances ainsi que les soucis de qualité dans les secteurs de la prestation de service, de la production, du management et de tant d’autres secteurs. Elle sert ainsi à faire une fouille de données.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *