Categories: Non classé

Extraction de données

Extraction de données

L’extraction de données encore nommée exploration de données est un moyen d’extraction de savoir dans des données énormes de façon semi-automatique ou automatique. Elle utilise des algorithmes issus de l’informatique, de l’intelligence artificielle et des statistiques pour faire des modèles à partir des données et en extraire des connaissances. Ainsi, il existe plusieurs méthodes utilisées pour faire l’extraction de données dont les plus populaires sont les suivantes :

La méthode CRISP-DM (Cross Industry Standard Process for Data Mining)
La méthode CRISP-DM est une méthode basée sur l’extraction des connaissances métiers. Si elle est considérée comme un processus, elle procure un aperçu du cycle de vie du Data Mining et si elle est considérée comme une méthode, cette méthode partage la fouille de données en 6 phases :

  1. La compréhension du métier : il s’agit de procéder à la détermination des objectifs commerciaux, à l’évaluation de la situation, à la détermination des objectifs du Data Mining et à la production d’un plan de projet.
  2. La compréhension des données : Elle consiste à collecter les informations initiales, de les décrire, de les explorer et de vérifier leur qualité.
  3. La préparation des données : Il s’agit de sélectionner les données, de les nettoyer, de construire de nouvelles données, d’intégrer les données et de les formater
  4. La modélisation : Elle consiste à choisir les méthodes de modélisation, à générer un concept de test, à créer des modèles et les évaluer.
  5. L’évaluation : Elle consiste à évaluer les résultats et le processus de révision et à déterminer les phases suivantes.
  6. Le déploiement : Il s’agit de planifier le déploiement, la surveillance et la maintenance, de produire le rapport final et d’exécuter une révision du rapport final

La méthode SEMMA (Sample then Explore Modify, Model, Assess)

En français cette méthode signifie : échantillonner, puis explorer, modifier, modéliser, évaluer. Elle est utilisée pour explorer des données de façon indépendante du logiciel utilisé. Elle est de SAS Institute et est destinée à la fouille de données.

La méthode Six Segma DMAIC (Define, Measure, Analyse, Improve, Control)
Cette méthode signifie définir, mesurer, analyser, améliorer et contrôler. Elle est très structurée et consiste à une orientation des données afin d’éliminer les défauts et redondances ainsi que les soucis de qualité dans les secteurs de la prestation de service, de la production, du management et de tant d’autres secteurs. Elle sert ainsi à faire une fouille de données.

admin

Recent Posts

Comment capturer des emails dans youtube

Voici un script puppeteer pour capturer des emails qui sont présents dans youtube. Pour cela on fait une recherche une…

12 mois ago

Automatisation des scripts avec le logiciel Automate Builder

Automatisation des scripts avec le logiciel Automate Builder. Il est tout à fait possible de lancer un script Automate Builder…

2 ans ago

L’aspiration d’annuaires

L’aspiration des annuaires L’aspiration d’annuaires consiste à extraire ou capturer les données ou fichiers des entreprises enregistrées sur les annuaires…

2 ans ago

Aspiration de données

Aspiration de données L’aspiration de données ou aspiration de sites web est une méthode qui permet la récupération totale ou…

2 ans ago

Aspiration site petites annonces

Aspiration site petites annonces L’aspiration de site, comme son nom l’indique consiste à aspirer des sites, de les stocker dans…

2 ans ago

Data Mining

Qu’est-ce que le Data Mining ? Le Data Mining englobe l’ensemble des outils qui facilitent l’extraction et l’analyse des données qui…

2 ans ago