Data Mining

Qu’est-ce que le Data Mining ?

Le Data Mining englobe l’ensemble des outils qui facilitent l’extraction et l’analyse des données qui se trouvent dans une base de données de type Data Warehouse ou DataMart. Il utilise des méthodes efficaces capables d’extraire depuis de grandes quantités de données, des informations importantes. C’est un processus interactif où l’expertise métier est utilisée de façon conjointe avec les dernières innovations technologiques pour identifier les relations et les caractéristiques dans les informations. La majeure partie de ses méthodes est issue de l’intelligence artificielle ou des techniques de modélisation. Ces méthodes ont pour objectif de procéder à une estimation, de prédire et d’aider à prendre une décision. Le Data Mining est un processus ou une démarche avec 5 étapes :

1-      La détermination du problème
Selon les données disponibles, il s’agit de déterminer quelle est la raison de l’analyse ? Ce qui est recherché ? La manière de déterminer le problème en une seule question qui servira de sujet pour l’enquête ? Il est donc important de savoir que les données sur lesquelles on travaille sont bien existantes.

2-      Collecter les données
C’est une étape très importante dans la mesure où on ne fait qu’une analyse des données utilisables. Ainsi, il est important d’extraire de cette analyse les données dont la qualité n’est pas assez fiable. Les données méritent d’être réétudiées pour qu’à la fin on puisse se retrouver avec des données suffisantes afin de ne pas fausser les résultats. La phase de collecte des données demande une grande attention.

3-      La construction du modèle d’analyse
Il faut toujours veiller à la validation de ses choix d’analyse sur les jeux d’essais tout en variant les échantillons. Ainsi, une évaluation initiale est capable de vous amener à refaire la collecte des données et la détermination du problème.

4-      Étudier les résultats
L’étude des résultats se fait à travers une exploitation de ces derniers. Ainsi, il faut pour affiner l’analyse refaire les phases de construction du modèle, de détermination du problème et de collecte des données, si on se retrouve avec des résultats qui ne sont pas satisfaisants.

5-      Formaliser et diffuser les résultats
Pour être diffusés, les résultats doivent être formalisés. Ils ne sont utilisés que s’ils deviennent une connaissance partagée, d’où l’aboutissement du processus.
Il est donc important d’accorder une très grande importance à la phase de collecte des données et de bien prêter une attention à l’étude des résultats.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *