Le crawling de données

Le crawling de données avait pour vocation première de parcourir et d’indexer le web, ceci dans le but de faire sa cartographie. La réalisation d’une telle tâche est géré par un programme appelé web crawler. Aujourd’hui, bien qu’ayant plusieurs significations, le crawling a un unique but et son fonctionnement doit être compris par tout le monde.

Le fonctionnement du crawling

D’abord sachez que le fonctionnement d’un crawler est lié au fonctionnement même du web. Les adresse sur le web sont soit appelées URL ou Web, et tous deux représentent des ressources. Alors, si la ressource qu’on prend en compte est une page web, sachez qu’il est susceptible de l’afficher dans une page web. En effet, chaque page web peut contenir des liens qui mènent vers d’autres pages web. Ceci étant, c’est là que le crawler utilise un ensemble d’adresses web connues. Mais, la structure ne contient qu’un petit nombre d’adresses connues au départ et on les appelle les candidats initiaux. Ensuite, pour chacune de ces adresses, le programme télécharge la page web associée et identifie les liens qu’elle contient. En fin pour chacun de ces liens, si l’adresse est connue, elle est ajoutée à la liste.

L’utilité des crawler

Une fois familiarisés au fonctionnement des crawler, vous découvrirez toute leur utilité, car l’analyse des données téléchargées par le crawler peut aider celui-ci à prioriser les URL à visiter. Aussi, il est possible de créer des indicateurs différents de valeur potentielle d’une URL à partir des données de la page qui la contient les autres pages d’un même site. Ainsi, c’est par priorité que le crawler visite des URL pour en laisser d’autres. Dès lors, tachez de faire la différence entre le crawling et le scraping, ce sont deux concepts proches, mais qui ne disent pas la même chose.