Le terme crawl désigne dans le langage web l'action de scanner et de parcourir un site internet pour en extraire le plus d'informations possibles. Crawler ne s'effectue pas en réalisant une simple visite comme vous pouvez le faire sur une boutique e-commerce ou sur un blog d'entreprise. Il faut des logiciels adaptés, afin de récupérer des informations "invisibles" à l’œil nu, et pourtant essentielles. Crawler le site internet d'un concurrent, mais aussi votre propre page, est d'ailleurs une technique pertinente pour vous aider à identifier des pistes d’amélioration en matière de référencement. Explications.
Le crawl, un outil de compréhension de votre référencement
Le crawl poursuit des objectifs bien plus précis qu'une simple visite. Il vise à connaître de manière détaillée la structure du site internet, et ainsi l'imbrication des pages les unes par rapport aux autres. Le moteur de recherche Google utilise la technique du crawl avec ses robots. Ces derniers analysent les sites internet du monde entier et les différentes pages qui les composent. Ils vont notamment fouiller dans les balises titre, métadescription, mais aussi dans le balisage de l'article, pour comprendre la hiérarchisation précise de tous les éléments. C'est en exploitant les données de ce crawl (notamment) que Google réalise son évaluation des différents sites internet, et décide de leur positionnement sur les requêtes des internautes.
Comment se déroule techniquement un crawl ? Vous pouvez le lancer vous-même, sans avoir nécessairement de connaissances techniques très poussées. Il faut toutefois disposer d'une machine assez puissante avec plusieurs dizaines de gigabits de mémoire si le site que vous souhaitez scanner possède plusieurs milliers de pages. Il est également recommandé d'utiliser un accès VPN, et configurer User-Agent, afin de vous authentifier auprès du site internet que vous allez crawler, comme étant un "Googlebot". Il existe des solutions gratuites ou payantes telles que Xenu, Botify, Deep Crawl ou encore Watussi Box.
Améliorer son référencement grâce au crawl
Intéressons nous maintenant à ce qu'il est possible de faire avec les données issues du crawl. Avec un tableau croisé dynamique bien paramétré, vous pouvez exploiter les données exportées pour répondre à un certain nombre de questions. Vous pouvez notamment
- Disposer de la répartition des pages du site internet par code réponse (et ainsi identifier la part de 301 ou 404) ;
- Connaître le nombre de pages profondes d'un site, et la profondeur moyenne en nombre de pages pour avoir une idée de la taille du site ;
- Avoir une vision du temps de changement moyen, paramètre très important en matière de référencement ;
- Savoir si vous disposez de contenu dupliqué ou manquant sur vos pages, via notamment le dé-duplication des champs "titre" et "description" ;
- Lister concrètement les pages qui profitent le mieux de votre maillage interne.
Vous pouvez disposer d'une meilleure vision de votre site internet, et ainsi agir pour améliorer votre référencement grâce aux crawl. Le crawl est un outil complémentaire à une bonne analyse de données web. Les conclusions tirées d'un crawl ne seront exploitables que si elles viennent s'appuyer sur des données de webanalyse fiables, nettoyées notamment de tout trafic artificiel... comme celui des robots !
[alert-success]Lire aussi : Big Data Analytics : l’analyse prédictive, c’est maintenant ! et 6 étapes pour piloter votre stratégie de contenu par la data[/alert-success]