Webmasters : Comment Google trouve des pages n’ayant aucun lien pointant dessus ?
Hier, Matt Cutts a publié une nouvelle vidéo de réponse à la question d’un Internaute:
Comment GoogleBot peut crawler et indexer des pages de mon site Internet n’ayant aucun lien pointant vers elles? Je découvre chaque jour deux ou trois pages dans l’index Google qui n’ont pas de lien pointant vers elles. Ces pages sont générées par le champ de recherche de mon site Internet.
Voici les réponses de Matt, les deux premières concernent la toute première partie de la question, la troisième concerne plus tout ce qui est indexation via formulaire :
- Des personnes peuvent soumettre une URL à Google.
- Il se peut qu’il y ait un lien vers une de ces pages sur un site que vous ne connaissez pas encore ou qui ne ressort pas dans les différentes requêtes techniques Google (des requêtes du type link:http://www.example.com), qui ne remontent pas toutes les pages indexées par Google.
- Concernant l’indexation de pages générées après validation de formulaires (uniquement les formulaires de type GET), les GoogleBots sont capable de remplir de petits formulaires lorsqu’ils se trouvent sur une page en contenant un, les robot les testent en cochant/décochant les cases à cocher, en sélectionnant les valeurs des listes déroulantes et en remplissant les champs textuels avec des mots clés cohérents par rapport au site. Tout ceci leur permet de découvrir et crawler des pages qui leur étaient inaccessibles.
Dans tous ces cas, si vous ne souhaitez pas que ces pages soient indexées, vous pouvez le faire savoir à Google et aux autres moteurs par le biais du fichier robots.txt de votre site.
Bonjour. Article intéressant (pas encore vu la vidéo). Par contre c’est ‘robots.txt’ pour le nom du fichier à créer ;)
En effet, j’ai rajouté le “s”. J’avais écrit ce nom de fichier de mémoire, j’aurai dû vérifier sur le FTP comment on avait nommé le notre pour confirmer. Merci Michel !
Google utilise peut être aussi son service DNS http://code.google.com/intl/fr-FR/speed/public-dns/
=> Chaque URL appelée par une machine qui utilise les DNS Google pourrait être candidate à indexation…