Google Recherche : Nous avions une idee de l’immensite de la toile…
Cet Article est la traduction d'une annonce officielle publiée par Google.
Ce n’est pas une nouveauté : le web est immense. Le premier index de Google en 1998 comptait déjà 26 millions de pages, et en l’an 2000, l’index a franchit la barre des un milliard. Dans les 8 dernières années, nous avons vu défilé tout un tas de statistiques tentant de chiffrer le web. Récemment, même nos ingénieurs en recherche se sont émerveillés devant l’immensité de la toile ces derniers jours — mille milliards (c’est à dire 1 000 000 000 000) d’URLs (adresses) uniques indexées par nos systèmes au même moment !
Comment découvrons-nous toutes ces pages ? Nous commençons par un noyau dur de pages bien connectées et suivons leurs liens pointant vers de nouvelles pages. Nous suivons alors les liens présents sur ces nouvelles pages, et ainsi de suite, jusqu’à avoir une énorme liste de liens. En fait, nous avions trouvé plus d’un trillion de liens individuels, mais tous ne menaient pas vers des pages uniques. Pas mal de pages ont des adresses multiples, avec exactement le même contenu, ou des adresses qui sont des copies générées automatiquement. Même après avoir supprimé ces duplicata, il nous restait un mille milliards d’URLs uniques, et le nombre de pages uniques s’accroît de plusieurs milliards chaque jours.
Mais combien de pages uniques la toile compte-elle vraiment ? Nous ne savons pas ; nous n’avons pas le temps de toutes les consulter ! :-) A proprement parler, le nombre de pages est infini — prenez par exemple les calendriers qui présente un lien “Jour suivant”, nous pourrions suivre ce lien indéfiniment. Nous ne le faisons évidemment pas, puisque cela présente peu d’intérêt pour vous. Ceci montre cependant que la taille du web dépend en fait de votre définition de ce qu’est une page utile, et il n’y a pas de réponse exacte.
Nous n’indexons pas chacune de ces milliards de pages — beaucoup d’entre elles sont similaires les unes aux autres, ou représentent un contenu auto-généré, comme dans l’exemple du calendrier. Nous sommes quand même fiers d’avoir l’index de le plus complet de tous les moteurs de recherche, notre but a d’ailleurs toujours été d’indexer les données du monde entier.
Pour rester à jour, nos systèmes ont parcouru du chemin depuis les premières requêtes traitées par Google. En ce temps-là, nous faisions tout par tranche : une station de travail pouvaient déterminer le PageRank de 26 millions de pages en quelques heures, et ces pages étaient utilisées pour l’index de Google pendant une période données. Aujourd’hui, Google parcourt le web en continue, en collectant les informations des pages mises à jour plusieurs fois par jours pour établir à chaque fois un nouveau graphe représentatif de la toile. Ce graphe riche de mille milliards d’URL est comparable à une carte constituée de mille milliards d’intersection. Plusieurs fois par jour, nous explorons l’équivalent de chaque intersection de chaque route des Etats-Unis. A la différence que la carte serait 50 000 fois plus étendue que celle des Etats-Unis, et contiendrait 50 000 fois plus de routes et d’intersections.
Comme vous pouvez le voir, nos infrastructures permettent aux applications de traverser un graphe de liens avec plusieurs milliards de connexions, ou de rapidement classer des petaoctets de données pour répondre à la plus importante des questions : votre prochaine recherche Google.