Google Recherche : Google, d’une complexite enfantine
Source : Official Google Blog
Il y a quelques semaines, Udi Manber vous présentait le groupe de Recherche Qualité. Les billets précédents de cette série étaient dédiés aux classement des documents, et bien que ce classement soit la clé du succès de Google, votre expérience de recherche comprend bien plus que ça. Dans cet article, je vais vous décrire les principes qui guident la façon dont nous développons notre moteur de recherche, et en quoi ils sont primordiaux dans notre vision de la recherche. J’expliquerai aussi comment nous vérifions que nous sommes sur la bonne voie via de rigoureuses expérimentations. Enfin, le dernier billet de la série sera consacré aux expérimentations actuellement en cours.
Permettez moi tout d’abord de me présenter. Je m’appelle Ben Gomes, et je travaille dans le département Recherche de Google depuis 1999, principalement en Recherche Qualité. J’ai eu la chance de pouvoir contribuer au développement de la majorité des composants du moteur de recherche, de l’indexation au classement. Plus récemment, j’ai été nommé responsable de la conception de l’interface et des fonctionnalités de recherche.
Une réaction fréquente de mes amis quand je leur dit que je travaille maintenant sur l’interface utilisateur du moteur de recherche Google est “Qu’est-ce que tu fais ? Ça ne change jamais.” Ils me regardent alors d’un air suspicieux et me disent de “faire attention à ne surtout rien toucher. Google est parfait tel qu’il est — une page simple et rapide”. “C’est très bien, mais c’est compliqué ?”
Pour répondre à cette question, permettez-moi de commencer par le principal objectif de la recherche en ligne : vous diriger vers la page que vous souhaitez le plus rapidement possible. La recherche n’est pas une fin en elle-même ; ce n’est qu’un passage. Ce but peut vous paraître évident, mais c’est la raison pour laquelle un moteur de recherche est radicalement différent de tout autre site sur la toile, qui mesure son succès en fonction de la durée de chaque visite. Nous évaluons la qualité de notre moteur de recherche par votre rapidité à le quitter (satisfaits, de préférence !). Il y a plusieurs principes sur lesquels nous nous basons pour vous aiguiller le plus rapidement possible :
- Taille de la page : une petite page se télécharge et s’affiche dans votre navigateur rapidement. Ceci résulte en un design minimaliste ; des décorations supplémentaires ne feraient que ralentir la page sans pour autant vous être bénéfique.
- De complexes algorithmes présentés de manière simple. Tout un tas de fonctionnalités de recherche impliquent une grande complexité dans les algorithmes et une énorme quantité de données à traiter. L’astuce est de cacher tout cette complexité derrière une interface propre et intuitive. Corrections grammaticales, résumés, liens, et affinements de requêtes sont de parfaits exemples de fonctions qui nécessitent des algorithmes très sophistiqués en constante évolution. De l’angle de vue des internautes, ce ne sont que des améliorations mineures, quasiment invisibles.
- Des outils qui fonctionnent partout. Les fonctionnalités doivent être conçues de telle sorte que les algorithmes et la présentation puissent être adaptés selon les langues et pays. Prenez par exemple le problème de la correction grammaticale en chinois, où les requêtes des internautes ne sont souvent pas décomposées en mots, ou l’arabe/hébreux, ou le texte se lit de la droite vers la gauche (à ce sujet, certains pensent que c’est l’exemple classique des inconvénients des premiers hommes — quand vous gravez une stèle, il est plus simple de tenir le marteau dans la main droite !)
- La loi des données – Tester, tester, tester. Nous essayons de toujours vérifier que nous avons pris les bonnes décisions en expérimentant. Des conceptions qui semblaient prometteuses peuvent parfois finir à la poubelles après des tests.
Il y a des dilemmes inhérents. Par exemple, afficher plus de textes (ou d’images) pour chaque résultat pourrait vous aider à mieux choisir ce qui vous convient. Cependant, une page de résultats surchargée d’informations prend plus de temps à se télécharger et donc à s’afficher. Pour chaque information que nous ajoutons aux résultats, nous faisons attention à ce que les bénéfices pour l’internaute soient supérieurs aux inconvénients causés par cet ajout. Cette problématique est vraie pour tous les aspects de la recherche, de la saisie de la requête, à l’analyse des résultats, à l’exploration plus en profondeur.
Le point de départ de toute expérience de recherche et la saisie d’une requête. Une cause banale de frustration est quand vous n’êtes pas certain de l’orthographe d’un mot ! Correction orthographique — qui paraît être une fonctionnalité des plus simples — cache en réalité une multitude de défis techniques. Aucun dictionnaire anglais classique ne donne l’orthographe exacte de Britney Spears, par exemple (qui est d’ailleurs devenu, probablement à son insu, l’exemple typique de cette fonction). Nous effectuons un énorme travail d’analyse des milliards de pages que contient le web et de vos requêtes afin de différencier les “véritables mots” et ce qui semble être une erreur orthographique. Le système à l’origine de la correction orthographique doit, en l’espace d’une fraction de seconde, prendre en compte tous les orthographes possibles correspondant à votre requête (bien plus que n’importe quel dictionnaire humain) et déterminer ce à quoi vous pensiez en tapant la requête. Quand nous sommes absolument certain de ce que vous vouliez dire, nous prenons quelques libertés avec les résultats de recherche : nous essayons de vous empêcher de regarder le début des résultats. La correction orthographique est directement dans votre ligne de mire et colorée en un rouge qu’il est impossible d’ignorer. De plus, nous faisons attention à ce que rien d’autre sur la page ne soit rouge, sauf si c’est aussi important que la correction orthographique (jusqu’à présent, rien ne l’est) ! Les algorithmes mis en jeu dans la correction sont en constante évolution. Ils fonctionnent à présent dans un plus grand nombre de langues, et détectent encore mieux quand vous faites une faute de frappe. Obtenir les résultats pour ce que vous cherchez réellement est tellement important que nous réfléchissons à afficher les résultats de la requête corrigée en plein milieu de la page (juste au cas où vous auriez loupé le texte rouge en haut et en bas !).
Après avoir corrigé votre requête, la prochaine étape est de choisir une page dans la masse des résultats. Pour chaque résultat, nous vous présentons le titre et l’adresse, ainsi qu’un bref résumé. Les pages dépourvues de titres sont souvent ignorées par les internautes. L’une des plus récentes et importantes modifications a été d’extraire le titre des pages qui n’en spécifient aucun dans leur structure HTML — un titre est donc toujours présent, se pavanant devant vous. Pour détecter un titre représentatif des intentions de l’auteur de la page, nous analysons la structure HTML afin de déterminer le titre. Tout ça pour que vous n’ignoriez pas les pages sans bons titres. En dessous du titre vient le résumé, et une innovation clé des débuts de Google. A l’époque, les moteurs de recherche vous affichaient les deux premières lignes de la page web ; au contraire, Google met en avant les parties de la page où apparaissent vos mots-clés (les experts en Recherche Information appellent ça “Mots-clés en contexte”). Afficher les mots-clés dans leur contexte est visuellement plus simple et reste similaire aux simples résumés, mais bien plus utiles quand il s’agit de décider quelle page visiter. Cette simplicité contredit une complexité sous-jacente : quand nous créons un résumé, nous devons visiter chaque texte afin de dénicher les parties les plus pertinentes (qui contiennent vos mots-clés) au lieu de vous donner les deux premières lignes.
Au fil des années, nous avons enrichi nos résumés avec des algorithmes pour déterminer la pertinence des portions de la page. Ces modifications sont des plus subtiles — nous mettons en valeur les synonymes de vos mots-clés — aux plus évidents. Voici un exemple ou l’internaute a recherche le terme “arod”, et vous pouvez voir que Alex et Rodriguez sont en gras dans le résumé, notre analyse étant que vous pourriez vous référer à cette personne :
Un exemple plus simple, nous affichons à présent les dates de publication des pages en disposant. Ces dates sont toutes exprimées dans le même format, afin que vous puissiez rapidement les analyser :
Pour palier à l’un des principaux besoins des internautes, les requêtes de navigation — où vous saisissez le nom d’un site que vous connaissez — nous avons mis au point des raccourcis (nommés Sitelinks). Ces sitelinks vous permettent d’obtenir les sections clés du site ; ils sont de simples ajouts aux résultats de recherche globaux, impliquant un peu de texte supplémentaire dans la page.
Par exemple, la page d’accueil du site de Hewlett-Packard contient presque 60 liens, répartis en deux menus. Notre algorithme, en utilisant une combinaison de différents signaux, choisit les plus pertinents de ces menus selon votre requête, et les affiche.
Que se passe-t-il si vous ne trouvez pas votre bonheur parmi les résultats ? Dans ce cas, vous devrez probablement effectuer une nouvelle requête. Nous vous assistons dans ce processus en vous donnant plusieurs alternatives similaires à votre requête en bas de chaque page de résultats — même si elles ne correspondent pas à ce que vous chercher, elles peuvent vous donner des indices pour affiner votre requête. En plaçant des suggestions à la fin des résultats, nous ne distrayons pas les internautes, tout en fournissant une aide si les résultats ne conviennent pas.
Je vous ai décrit plusieurs aspects clés de la recherche, ainsi que les modifications que nous avons apportées depuis le début — certaines subtiles, d’autres plus évidentes. En procédant à ces modifications à l’expérience de recherche, comment savons-nous si nous avons vu juste, si nous ne nous sommes pas royalement plantés ? Nous évaluons de manière constante nos changements en les partageant avec vous ! Nous faisons tester nos dernières trouvailles par une faible portion d’internautes, et évaluons si cela semble aider ou bien gêner le processus de recherche. Nous nous basons sur beaucoup de mesures pour déterminer si nous avons réussi ou échoué. Le fait d’évaluer ces modification est une science en elle-même, comportant quantité de pièges. Notre méthodologie expérimentale nous permet d’explorer une large palette de possibilité pour ensuite ne lancer que les meilleures. Pour chaque fonctionnalité que nous lançons, il y en a souvent beaucoup qui n’auront jamais vu la lumière du soleil.
Je vais maintenant répondre à la question initiale : nous sommes toujours en train de modifier les pages de résultats Google et nous le faisons depuis très longtemps. Et non, nous ne mettrons pas à mal un concept qui a fait ses preuves. Vous ne nous le permettrez pas.
Dans le prochain billet, je vous parlerai de quelques expérimentations sur lesquelles nous travaillons, et ce que nous espérons apprendre grâce à elles.
– Présentation du système de classement
– Les mécanismes du classement Google
– Google, d’une complexité enfantine
– Des expérimentations pour tous les goûts
– L’évaluation de la recherche chez Google
– Comportement des internautes dans leur habitat naturel
– Notre approche internationale de la recherche
La recherche sur Google est d’une complexité enfantine :
Bien que cette note date du 2 août 2008, elle reste néanmoins toujours d’actualité et n’est pas limitée dans le temps, mais, est relative au temps qui s’écoule, lorsqu’on lance une recherche sur Google, et le moment où on quitte la page recherchée… La vision de la recherche est, pour Google, un gage de qualité, c’est pourquoi, leurs ingénieurs ont tablés sur une approche de qualité de recherche en fonction de la durée de chaque visite ; cette méthodologie se base sur différents principes de base que le moteur de recherche applique afin de nous guider, une fois notre recherche lancée : cela débute avec la taille de la page, de complexex algorithmes sont présentés de manière simple (les affinements de requêtes sont de parfaits exemples), l’astuce est de dissimuler la complexité derrière un interface sobre et d’afficher les corrections grammaticales, les résumés, les liens …
Ces outils fonctionnent partout , les algorithmes et la présentation sont adaptables : à chaque langue, le problème de la correction grammaticale et orthographique est bien présent, que ce soit en chinois, en arabe ou en hébreux, aussi, quand le texte se lit de droite à gauche… Il est un fait inhérent, à chaque recherche, trop de textes, trop de pages et trop de téléchargements peuvent être nuisibles à la qualité recherchée ; il faut pour l’internaute, que les bénéfices soient supérieurs aux inconvénients !
En introduisant sa requête, l’internaute n’est pas toujours certain de l’orthographe du terme qu’il recherche ; Google a depuis déjà quelques temps travaillé et rendu cette fonction très pointue et la bonne orthographe d’un mot ou d’un nom sera immédiatement proposée avec les termes analogues à la recherche de l’internaute …En tapant un mot (ou un nom), il aura plusieurs possibilités, et cela représente un gain de temps énorme par rapport au temps qu’on pourrait passer à chercher dans un dictionnaire classique en étant toujours incertain de la bonne orthographe de ce mot ! Google nous propose une correction orthographique colorée en rouge ; la correction concerne, bien-sûr, également les fautes de frappe et, je pense qu’avec ces deux dernières fonctionnalités, chacun de nous y trouvera son compte …
La suite de nos recherches sur Google, nous la connaissons tous ; une fois notre requête corrigée, il ne restera qu’à choisir une page dans les résultats donnés ; pour chaque résultat, on obtient le titre ainsi que l’adresse et, un bref résumé…A cela s’ajoutent les mots clefs et leurs synonymes (ça, je l’ignorais), aussi, je vous passe les recherches de thèmes globaux : c’est tellement mieux indiqué par l’auteur de l’article, lui-même, Ben Gomes..
Bien-sûr, Google s’informe de la réaction des internautes face à ces nouveaux outils toujours plus performants ; ils procèdent à des tests dès qu’une modification est apportée. Ces changements, Google les partage avec nous, les internautes, en évaluant notre niveau de satisfaction….pour notre plus grande satisfaction !
Bonjour Nicole,
Un commentaire digne d’un article à traduire ! ;o)
Merci pour ce résumé de qualité avec lequel je suis entièrement d’accord. D’ailleurs je relais votre commentaire directement sur notre flux Twitter et Facebook pour le partager avec tous. Sauf refus de votre, je supprimerais le commentaire.
Yoann.
Bonjour Yoan,
C’est trop d’honneur que vous me faites ; je vous remercie beaucoup pour vos encouragements, mais, je n’ai fait que résumer ce que Google met à la disposition des internautes…Et, bien-sûr, vous pouvez utiliser mon commentaires…
Nicole.