[Google Recherche] L’evaluation de la recherche chez Google
Source : Official Google Blog
Cette série de billets a eu pour objectif de vous décrire les différentes façons dont nous tentons d’améliorer la recherche comme le classement et l’interface du moteur. Je vais à présent expliquer l’évaluation de la recherche. En résumé, l’évaluation est une procédure qui nous permet de mesurer la qualité de nos résultats de recherche et de l’expérience d’utilisation de notre service.
Permettez-moi tout d’abord de me présenter. Je suis Scott Huffman, directeur des ingénieurs responsables de l’évaluation, à la tête d’une équipe talentueuse constituée de statisticiens et d’ingénieurs en logiciel. Je travaille dans ce département depuis 2005, et ait toujours baigné dans le milieu de la recherche dans les dernières quarante années.
Lorsque je fais passé des entretiens à des personnes intéressées pour travailler dans l’équipe d’évaluation, j’utilise souvent ce scénario pour décrire ce que nous faisons : Imaginez un ingénieur travaillant sur le classement surexcité dans votre bureau. « J’ai une super idée pour améliorer nos résultats de recherche ! » s’exclame-t-elle. « C’est très simple : dès que le titre d’une page commence par la lettre « T », on la fait monter de trois places dans les résultats ». Cet ingénieur s’est bien sûr armée de plusieurs exemples dans lesquels cette idée apporte en effet une amélioration significative aux résultats.
- Proposition d’amélioration de la segmentation des requêtes en chinois
- Nouvelles approches pour combattre le spam
- De nouvelles techniques pour mieux prendre en charge les mots en suédois
- Des modifications à notre comportement face aux liens
- Et tout ce qui se rapproche de près ou de loin de la recherche
Comme le disait Udi dans son premier billet sur la Recherche Qualité, nous avons lancé en 2007 plus de 450 améliorations à la recherche Google, et chacune d’elle est passée par un examen des plus sévères.
L’évaluation de la recherche est donc bien évidemment de première importance. Des analyses détaillées permettent à nos équipes de savoir vers quelle voie se diriger. Un de nos principes est de se baser presque entièrement sur les données. Nous essayons autant que possible de ne pas nous fier aux exemples anecdotiques, qui sont souvent source de confusion dans la recherche (où une décision peut affecter des millions de requêtes par jour). Une évaluation méticuleuse et statistique nous fournit les données dont nous avons besoin pour réellement avancer dans cette science qu’est la recherche.
Évaluer la recherche est compliqué pour plusieurs raisons.
- Premièrement, il est indispensable de comprendre ce que les internautes demandent quand ils tapent une requête — la signification de cette requête peut-être particulièrement subtile. Pour les recherche les plus populaires comme [ebay] ou [orbitz], on peut deviner que la plupart des internautes veulent accéder aux sites correspondant. Mais qu’en est-il pour [jeux olympiques] ? Est-ce que cet utilisateur souhaite lire l’actualité des jeux, consulter le décompte des médailles, accéder au site officiel, se renseigner sur l’histoire de cet évènement… ? Cette même question est aussi le centre du travail des équipes de classement et d’ergonomie. L’évaluation en est l’autre face.
- Deuxièmement, comparer la qualité des moteurs de recherche (que cela soit Google versus ses concurents, Google versus Google il y a un mois, ou Google versus Google plus l’idée de la lettre T) n’est jamais soit blanc soit noir. Il est par nature impossible d’effectuer un changement qui soit 100% positif dans toutes les situations ; pour tout changement apporté aux algorithmes, certaines recherches seront meilleures, et d’autres seront pires.
- Troisièmement, il existe plusieurs défintion d’un « bon » résultat. Traditionnellement, l’évalutation de la recherche était focalisée sur la pertinence des résultats, et cela reste bien entendu notre priorité. Mais à l’heure actuelle, les internautes attendent davantage que de la pertinence. Les résultats sont-ils à jour ? Proviennent-ils de sources sérieuses ? Sont-ils complets ? Dépourvus de spams ? Leurs titres et résumés sont-ils suffisamment descriptifs ? Incluent-ils des éléments d’interface supplémentaires qui pourraient être utiles pour l’internaute (cartes, images, suggestions de requête, etc.) ? Nos évaluations tentent de couvrir chacun de ces aspects.
- Quatrièmement, évaluer la qualité des résultats de Google est une entreprise très vaste. Nous couvrons plus de 100 localisations (couples pays/langue) que nous devons évaluer au cas par cas. Au delà des localisations, nous aidons les équipes de Recherche Qualité qui travaillent sur différentes sortes de requêtes et de fonctionnalités. Par exemple, nous mesurons la qualité des corrections orthographiques, des résultats universels, des recherches de vidéos et d’images, des suggestions de recherche, des oneboxes, et bien plus.
Afin de pouvoir faire face à ces problématiques, nous avons plusieurs méthodes d’évaluation et de données à notre disposition :
- Evaluateurs humains. Google emploie des évaluateurs dans beaucoup de pays et de langues. Ces évaluateurs sont minitieusement formés et ont pour tâche d’évaluer la qualité des résultats de recherche selon plusieurs axes. Nous leur montrons par exemple un résultat, et ils doivent lui attribuer une note selon diverses critères.
- Expérimentations. Nous organisons également des expérimentations, durant lesquelles une faible fraction d’utilisateurs se retrouvent confrontés à des approches alternatives. Ben Gomes vous a expliqué comment nous utilisions ces expérimentations pour tester les éléments de l’interface dans son précédent billet. Grâce à ces tests, nous pouvons voir la réaction des internautes (clics, etc.) à des résultats alternatifs.
Evidemment, nous ne pouvons pas évaluer chaque requête qui sera demander à Google dans le futur. Chaque jour, Google reçoit des millions de requêtes que nous n’avons jamais vu par le passé, et que nous ne verront jamais plus. Nous nous basons donc sur des études statistiques, sur des requêtes représentatives des tendances de recherche. L’idée de la lettre T améliore sûrement certaines requêtes, mais si on l’applique à un échantillon de recherches, je suis certain que cela serait un gros désavantage.
L’une des compétences clé de notre équipe est la simulation expérimentale. Pour chaque proposition d’amélioration, nous générons un modèle de simulation qui nous permet de mesurer les aspects principaux du changement. Souvent, nous combinons les évaluateurs humains et les expérimentations. Par exemple, imaginez une proposition d’amélioration pour la fonction « recherche liées » visant à étendre sa couverture à davantage de localités. Notre évaluation pourrait inclure une expérimentation au cours de laquelle nous affichons la version améliorée de la fonctionnalité à des internautes pour mesurer les taux de clics dans chaque localité. Nous pourrions également faire appel à des évaluateurs humain, auxquels nous demanderions de noter la pertinence et l’utilité de chaque suggestion de recherche. Combiner les deux méthodes nous permet de mieux comprendre l’impact global sur les utilisateurs (via les expérimentations), et de mesurer la qualité des suggestions dans chaque pays selon différents aspects (via les évaluateurs humains).
Sélectionner un échantillon de requêtes représentatives peut s’avérer difficile. Lorsque nous évaluons une proposition d’amélioration, nous mesurons non seulement son impact sur une requête donnée, mais aussi l’importance de cet impact. Par exemple, une idée selon laquelle les trois premiers résultats seraient modifiés a beaucoup plus d’impact qu’une idée proposant d’inverser les résultats 9 et 10. Dans le billet précédent d’Amit Singhal sur le classement, il parlait de synonymes. Tout récemment, nous avons évaluer une proposition d’amélioration visant à rendre les synonymes plus importants dans certains cas. Sur un échantillon de requêtes, la modification paraissait tout à fait viable. Cependant, nous nous sommes rendu compte que le changement allait beaucoup trop loin. Par exemple, en chinois, les mots « petit » (小) et « gros » (大) étaient devenus des synonymes… Mauvaise idée !
Nous donnons beaucoup d’importance à l’évaluation car nous tenons à vous proposer une expérience de recherche de la meilleure qualité possible. Plutôt que de se fier à nos intuitions sur ce qui pourrait être bien, nous préférons nous baser sur des études statistiques pour confirmer que nos « supers idées » sont effectivement supers pour vous. Dans ces conditions, l’idée de la lettre T n’avait aucune chance.
- Présentation du système de classement
- Les mécanismes du classement Google
- Google, d’une complexité enfantine
- Des expérimentations pour tous les goûts
- L’évaluation de la recherche chez Google
- Comportement des internautes dans leur habitat naturel
- Notre approche internationale de la recherche
Sur le même sujet :
- [Google Recherche] Nous avions une idee de l'immensite de la toile...
- [Google Recherche] Plus de transparence dans la personnalisation des resultats de recherche
- [Google Recherche] Google, d'une complexite enfantine
- [Google Recherche] Utilisations originales de la Recherche Personnalisee


[...] Google – Google, d’une complexité enfantine – Des expérimentations pour tous les goûts – L’évaluation de la recherche chez Google – Comportement des internautes dans leur habitat naturel – Notre approche internationale de la [...]
[...] Google – Google, d’une complexité enfantine – Des expérimentations pour tous les goûts – L’évaluation de la recherche chez Google – Comportement des internautes dans leur habitat naturel – Notre approche internationale de la [...]