Google : Aider les ordinateurs à comprendre le langage humain
Cet Article est la traduction d'une annonce officielle publiée par Google.
L’ironie de la science informatique est que des tâches difficiles à réaliser pour des humains se révèlent extrêmement simples pour une machine, mais que des tâches naturelles pour des humains sont quasi impossibles pour un ordinateur. Nous pouvons écrire un programme informatique capable de battre n’importe quel humain à une partie d’échec, mais nous sommes incapables d’écrire un programme capable d’identifier les objets dans une photos ou de comprendre une phrase que même un enfant saurait interpréter.
Permettre aux ordinateurs de comprendre le langage reste l’un des plus gros problèmes de l’intelligence artificielle. L’objectif d’un moteur de recherche est de proposer les meilleurs résultats pour votre requête, et pour cela comprendre le langage est primordial. L’une des clés est notre système de compréhension des synonymes.
Qu’est-ce qu’un synonyme ? Un exemple évident est que “photo” et “image” signifient la même chose dans la majorité des cas. Si vous recherchez des [images développées avec le café] pour savoir comment développer des photographies en utilisant le grain de café en tant qu’agent, Google doit comprendre que même si une page contient “photos” et non “images“, elle reste pertinente. Même si un enfant en bas âge est en mesure d’identifier des synonymes comme photo/image, le faire assimiler à un ordinateur est des plus compliqués, et nous sommes assez fiers du système que nous avons développé chez Google.
Notre système de synonyme est le fruit de plus de cinq années de recherche au sein de notre équipe. Nous surveillons en permanence la qualité du système, mais nous avons récemment dédié une partie de notre temps à analyser l’impact et la qualité des synonymes. La plupart du temps, vous ne remarquez sans doute pas lorsque le système des synonymes est amélioré, car tout se passe en coulisse. Cependant, nos analyses montrent que les synonymes affectent 70% des recherches sur l’ensemble des langues prises en comptes. Nous avons isolé un échantillon de ces requêtes, avons évalué la précision des synonymes, et nous sommes contents des résultats, pour chaque échantillon de 50 requêtes où les synonymes ont significativement amélioré la qualité des résultats, nous n’avons repéré qu’un seul synonyme vraiment mauvais.
Un exemple de mauvais synonyme est dans la recherche [dell system speaker driver precision 360], où Google croît que “pc” est un synonyme de “précision”. Notez que vous pouvez reproduire cette recherche encore aujourd’hui, car bien que conscients de la mauvaise qualité de ce synonyme, nous n’apportons que rarement des corrections à la main. Nous préférons essayer de découvrir des améliorations générales à nos algorithmes pour remédier aux problèmes. Nous espérons que cette erreur sera corrigée dans une mise à jour future.
Nous avons aussi récemment apporté une modification à l’affichage de nos synonymes. Dans nos extraits de résultat, nous mettons en gras les termes de votre requête. Par le passé, nous mettions également en gras les synonymes évident étant une variante du mot, comme le “photo” pour la requête “photos”. Nous étendons aujourd’hui ce système aux synonymes jugés fiables par notre algorithme, même s’ils ne sont pas des variantes. Ceci vous aidera à comprendre pourquoi un résultat est affiché, particulièrement s’il ne contient pas les termes de votre requête. Dans notre exemple [pictures developed with coffee], vous pouvez voir que le mot “photos” est en gras dans le titre :
(Notez que, notre système de synonymes dépendant du contexte de votre requête et de nombreux signaux, vous ne verrez pas toujours le mot “photos” en gras pour le terme initial “images”, mais uniquement si nos algorithmes pensent qu’il est utile et important de le mettre en gras).
Nous utilisons beaucoup de techniques pour extraire les synonymes, un sujet sur lequel nous avons déjà blogué par le passé.Nos systèmes analysent des petaoctets de documents Web et d’historiques de recherche pour bien comprendre le sens des mots dans différents contextes. Dans l’exemple précédent, “photos” est un synonyme évident de “images”, mais ce n’est pas toujours un bon synonyme. Par exemple, il est important pour nous de reconnaître que dans certaines requêtes, par exemple [history of motion pictures], “pictures” ne signifie pas la même chose (ici, motion pictures signifie films), et que remplacer par “photos” n’aurait aucun sens. Autre exemple, le terme “UE”. La plupart des gens en connaissent le sens : “Union Européenne”. Pour la recherche [drapeaux UE], vous pouvez voir que Google met en gras les termes “Union Européenne” dans les résultats. Pour cette recherche, nous avons donc pensé que “UE” signifiait “Union Européenne”. Y-a-t-il ‘autres significations ? Les étudiants et les universitaires peuvent penser à un autre sens : “unité d’enseignement”, qui est en gras lorsque “UE” est utilisé dans des requêtes en rapport avec les études, comme dans [UE biologie].
Exemple illustré de “gm” dans différents contextes :
Entre parenthèses, même les variantes évidentes comme “photo” et “photos” (au pluriel) seraient considérés comme deux deux termes différents par un ordinateurs stupide, donc nous incluons également ce genre de relations dans notre système. Ce même système qui comprend que photo et photos sont des variantes doit aussi comprendre que dans certains cas photos signifie images, ce qui s’avère encore plus compliqué pour la machine. Un exemple de situation compliquée : “animal” et “animation”, qui partagent la même racine et étymologie, mais ne signifient absolument pas la même chose. Ces différences subtiles entre les mots font de la synonymie un concept compliqué à appréhendé.
D’autres exemples de synonymes intéressants (en anglais) :
[song words], “lyrics” (paroles) est en gras pour “words” (mots).
[what state has the highest murder rate], “homicide” est en gras pour “murder” (meurtre).
[himalayan kitten breeder], Google sait que “cat breeder” équivaut à “kitten breeder”
[dura ace track bb axle njs], Google sait que “bb” dans ce cas signifie “bottom bracket”.
[software update on bb color id], “blackberry” est en gras pour “bb”.
[bb cream dark], Google sait qu’ici “bb” signifie “blemish balm”.
[southeastern usa bb fitness & figure], “bodybuilding” est en gras pour “bb.”
Enfin, le langage est utilisé avec autant de variété et de subtilité que dans le langage humain, et nos algorithmes continuent à se tromper. Nous flanchons quand nous constatons de telles erreurs ; nous travaillons constamment à les corriger. L’un des moyens les plus efficaces pour nous de découvrir ces problèmes est d’avoir des retours de vrais utilisateurs, que nous utilisons ensuite pour améliorer le programme. Si vous avez des plaintes spécifiques concernant notre système de synonymes, vous pouvez poser la question sur le forum d’entraide sur la recherche, ou la teweeter avec le tag #googlesyns. Vous pouvez aussi désactiver les synonymes pour un mot en particulier en ajoutant un “+” avant ou en mettant le mot entre guillemets.
Par Steven Baker, Ingénieur logiciel
Les défits de la science informatique mettent nos ordinateurs à l’épreuve : je vais introduire dans mon programme informatique des données, afin qu’à ma prochaine partie d’échec contre mon ordinateur; grâce à ces données , j’en ressortirai comme le grand vainqueur ! Prouesse des prouesses, nos ordinateurs vont-ils bientôt détecter et ainsi parvenir à être attentifs nos état émotionnels ?…Alors que nous voguons vers une intelligence artificielle, nos ordinateurs vont-ils à même de comprendre notre langage d’humanoïde ? La première question, il ne faudrait pas lui demander qu’il nous tende un mouchoir en papier, mais, pour la deuxième question, il semble évident que Google s’y est attachée ! En effet, leurs ingénieux ingénieurs ont travaillé pendant cinq ans à identifier un système de synonymes afin de résoudre la problématique de la compréhension des synonymes. Google nous explique dans cet article l’élaboration de leur système de développement de synonymes, ainsi que des résultats de leurs analyses par leur algorithme, et, l’exemple de deux mots, qui n’ont pas la même signification, mais qui se partagent la même racine éthymologique : l’exemple est “animal” et, “animation”… Subtile différence entre les mots, que Google, grâce à son concept parvient à analyser et à dissocier !! Comme il y a maintenant des machines intelligentes, la prochaine fois que j’ai un gros chagrin, je vais rechercher dans mon programme informatique celui qui aura déceler mes états d’âmes et, celui qui y répondra et me consolera !!