Google Correlate : Le Data Mining à l’echelle Google
Cet Article est la traduction d'une annonce officielle publiée par Google.
Tout a commencé avec la grippe. En 2008, nous avons remarqué que l’activité de certaines requêtes de recherche est un bon indicateur de l’activité de la grippe. Forts de cette observation, nous avons lancé Google Flu Trends afin de fournir une estimation en temps réel de l’activité du virus de la grippe dans 28 pays. Depuis, un certain nombre de chercheurs utilisent les tendances de recherche sur le Web pour prédire l’évolution d’autres types d’activité.
Toutefois, les outils fournissant un accès aux données de recherche, comme Google Trends et Google Insights for Search, n’ont pas été conçus pour répondre à ce genre de demandes. Ces systèmes vous permettent d’entrer une requête et de voir les tendances associées ; mais ce dont ont besoin les chercheurs et les analystes, c’est de pouvoir entrer une thématique, et de voir les requêtes de recherche associées. En d’autres termes, ils veulent un système comme Google Trends mais à l’envers.
C’est désormais possible grâce Google Correlate, que nous lançons aujourd’hui au sein des Labs. Avec Correlate, vous pouvez envoyer vos propres échantillons de données, et accéder à une liste de requêtes de recherche correspondant à ces tendances. Dans l’exemple ci-dessous, nous avons utilisé des données officielles concernant l’activité de la grippe aux Etats-Unis durant ces dernières années. Il en est ressortit que les requêtes en relation avec ces données étaient par exemple “rhume ou grippe”. C’est en trouvant les requêtes corrélées que nous avons construit Google Flu Trends :
Vous pouvez aussi entrer une requête, comme “ribosome” et découvrir les autres requêtes dont l’activité correspond à celle de la requête fournie :
Il s’avère que la biologie cellulaire n’est pas très populaire en été. Par contre, il est intéressant de voir que les courbes d’activité des termes en rapport avec la biologie cellulaire sont fortement semblables, et que le terme “ribosome” est lié à d’autres termes de la biologie comme “mitochondrie”. Bien entendu, la corrélation n’a rien à voir avec la causalité, et nous pouvons pas expliquer pourquoi ces deux termes suivent la même évolution. Mon intuition est que ces deux termes sont populaires lorsqu’ils sont abordés en salle de cours.
L’activité de recherche est une source infinie de données qui pourraient profiter à l’économie, à la santé, et à bien d’autres domaines. Nous devons toutefois manier ces données tout en protégeant la vie privée de nos utilisateurs. Dans ce système, nous ne nous intéressons pas à ce que chaque individu recherche. Au lieu de cela, nous utilisons des millions de requêtes anonymisées, et les tendances que nous observons ne sont fiables que sur une large portion de la population.
Nous vous encourageons à lire notre livre blanc décrivant la méthodologie derrière Google Correlate. Ou pour une explication plus simple, jetez un oeil à notre BD ! Nous avons pris beaucoup de plaisir à exploiter différentes données et à observer des corrélations souvent fascinantes et parfois curieuses. Envoyez vos données et dites-nous ce que vous en tirez.
Article original en anglais par Matt Mohebbi, Ingénieur logiciel chez Google