AOL a mis en ligne dernièrement une étude portant sur l'analyse de 36 millions de requêtes effectuées sur son moteur de recherche par plus de 500 000 internautes sur une période de trois mois. Etude intéressante à de nombreux points de vue. Sauf que... le fichier de mots clés était identifiable sur le Web et que son analyse permettait de remonter à l'identité de l'un des utilisateurs...
Exemple : un utilisateur tapant les requêtes "link:www.monsite.com" (ou en d'autres termes : "qui a mis un lien vers le site www.monsite.com ?") et "thomas martin". En allant sur le site www.monsite.com (ou en faisant une fonction Whois sur ce nom de domaine), on peut rapidement savoir si c'est bien ce Thomas Martin qui a effectué les recherches. Toutes les requêtes étant balisées dans le fichier d'AOL par un numéro d'utilisateur, on sait tout ce qu'a recherché ce bon vieux Thomas sans qu'il ait donné son autorisation... AOL s'est excusé pour cette "gaffe" mais le mal était fait et le fichier téléchargé plusieurs centaines de fois avant d'être retiré. L'étude était disponible ici :
http://research.aol.com/pmwiki/pmwiki.php?n=Research.500kUserQueriesSampledOver3Months
Mais elle pourrait rapidement disparaître. Le fichier de mots clés a cependant été sauvegardé sur plusieurs sites miroirs :
http://www.gregsadetsky.com/aol-data/
Enfin, certaines personnes ont déjà créé des sites à partir de cette base de données :
http://www.seobook.com/archives/001780.shtml