Google a lancé dernièrement un applicatif nommé News Archive Search, permettant l'exploration historique de l'actualité sur les 200 dernières années. Un applicatif extrêmement intéressant pour qui recherche une information dans le passé historique.
Dans le même sens, je me suis toujours posé la question sur le sort donné par Google aux pages web qu'il indexe jour après jour. Lorsqu'un document disparaît du Web, le moteur l'enlève, de façon logique, de l'index disponible aux internautes, mais qu'en fait-il ? En garde-t-il une trace ? Idem pour l'ancienne version d'une page web... Lorsque les spiders de Google identifient la mise à jour d'un document, qu'advient-il de l'ancienne version ? Est-elle écrasée ou sauvegardée "quelque part" en attendant ?
Imaginez que, depuis 1999, date de création de Google, le moteur ait sauvegardé TOUTES les pages, toutes les différentes versions des documents identifiés sur le Web, un peu comme une Wayback Machine puissance 10... Quelle extraordinaire outil cela serait... Il permettrait de plonger dans les entrailles du Web sur sept ans et d'identifier des monceaux de pages parfois oubliées... Bien sûr, on peut imaginer que, juridiquement parlant, cela pose un certain nombre de questions... Bien sûr,on peut imaginer que la masse d'informations stockée est monstrueuse (il serait intéressant d'ailleurs de faire un sondage à ce sujet : quelle est, selon vous , la taille du web en termes de milliards de pages différentes mises en ligne et de tera-octets, depuis sept ans ?) mais on peut toujours rêver non ?
Alors, Google garde-t-il tout ou jette-t-il les informations au fur et à mesure ? Personnellement, j'ai l'intime conviction que la première version est la bonne et qu'il pourrait un jour ou l'autre proposer un service décoiffant nous permettant d'explorer le cortex mémorial de notre planète web depuis de nombreuses années...
Utilisant le web depuis une décennie, je penche pour une solution « intermédiaire » ! Google a les capacités ms pas la volonté de tout sauvegarder… Ce serait amusant de retrouver les pages des abonnements des FAI des années 1996-98 ?
Nous avons constaté que, lorsque nous effacons le nom d’une personne d’un décret ou d’un arrêté (à la demande de l’intéressé) sur le site admi.net, et que nous demandons la réindexation d’urgence par google, il arrive que 6 mois plus tard la page réapparaisse subitement dans sa forme antérieure dans le cache et dans les index de google. Inquiétant, non ?
Bonjour,
Idem, 1ère option pondérée par le rachat de ce qui pourrait manquer des débuts et de l’avant Google (à suivre dans les acquisitions).
Question stockage, en route pour le Google Octets !
Les têtes pensantes de Google ne laissant rien au hasard, je penche également pour la première possibilité. Cela irait dans le sens de beaucoup d’autres services qu’ils proposent (barre Google, Analytics, pour n’en citer que quelques uns) et qui ont pour ambition (à peine cachée) de leur fournir une connaissance empirique du web.
Google, base de connaissance du web passé, présent et évidemment futur… ça laisse pensif, non ?