Google a annoncé aujourd'hui la mise à disposition des internautes d'un index de plus de 3 milliards de documents. En fait ce chiffre comprend les pages web, les archives des forums de discussion et les images. Analysons tout celà : tout d'abord, Google propose environ 2 milliards de pages web. Environ les trois quarts de ce chiffre est réellement disponible en tant que document web indexé en texte intégral (Google en possède une réelle copie sur ses disques). Le dernier quart est "estimé" (Google sait que ces documents existent car il y a, dans son index "réel", des pages proposant des liens vers ces documents) mais il ne les indexe pas "en dur" sur ses disques. Cependant, au travers de l'analyse des liens pointant vers ces documents "estimés", et notamment des textes des pages "sources", il pense avoir une bonne idée du sujet traité par la page en question. Sur ces deux milliards de pages, Google indique que 75% sont en langue anglaise. Certains sites (notamment d'actualité) sont indexés quotidiennement (représentant environ 3 millions de pages) pour obtenir une information la plus à jour possible. Des liens vers des dépêches d'actualité sont ainsi proposés maintenant sur certaines requêtes. Ensuite, 700 millions de messages émanant de 20 ans d'archives dans 35 000 forums de discussions. Le site Google Groups, qui permet de rechercher dans ces archives, vient d'ailleurs de sortir de sa phase "beta" aujourd'hui pour être pleinement opérationnel. Puis, 330 millions d'images, avec, là aussi, un outil de recherche performant et spécifique pour effectuer des investigations sur cette immense base de données, avec une recherche avancée permettant d'effectuer des filtres sur la taille de l'image, son format, etc.
http://www.google.com/
http://groups.google.com/
http://images.google.com/
Source : Google
Google annonce un index de 3 milliards de documents
Olivier Andrieu était consultant SEO indépendant. Il a créé la société Abondance en 1996 et le site abondance.com en 1998. En 2023, il a décidé de prendre sa « retraite SEO » pour se consacrer à son activité de scénariste de BD à temps plein.
Les données transmises par le biais de ce formulaire sont uniquement destinées à Abondance. Elles ne seront en aucun cas cédées à des tiers. Vous pouvez vous désabonner à tout moment en cliquant sur les liens de désinscriptions présents dans chacun de nos emails. Pour plus d’informations, vous pouvez consulter l’intégralité de notre politique de traitement de vos données personnelles.