Google a annoncé aujourd'hui la mise à disposition des internautes d'un index de plus de 3 milliards de documents. En fait ce chiffre comprend les pages web, les archives des forums de discussion et les images. Analysons tout celà : tout d'abord, Google propose environ 2 milliards de pages web. Environ les trois quarts de ce chiffre est réellement disponible en tant que document web indexé en texte intégral (Google en possède une réelle copie sur ses disques). Le dernier quart est "estimé" (Google sait que ces documents existent car il y a, dans son index "réel", des pages proposant des liens vers ces documents) mais il ne les indexe pas "en dur" sur ses disques. Cependant, au travers de l'analyse des liens pointant vers ces documents "estimés", et notamment des textes des pages "sources", il pense avoir une bonne idée du sujet traité par la page en question. Sur ces deux milliards de pages, Google indique que 75% sont en langue anglaise. Certains sites (notamment d'actualité) sont indexés quotidiennement (représentant environ 3 millions de pages) pour obtenir une information la plus à jour possible. Des liens vers des dépêches d'actualité sont ainsi proposés maintenant sur certaines requêtes. Ensuite, 700 millions de messages émanant de 20 ans d'archives dans 35 000 forums de discussions. Le site Google Groups, qui permet de rechercher dans ces archives, vient d'ailleurs de sortir de sa phase "beta" aujourd'hui pour être pleinement opérationnel. Puis, 330 millions d'images, avec, là aussi, un outil de recherche performant et spécifique pour effectuer des investigations sur cette immense base de données, avec une recherche avancée permettant d'effectuer des filtres sur la taille de l'image, son format, etc.
http://www.google.com/
http://groups.google.com/
http://images.google.com/
Source : Google