Google a annoncé qu'il allait mettre à disposition des chercheurs en linguistique son index N-gram, fichier d'un billion (million de million) de mots récoltés sur la Toile, sous la forme de six DVD nécessaires pour stocker cette masse considérable d'information. Google utilise cet index de termes dans de nombreux domaines sur ses sites, comme la traduction automatique, l'extraction d'informations linguistiques, la correction orthographique ou la reconnaissance vocale.
Cet énorme fichier comprendra 1 011 582 453 213 mots courants, complétés par 1 146 580 664 séquences de 5 mots apparues plus de 40 fois et par 13 653 070 mots uniques (demandés plus de 200 fois). Pour l'instant, aucune date de lancement de cette offre n'a été précisée. On ne sait pas non plus si cet index sera vendu ou fourni gratuitement, mais la première hypothèse semble la plus probable... Il semblerait également que ce soit le LDC (Linguistic Data Consortium) qui gère cette offre par la suite...
http://www.ldc.upenn.edu/
http://en.wikipedia.org/wiki/N-gram
Source : Google