Google va proposer son index N-Gram

Olivier Andrieu / 14 Août 2006 à 11h56

Temps de lecture : 1 minute

Partagez l'article

Google a annoncé qu'il allait mettre à disposition des chercheurs en linguistique son index N-gram, fichier d'un billion (million de million) de mots récoltés sur la Toile, sous la forme de six DVD nécessaires pour stocker cette masse considérable d'information. Google utilise cet index de termes dans de nombreux domaines sur ses sites, comme la traduction automatique, l'extraction d'informations linguistiques, la correction orthographique ou la reconnaissance vocale.
Cet énorme fichier comprendra 1 011 582 453 213 mots courants, complétés par 1 146 580 664 séquences de 5 mots apparues plus de 40 fois et par 13 653 070 mots uniques (demandés plus de 200 fois). Pour l'instant, aucune date de lancement de cette offre n'a été précisée. On ne sait pas non plus si cet index sera vendu ou fourni gratuitement, mais la première hypothèse semble la plus probable... Il semblerait également que ce soit le LDC (Linguistic Data Consortium) qui gère cette offre par la suite...

http://www.ldc.upenn.edu/
http://en.wikipedia.org/wiki/N-gram

Source : Google

Google va proposer son index N-Gram

Articles complémentaires :

Google va intégrer son IA dans Search

Google va explorer des alternatives au fichier robots.txt

Google va lancer Perspectives aux USA et annonce d’autres nouveautés

Nouvelle ère pour Brave Search : un index indépendant d’images et vidéos débarque