Google a annoncé mener des travaux dans le domaine de la reconnaissance optique de caractères. Il a sorti du placard le logiciel Tesseract, développé par HP entre 1985 et 1995 avant d'être placé en "Open Source" par son concepteur avec l'aide de l'université du Nevada. Google en a corrigé certains bugs afin d'en faire un applicatif performant permettant d'obtenir un fichier informatique textuel sur la base d'un document scanné. Un outil qui devrait éventuellement lui servir dans des projets comme Google Books...
http://sourceforge.net/projects/tesseract-ocr
Source : Google