Le moteur de recherche d'images de Bing est remarquable et représente certainement l'un des meilleurs au monde à l'heure actuelle. Dans un post récent, les équipes de développement de l'outil nous en disent plus sur son mode de fonctionnement et les algorithmes utilisés pour ses dernières innovations...

Bing a dernièrement posté un article très intéressant qui fournit quelques explications sur la façon dont fonctionne sa recherche d'images, avec pour objectif annoncé d'aller vers « un moteur de recherche plus intelligent et plus précis grâce à des recherches multi-granulaires, une meilleure compréhension des requêtes des utilisateurs, des images et des pages Web, ainsi que des relations entre eux ».

Bing y explique que les algorithmes de deep learning utilisés par son moteur de recherche d'images tentent le plus souvent de résoudre des requêtes complexes ou ambiguës comme par exemple : "l'homme blond avec une moustache" ou "des tenues de danse pour les filles avec une rose". Des technologies comme BERT sont ainsi utilisées pour mieux comprendre le contexte de telles requêtes, comme indiqué dans l'illustration ci-dessous, grâce à l'analyse et la correspondance vectorielle :

 

Analyse de type BERT pour trouver des images répondant à la requête "des tenues de danse pour les filles avec une rose". Source de l'image : Bing

 

De plus, Bing ajoute des attributs (un peu comme des tags, finalement) qu'il ajoute à l'analyse de l'image et qui va l'aider à comprendre le contenu de la photo et la mettre en relation avec la requête demandée au travers de correspondances les plus précises possibles, comme ici pour la requête "images d'un homme âgé nageant" :

 

Analyse des attributs de l'information-source pour trouver de simages répondant à la requête "images d'un homme âgé nageant". Source de l'image : Bing

Bing indique cependant que ces technologies n'en sont qu'à leurs débuts et qu'elles ne supportent actuellement qu'un ensemble limité de scénarios et d'attributs.

Bien entendu, ces techniques nouvelles s'appuient toujours sur l'analyse des metadonnées "classiques". Parmi celles-ci, on trouve la metadonnée BRQ (pour "Best Representative Query"), soit la requête la plus logique pour identifier l'image en question. Ces informations, également générées par des algorithmes de deep learning, peuvent se baser sur deux méthodes complémentaires :

  • Des systèmes de traduction d'un texte long (celui de la page contenant l'image) vers des phrases courtes qui deviennent des requêtes potentielles.
  • Des système plutôt basés sur l'analyse vectorielle prenant en compte le texte et l'image en question dans un vecteur sémantique unique avec recherche des termes les plus proches dans un référentiel de requêtes. Ainsi, seules les requêtes à l'intérieur d'un seuil de similarité seront considérées comme représentatives pour cette image.

 

Recherche des metadonnées de type BRQ sur le moteur de recherche d'images de Bing. Source de l'image : Bing

 

Pour terminer, Bing montre un exemple de résultats améliorés par ces différentes techniques pour la recherche {car seat for Chevy impala 96}. En 2017, de nombreux résultats étaient de faible qualité. Deux ans après, la plupart des images ont un rapport direct avec la requête :

 

Résultat de recherche Bing Images pour la requête {car seat for Chevy impala 96} en 2017. Source de l'image : Bing

Résultat de recherche Bing Images pour la requête {car seat for Chevy impala 96} en 2019. Source de l'image : Bing

 

On n'aura de cesse de dire que le travail de Bing sur la recherche d'images est remarquable et que le moteur se situe souvent au-dessus de celui de Google en termes de qualité de résultats et de fonctionnalités de recherche. Et lorsqu'on teste par exemple les possibilités de Visual Search du moteur de recherche de Microsoft, on en est rapidement convaincu...