Meta vient de franchir une nouvelle étape dans la course à l'intelligence artificielle avec le lancement de LLaMA 3.2, son premier modèle multimodal capable de traiter à la fois du texte et des images. Cette avancée majeure place l'entreprise de Mark Zuckerberg en concurrence directe avec les géants du secteur comme OpenAI et Anthropic. Cependant, l'Europe se retrouve une fois de plus exclue de cette innovation, ravivant le débat sur la régulation de l'IA sur le Vieux Continent.

Ce qu'il faut retenir :

  • LLaMA 3.2 est le premier modèle multimodal de Meta, capable de traiter du texte, des images, de la vidéo et de l’audio
  • Quatre versions sont disponibles, dont deux plus légères adaptées aux appareils mobiles
  • Le modèle n'est pas accessible en Europe en raison des incertitudes réglementaires
  • Meta renforce sa position dans la course à l'IA face à OpenAI et Anthropic

Un bond en avant pour Meta dans l'IA multimodale

Le 25 septembre 2024, lors de la conférence annuelle Meta Connect, Mark Zuckerberg a levé le voile sur LLaMA 3.2, la dernière itération du modèle de langage de l'entreprise. Cette version marque un tournant significatif pour Meta, car elle introduit pour la première fois des capacités multimodales, permettant au modèle de traiter non seulement du texte mais aussi des images.

LLaMA 3.2 se décline en quatre versions distinctes. Deux modèles principaux, dotés respectivement de 11 milliards et 90 milliards de paramètres, sont capables de traiter à la fois du texte et des images. En complément, Meta propose deux versions plus légères, avec 1 et 3 milliards de paramètres, spécialement conçues pour fonctionner sur des appareils mobiles et des systèmes embarqués. Ces dernières se limitent toutefois au traitement de texte.

Cette évolution rapide du modèle LLaMA témoigne de l'accélération des efforts de Meta dans le domaine de l'IA. En effet, LLaMA 3 avait été lancé mi-avril 2024, suivi de LLaMA 3.1 fin juillet de la même année. Le rythme soutenu des mises à jour illustre la volonté de l'entreprise de rattraper son retard sur ses concurrents dans le domaine de l'IA multimodale.

Des capacités qui rivalisent avec les leaders du marché

Selon Mark Zuckerberg, LLaMA 3.2 se positionne comme un concurrent sérieux face aux modèles existants d'OpenAI et d'Anthropic. Le patron de Meta affirme que les performances de LLaMA 3.2 sont comparables à celles de Claude 3 Haiku d'Anthropic et de GPT4o-mini d'OpenAI en matière de reconnaissance d'images et de compréhension visuelle.

On peut le dire, les capacités de LLaMA 3.2 sont plutôt impressionnantes. Le modèle peut comprendre et analyser des graphiques et des tableaux, générer des légendes pour des images, et identifier des objets à partir de descriptions en langage naturel. Par exemple, il peut répondre à des questions sur les performances d'une entreprise en se basant sur des graphiques fournis, ou extraire des détails d'images pour créer des descriptions précises.

Meta va plus loin en affirmant que LLaMA 3.2 surpasse des modèles comme Gemma et Phi 3.5-mini dans des domaines tels que le suivi d'instructions, la synthèse, l'utilisation d'outils et la réécriture de prompts. Ces performances placeraient ainsi LLaMA 3.2 parmi les modèles d'IA les plus avancés actuellement disponibles.

LLaMA 3.2 analyse une image et fournit une description - Source : Meta

Une stratégie open source pour démocratiser l'IA

Un aspect clé de la stratégie de Meta avec LLaMA 3.2 est son engagement envers l'open source. Mark Zuckerberg a souligné l'importance de cette approche, la qualifiant de « Linux de l'IA ». En rendant le modèle accessible aux développeurs et aux chercheurs, Meta vise à stimuler l'innovation et à accélérer le développement d'applications basées sur l'IA.

Pour faciliter l'adoption de LLaMA 3.2, Meta a également lancé des distributions officielles du « Llama stack ». Ces distributions donnent la possibilité aux développeurs de travailler avec les modèles dans divers environnements, que ce soit sur site, sur des appareils mobiles, dans le cloud ou sur des clusters à nœuds uniques. Cette flexibilité devrait encourager une adoption plus large et variée de LLaMA 3.2.

Des applications concrètes pour les entreprises et les consommateurs

Au-delà des performances techniques, Meta a présenté plusieurs applications concrètes de LLaMA 3.2. Pour les entreprises, le modèle permet de créer des agents IA capables de répondre aux questions courantes des clients, de discuter des détails des produits et même de finaliser des achats. Meta rapporte que plus d'un million d'annonceurs utilisent déjà ses outils d'IA générative, avec des résultats impressionnants en termes de taux de clics et de conversion.

Pour les consommateurs, Meta a introduit de nouvelles fonctionnalités vocales basées sur LLaMA 3.2. L'assistant Meta AI peut désormais répondre avec des voix de célébrités, dont Dame Judi Dench et John Cena, sur diverses plateformes comme WhatsApp, Messenger, Facebook et Instagram. De plus, l'assistant peut interagir avec des photos partagées dans les conversations, les modifier, et même ajouter de nouveaux arrière-plans. Meta a également présenté la possibilité de créer un avatar animé d'une célébrité pour pouvoir interagir avec elle.

L'Europe, grande absente de cette révolution

Malgré l'enthousiasme suscité par LLaMA 3.2, une ombre plane sur son lancement : son indisponibilité en Europe. Cette situation n'est pas nouvelle pour Meta, qui avait déjà restreint l'accès à son site meta.ai dans l'Union européenne. La raison invoquée est l'incertitude réglementaire qui entoure l'IA en Europe.

Meta a choisi de répondre à cette situation en lançant une pétition intitulée « L'Europe a besoin de certitude réglementaire en matière d'IA ». Cette initiative souligne la frustration de l'entreprise face aux obstacles réglementaires qu'elle perçoit en Europe, et son désir de voir une clarification rapide du cadre légal entourant l'IA.

Cette exclusion de l'Europe soulève des questions importantes sur l'équilibre entre innovation technologique et protection des données personnelles. Elle met également en lumière les défis auxquels sont confrontées les entreprises technologiques dans un paysage réglementaire de plus en plus complexe et fragmenté à l'échelle mondiale.