Logo Zéphyrnet

Comment Llama 3 de Meta aura un impact sur l'avenir de l'IA – IBM Blog

Date :


Comment Llama 3 de Meta aura un impact sur l'avenir de l'IA – IBM Blog



Personne assise sur une chaise la nuit au bureau lisant une tablette tandis que le bureau est éclairé devant lui

En janvier 2024, le PDG de Meta, Mark Zuckerberg, a annoncé dans une vidéo Instagram que Meta AI avait récemment commencé à former Llama 3. Cette dernière génération de la famille LLaMa de grands modèles de langage (LLM) fait suite aux modèles Llama 1 (initialement stylisés comme « LLaMA ») sortis en février 2023 et aux modèles Llama 2 sortis en juillet.

Bien que des détails spécifiques (comme la taille des modèles ou les capacités multimodales) n'aient pas encore été annoncés, Zuckerberg a indiqué l'intention de Meta de continuer à ouvrir les modèles de base Llama en open source.

Poursuivez votre lecture pour en savoir plus sur ce que nous savons actuellement sur Llama 3 et comment cela pourrait affecter la prochaine vague d'avancées dans les modèles d'IA générative.

Quand sortira Llama 3 ?

Aucune date de sortie n'a été annoncée, mais il convient de noter que Llama 1 il a fallu trois mois pour s'entraîner et Lama 2 il a fallu environ six mois pour s'entraîner. Si la prochaine génération de modèles suivait un calendrier similaire, ils seraient commercialisés vers juillet 2024.

Cela dit, il est toujours possible que Meta alloue du temps supplémentaire pour affiner et garantir un bon alignement du modèle. L’accès croissant aux modèles d’IA génératifs donne du pouvoir à davantage d’entités que les seules entreprises, startups et amateurs : à mesure que les modèles open source deviennent plus puissants, il faut faire plus attention pour réduire le risque que les modèles soient utilisés à des fins malveillantes par de mauvais acteurs. Dans sa vidéo d'annonce, Zuckerberg a réitéré l'engagement de Meta à « former [des modèles] de manière responsable et sûre ».

Llama 3 sera-t-il open source ?

Alors que Meta accordait un accès gratuit aux modèles Llama 1 au cas par cas aux instituts de recherche pour des cas d'utilisation exclusivement non commerciaux, le code Llama 2 et les poids des modèles ont été publiés avec une licence ouverte autorisant une utilisation commerciale pour toute organisation ayant moins de ressources. plus de 700 millions d’utilisateurs actifs mensuels. Bien qu'il y ait un débat quant à savoir si la licence de Llama 2 répond la définition technique stricte de « open source », on l'appelle généralement ainsi. Aucune preuve disponible n'indique que Llama 3 sera libéré différemment.

Dans son annonce et dans la presse qui a suivi, Zuckerberg a réitéré l'engagement de Meta en faveur des licences ouvertes et de la démocratisation de l'accès à l'intelligence artificielle (IA). "J'ai tendance à penser que l'un des plus grands défis ici sera que si vous construisez quelque chose qui a vraiment de la valeur, cela finira par devenir très concentré", a déclaré Zuckerberg. dans une interview avec The Verge (le lien réside en dehors d'ibm.com). « Alors que si vous le rendez plus ouvert, cela résoudra un large éventail de problèmes qui pourraient découler d’un accès inégal aux opportunités et à la valeur. C’est donc une grande partie de toute la vision open source.

Llama 3 atteindra-t-il l’intelligence générale artificielle (AGI) ?

La vidéo d'annonce de Zuckerberg a souligné l'objectif à long terme de Meta de construire intelligence générale artificielle (AGI), un stade de développement théorique de l’IA au cours duquel les modèles démontreraient une intelligence holistique égale (ou supérieure) à celle de l’intelligence humaine.

"Il est devenu plus clair que la prochaine génération de services nécessite la mise en place d'une intelligence générale complète", déclare Zuckerberg. "Créer les meilleurs assistants IA, des IA pour les créateurs, des IA pour les entreprises et bien plus encore, nécessite des progrès dans tous les domaines de l'IA, du raisonnement à la planification en passant par le codage, la mémoire et d'autres capacités cognitives."

Cela ne signifie pas nécessairement que Llama 3 atteindra (ou même tentera d'atteindre) l'AGI. encore. Mais cela signifie que Meta aborde délibérément son développement LLM et d'autres recherches sur l'IA d'une manière qui, selon eux, pourrait donner lieu à l'AGI. faire une éventuelle.

Llama 3 sera-t-il multimodal ?

Une émergence tendance en intelligence artificielle is IA multimodale : des modèles capables de comprendre et de fonctionner dans différents formats de données (ou modalités). Plutôt que de développer des modèles séparés pour traiter les données texte, code, audio, image ou même vidéo, de nouveaux modèles de pointe, comme Gemini de Google ou GPT-4V d'OpenAI, et des entrants open source comme LLaVa (Large Language and Vision Assistant) ), Adept ou Qwen-VL – peuvent passer de manière transparente entre les tâches de vision par ordinateur et de traitement du langage naturel (NLP).

Bien que Zuckerberg ait confirmé que Llama 3, comme Llama 2, inclura des capacités de génération de code, il n'a pas explicitement abordé d'autres capacités multimodales. Il a cependant expliqué comment il envisage l'intersection de l'IA et du Metaverse dans sa vidéo d'annonce de Llama 3 : "Les lunettes sont le facteur de forme idéal pour permettre à une IA de voir ce que vous voyez et d'entendre ce que vous entendez", a déclaré Zuckerberg, en référence à Meta. Lunettes intelligentes Ray-Ban. "Il est donc toujours disponible pour nous aider."

Cela semble impliquer que les plans de Meta pour les modèles Llama, que ce soit dans la prochaine version de Llama 3 ou dans les générations suivantes, incluent l'intégration de données visuelles et audio aux côtés des données de texte et de code que les LLM gèrent déjà.

Cela semble également être une évolution naturelle dans la poursuite de l’AGI. "On peut se demander si l'intelligence générale s'apparente à l'intelligence humaine, si elle ressemble à un humain plus, ou s'il s'agit d'une super intelligence d'un futur lointain", a-t-il déclaré dans son entretien avec Le bord. "Mais pour moi, l'important est en fait son ampleur, c'est-à-dire que l'intelligence possède toutes ces différentes capacités où il faut être capable de raisonner et d'avoir de l'intuition."

Comment Llama 3 se comparera-t-il à Llama 2 ?

Zuckerberg a également annoncé des investissements substantiels dans les infrastructures de formation. D'ici fin 2024, Meta a l'intention de disposer d'environ 350,000 100 GPU NVIDIA H600,000, ce qui porterait le total des ressources de calcul disponibles de Meta à « 100 XNUMX équivalents HXNUMX de calcul » en incluant les GPU dont ils disposent déjà. Seul Microsoft possède actuellement un stock comparable de puissance de calcul.

Il est donc raisonnable de s'attendre à ce que Llama 3 offre des avancées substantielles en termes de performances par rapport aux modèles Llama 2, même si les modèles Llama 3 ne sont pas plus grands que leurs prédécesseurs. Comme l'hypothèse dans un article de mars 2022 de Deepmind et démontré par la suite par les modèles de Meta (ainsi que d'autres modèles open source, comme ceux de Mistral, basé en France), la formation de modèles plus petits sur plus de données donne de meilleures performances que la formation de modèles plus grands avec moins de données.[Iv] Llama 2 était proposé dans les mêmes tailles que les modèles Llama 1, plus précisément dans des variantes avec 7 milliards, 14 milliards et 70 milliards de paramètres, mais il était pré-entraîné sur 40 % de données en plus.

Bien que les tailles des modèles Llama 3 n'aient pas encore été annoncées, il est probable qu'elles poursuivront le modèle d'augmentation des performances au sein de 7 à 70 milliards de modèles de paramètres établi dans les générations précédentes. Les récents investissements en infrastructure de Meta permettront certainement une pré-formation encore plus robuste pour les modèles de toutes tailles.

Llama 2 a également doublé celui de Llama 1 longueur du contexte, ce qui signifie que Llama 2 peut « mémoriser » deux fois plus de jetons de contexte lors de l'inférence, c'est-à-dire pendant la génération du contexte ou un échange en cours avec un chatbot. Il est possible, quoique incertain, que Llama 3 propose de nouveaux progrès à cet égard.

Comment Llama 3 se comparera-t-il au GPT-4 d'OpenAI ?

Tandis que le LLaMA plus petit ainsi que Lama 2 modèles atteignaient ou dépassaient les performances du plus grand modèle GPT-175 de 3 milliards de paramètres sur certains points de référence, ils ne correspondaient pas à toutes les capacités des modèles GPT-3.5 et GPT-4 proposés dans ChatGPT.

Avec ses nouvelles générations de modèles, Meta semble déterminé à apporter des performances de pointe au monde open source. "Llama 2 n'était pas un modèle leader dans l'industrie, mais c'était le meilleur modèle open source", a-t-il déclaré. The Verge. "Avec Llama 3 et au-delà, notre ambition est de construire des choses à la pointe de la technologie et, à terme, les modèles leaders de l'industrie."

Préparation pour Lama 3

Les nouveaux modèles de base s'accompagnent de nouvelles opportunités d'avantage concurrentiel grâce à des applications améliorées, Chatbots, workflows ainsi que automatisations. Garder une longueur d'avance sur les développements émergents est le meilleur moyen d'éviter d'être laissé pour compte : l'adoption de nouveaux outils permet aux organisations de différencier leurs offres et d'offrir la meilleure expérience aux clients et aux employés.

Grâce à partenariat avec HuggingFace, IBM Watsonx™ prend en charge de nombreux modèles de fondation open source de pointe, notamment Llama 2-chat de Meta. Notre équipe mondiale de plus de 20,000 XNUMX experts en IA peut aider votre entreprise à identifier les outils, technologies et techniques qui répondent le mieux à vos besoins afin de garantir une évolution efficace et responsable.

Découvrez comment IBM vous aide à vous préparer à accélérer les progrès de l'IA

Mettez l'IA générative au service de Watsonx™

Cet article a-t-il été utile?

OuiNon


Plus de Intelligence artificielle




IBM Tech Now : 26 février 2024

<1 min lire - ​Bienvenue à IBM Tech Now, notre série Web de vidéos présentant les dernières et meilleures actualités et annonces du monde de la technologie. Assurez-vous de vous abonner à notre chaîne YouTube pour être averti chaque fois qu'une nouvelle vidéo IBM Tech Now est publiée. IBM Tech Now : Épisode 92 Dans cet épisode, nous abordons les sujets suivants : IBM Watsonx commande EDGE3 + Watsonx G2 Best of Software Awards Restez branché Vous pouvez consulter les annonces du blog IBM pour un aperçu complet…




Présentation de l'observabilité des données pour Azure Data Factory (ADF)

<1 min lire - Dans cette mise à jour du produit IBM Databand, nous sommes ravis d'annoncer notre nouvelle observabilité des données de support pour Azure Data Factory (ADF). Les clients qui utilisent ADF comme outil d'orchestration de pipeline de données et de transformation de données peuvent désormais tirer parti des capacités d'observabilité et de gestion des incidents de Databand pour garantir la fiabilité et la qualité de leurs données. Pourquoi utiliser Databand avec ADF ? Surveillance du pipeline de bout en bout : collectez des métadonnées, des métriques et des journaux de tous les systèmes dépendants. Analyse des tendances : créez des tendances historiques pour détecter de manière proactive les anomalies et alerter sur les potentiels…




Cas d'utilisation de l'IA conversationnelle pour les entreprises

10 min lire - Aujourd’hui, les gens ne préfèrent pas seulement la communication instantanée ; ils l'attendent. L’intelligence artificielle conversationnelle (IA) mène la charge pour éliminer les barrières entre les entreprises et leurs publics. Cette classe d'outils basés sur l'IA, comprenant des chatbots et des assistants virtuels, permet des échanges fluides, humains et personnalisés. Au-delà de la bulle de discussion simpliste de l'IA conversationnelle se trouve un mélange complexe de technologies, le traitement du langage naturel (NLP) occupant le devant de la scène. La PNL traduit les mots de l'utilisateur en actions machine, permettant aux machines de comprendre et de répondre avec précision aux demandes des clients. Ce…

Bulletins d'information IBM

Recevez nos newsletters et nos mises à jour thématiques qui fournissent les dernières idées en matière de leadership éclairé et d'informations sur les tendances émergentes.

S'abonner

Plus de newsletters

spot_img

Dernières informations

spot_img