Inscrivez-vous à nos newsletters quotidiennes et hebdomadaires pour recevoir les dernières mises à jour et du contenu exclusif sur la couverture de l'IA de pointe. En savoir plus
Le L'Institut Allen pour l'IA (Ai2) a dévoilé aujourd'hui Molmoune famille open supply de modèles d'IA multimodaux de pointe qui surpassent ses principaux concurrents propriétaires, notamment GPT-4o d'OpenAI, Claude 3.5 Sonnet d'Anthropic et Gemini 1.5 de Google sur plusieurs benchmarks tiers.
Étant multimodaux, les modèles peuvent donc accepter et analyser des photos et des fichiers, à l'instar des principaux modèles de fondation propriétaires.
Pourtant, Ai2 aussi noté dans un post sur X que Molmo utilise « 1000 fois moins de données » que ses concurrents propriétaires — grâce à de nouvelles methods de formation intelligentes décrites plus en détail ci-dessous et dans un rapport method publié par la société fondée par Paul Allen et dirigée par Ali Farhadi.
Ai2 a également publié une vidéo sur YouTube et ses comptes sociaux montrant remark Molmo peut être utilisé sur un smartphone pour analyser rapidement ce qui se trouve devant l'utilisateur – en lui demandant de prendre une photograph et de l'envoyer à l'IA. En moins d'une seconde, il peut compter le nombre de personnes dans une scène, déterminer si un élément de menu est végétalien, analyser des prospectus collés sur un lampadaire et déterminer quels groupes sont de la musique électronique, et même prendre et convertir des notes manuscrites sur un tableau blanc en tableau.
Ai2 affirme que cette publication souligne son engagement en faveur de la recherche ouverte en proposant des modèles très performants, dotés de pondérations et de données ouvertes, à la communauté au sens massive – et bien sûr, aux entreprises à la recherche de options qu'elles peuvent entièrement posséder, contrôler et personnaliser.
Cela fait suite à la sortie par Ai2 il y a deux semaines d'un autre modèle ouvert, OLMoE, qui est un « mélange d'specialists » ou une combinaison de modèles plus petits conçus pour une rentabilité.
Combler l’écart entre l’IA ouverte et l’IA propriétaire
Molmo se compose de quatre modèles principaux de tailles de paramètres et de capacités différentes :
- Molmo-72B (72 milliards de paramètres, ou réglages — le modèle phare, basé sur le modèle open supply Qwen2-72B d'Alibaba Cloud)
- Molmo-7B-D (« modèle de démonstration » basé sur le modèle Qwen2-7B d'Alibaba)
- Molmo-7B-O (basé sur le modèle OLMo-7B d'Ai2)
- MolmoE-1B (basé sur le LLM mixte d'specialists OLMoE-1B-7B, et qui, selon Ai2, « correspond presque aux performances de GPT-4V sur les critères académiques et les préférences des utilisateurs. »)
Ces modèles atteignent des performances élevées sur une gamme de assessments tiers, surpassant de nombreuses alternate options propriétaires. Et ils sont tous disponibles sous des licences Apache 2.0 permissives, permettant pratiquement tout sort d'utilisation pour la recherche et la commercialisation (par exemple, de niveau entreprise).
Notamment, Molmo-72B est en tête des évaluations académiques, obtenant le rating le plus élevé sur 11 critères clés et se classant deuxième en termes de préférence des utilisateurs, suivant de près GPT-4o.
Vaibhav Srivastav, ingénieur défenseur des développeurs en apprentissage automatique chez Hugging Face, une société de référentiel de codes d'IA, a commenté à la sortie sur Xsoulignant que Molmo offre une formidable different aux systèmes fermés, établissant une nouvelle norme pour l'IA multimodale ouverte.
De plus, le chercheur en robotique de Google DeepMind Ted Xiao a pris X pour saluer l'inclusion des données de pointage dans Molmo, qu'il considère comme un élément révolutionnaire pour l'ancrage visuel en robotique.
Cette capacité permet à Molmo de fournir des explications visuelles et d’interagir plus efficacement avec les environnements physiques, une fonctionnalité qui manque actuellement dans la plupart des autres modèles multimodaux.
Les modèles sont non seulement performants mais également entièrement ouverts, permettant aux chercheurs et aux développeurs d’accéder et de développer des applied sciences de pointe.
Structure de modèle avancée et approche de formation
L'structure de Molmo est conçue pour maximiser l'efficacité et les performances. Tous les modèles utilisent le modèle CLIP ViT-L/14 336px d'OpenAI comme encodeur de imaginative and prescient, qui traite les photos multi-échelles et multi-recadrages en jetons de imaginative and prescient.
Ces jetons sont ensuite projetés dans l'espace d'entrée du modèle de langage through un connecteur perceptron multicouche (MLP) et regroupés pour une réduction de dimensionnalité.
Le composant du modèle de langage est un transformateur uniquement décodeur, avec des choices allant de la série OLMo aux séries Qwen2 et Mistral, chacune offrant des capacités et des niveaux d'ouverture différents.
La stratégie de formation de Molmo comporte deux étapes clés :
- Pré-formation multimodale : Au cours de cette étape, les modèles sont formés pour générer des légendes à partir de descriptions d'photos détaillées et nouvellement collectées fournies par des annotateurs humains. Cet ensemble de données de haute qualité, appelé PixMo, est un facteur essentiel des excellentes performances de Molmo.
- Réglage fin supervisé : Les modèles sont ensuite affinés sur la base d'un ensemble de données diversifié, comprenant des repères académiques normal et des ensembles de données nouvellement créés qui permettent aux modèles de gérer des tâches complexes du monde réel comme la lecture de paperwork, le raisonnement visuel et même le pointage.
Contrairement à de nombreux modèles contemporains, Molmo ne s’appuie pas sur l’apprentissage par renforcement à partir du retour d’data humain (RLHF), mais se concentre plutôt sur un pipeline de formation méticuleusement réglé qui met à jour tous les paramètres du modèle en fonction de leur état de pré-formation.
Surperformer les principaux indices de référence
Les modèles Molmo ont montré des résultats impressionnants dans de nombreux assessments de référence, notamment en comparaison avec les modèles propriétaires.
Par exemple, Molmo-72B obtient un rating de 96,3 sur DocVQA et de 85,5 sur TextVQA, surpassant à la fois Gemini 1.5 Professional et Claude 3.5 Sonnet dans ces catégories. Il surpasse également GPT-4o sur AI2D (le propre benchmark d'Ai2, abréviation de «Un diagramme vaut mieux qu'une douzaine d'images”, un ensemble de données de plus de 5 000 diagrammes scientifiques d'école primaire et de plus de 150 000 annotations riches), obtenant le rating le plus élevé de toutes les familles de modèles en comparaison avec 96,3.
Les modèles glorious également dans les tâches de mise à la terre visuelle, Molmo-72B obtenant des performances de pointe sur RealWorldQA, ce qui le rend particulièrement prometteur pour les functions en robotique et en raisonnement multimodal complexe.
Accès libre et futures variations
Ai2 a rendu ces modèles et ensembles de données accessibles sur son espace Hugging Faceavec une compatibilité totale avec les frameworks d'IA populaires comme Transformers.
Cet accès libre fait partie de la imaginative and prescient plus massive d’Ai2 visant à favoriser l’innovation et la collaboration au sein de la communauté de l’IA.
Au cours des prochains mois, Ai2 prévoit de publier des modèles supplémentaires, du code de formation et une model étendue de son rapport method, enrichissant ainsi davantage les ressources disponibles pour les chercheurs.
Pour ceux qui souhaitent explorer les capacités de Molmo, une démo publique et plusieurs factors de contrôle de modèles sont désormais disponibles through Page officielle de Molmo.
la source