Home technologie Le cadre d'inférence Archon promet de rendre les LLM plus rapides, sans...

Le cadre d'inférence Archon promet de rendre les LLM plus rapides, sans coûts supplémentaires

24
0

Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et du contenu exclusif sur la couverture de l'IA de pointe. Apprendre encore plus


Des chercheurs de Université de Stanfordc'est Laboratoire d'intelligence à grande échelle a introduit un nouveau cadre d'inférence qui pourrait aider les grands modèles de langage (LLM) à traiter plus rapidement les réponses potentielles.

Le framework, Archon, utilise un algorithme de recherche d'structure par temps d'inférence (ITAS) pour améliorer les performances des LLM sans formation supplémentaire. Il est indépendant du modèle, open supply et conçu pour être plug-and-play pour les grands et petits modèles.

Archon pourrait idéalement aider les développeurs à concevoir des systèmes de modèles d'IA en utilisant plusieurs strategies de temps d'inférence pour réduire les modèles afin de déterminer les réponses. Le Scaling Intelligence Lab a déclaré que des strategies comme Archon contribueraient à réduire les coûts liés à la building de modèles et à l'inférence. À mesure que le développement du LLM s’oriente vers des paramètres plus larges ou un raisonnement plus avancé, les coûts pourraient augmenter même si des entreprises comme OpenAI anticipent des prix plus abordables.

Selon les chercheurs, Archon conçoit automatiquement des architectures qui améliorent la généralisation des tâches, permettant aux modèles d'effectuer des tâches au-delà de celles sur lesquelles ils ont été initialement formés.

« Notre framework Archon et notre algorithme ITAS s'inspirent respectivement des architectures neuronales et de la recherche d'structure neuronale », ont déclaré les chercheurs dans leur rapport. papier. « Archon est construit de couches de LLM, dans lesquelles les modèles de la même couche s'exécutent en parallèle, mais chacun s'exécute ensuite de manière séquentielle. »

Ces couches exécutent différentes strategies de temps d'inférence, «soit en transformant le nombre de réponses candidates par génération et fusion (comme les transformations linéaires), soit en réduisant le nombre de réponses candidates pour améliorer la qualité (comme les non-linéarités).»

Archon a surpassé GPT-4o et Claude 3.5 Sonnet de 15,1 factors de pourcentage dans des checks de référence tels que MT-Bench, Area-Onerous-Auto, Alpaca-2.0 Eval, MixEval, MixEval Onerous, MATH et CodeContests. Lorsqu'Archon a fait face à des LLM open supply, il les a surpassés de 11,2 factors de pourcentage.

Composants Archontes

L'algorithme ITAS est composé de plusieurs composants LLM et peut utiliser des strategies de temps d'inférence.

Le premier composant est le générateur, qui crée des réponses possibles pour le modèle. Le deuxième composant, le Guser, prendra ces réponses et les combinera en une seule. Un exemple serait que si la query posée à un modèle veut connaître la capitale de la France, le fusionneur prendra les réponses générées de « la capitale de la France est Paris », la France est en Europe » et les transformera en « la capitale de la France ». La France, un pays d’Europe, c’est Paris.

Ensuite, Archon passe au composant Ranker, qui classe les meilleures réponses. Un composant Critique évalue les réponses classées pour déterminer si elles sont bonnes ou mauvaises. Le vérificateur vérifie la logique et l'exactitude avant de passer au générateur et à l'évaluateur de checks unitaires, qui effectuent de petits checks pour voir si la réponse fonctionne et vérifient les résultats des checks.

En construisant Archon de cette façon, les chercheurs ont déclaré que le cadre améliore la qualité des réponses des LLM plus rapidement et sans ajustement supplémentaire.

Les limites d'Archon

Jusqu'à présent, le framework Archon fonctionne mieux avec les LLM avec des paramètres 70B ou plus comme Code Llama 70B de Meta, ce qui rend difficile le pointage vers la plupart des LLM pour le second. Les chercheurs ont déclaré que la majeure partie du défi vient des capacités limitées du modèle plus petit à suivre des directions en raison des fenêtres contextuelles plus petites.

« Lorsque nous utilisons l'structure Archon avec seulement 7B de modèles open supply, nous obtenons une diminution notable de 16 % » des performances, indique le doc.

Les modèles plus petits utilisant le cadre Archon étaient en retard de 15,7 % par rapport aux modèles à un tour.

Le laboratoire de Stanford a également déclaré qu'Archon « n'est pas idéal pour les tâches qui préfèrent la latence d'un seul appel LLM », comme les chatbots. Le framework effectue plusieurs appels LLM en raison des différentes opérations qu'il effectue, de sorte que les requêtes de questions et réponses uniques ne bénéficieront pas de ses capacités. Archon peut mieux fonctionner pour les tâches impliquant des directions complexes telles que la résolution d'équations, la programmation ou même des problèmes complexes de service shopper.

Malgré ses limites, les chercheurs derrière Archon ont déclaré qu'ils espèrent que cela pourra accélérer le développement de modèles très performants sans nécessiter davantage de capital d'inférence et de formation.


la source