Home technologie Runware utilise du matériel personnalisé et une orchestration avancée pour une inférence...

Runware utilise du matériel personnalisé et une orchestration avancée pour une inférence IA rapide

7
0

Parfois, une démo suffit pour comprendre un produit. Et c'est le cas de Runware. Si vous vous dirigez vers Site Web de Runwareentrez une invite et appuyez sur Entrée pour générer une picture, vous serez surpris de la rapidité avec laquelle Runware génère l'picture pour vous – cela prend moins d'une seconde.

Runware est un nouveau venu dans le paysage des startups d’inférence d’IA, ou d’IA générative. La société construit ses propres serveurs et optimise la couche logicielle sur ces serveurs pour supprimer les goulots d'étranglement et améliorer les vitesses d'inférence pour les modèles de génération d'photos. La startup a déjà obtenu un financement de 3 hundreds of thousands de {dollars} auprès de Speedrun d'Andreessen Horowitz, Halo II de LakeStar et Lunar Ventures.

L'entreprise ne veut pas réinventer la roue. Il veut juste le faire tourner plus vite. En coulisses, Runware fabrique ses propres serveurs avec autant de GPU que attainable sur la même carte mère. Elle dispose de son propre système de refroidissement sur mesure et gère ses propres centres de données.

Lorsqu'il s'agit d'exécuter des modèles d'IA sur ses serveurs, Runware a optimisé la couche d'orchestration avec des optimisations du BIOS et du système d'exploitation pour améliorer les temps de démarrage à froid. Il a développé ses propres algorithmes qui attribuent les costs de travail d’interférence.

La démo est impressionnante en elle-même. Désormais, l’entreprise souhaite utiliser tout ce travail dans la recherche et le développement et en faire une entreprise.

Contrairement à de nombreuses sociétés d'hébergement de GPU, Runware ne louera pas ses GPU en fonction du temps GPU. Il estime plutôt que les entreprises devraient être encouragées à accélérer leur cost de travail. C'est pourquoi Runware suggest une API de génération d'photos avec une construction tarifaire traditionnelle de coût par appel d'API. Il est basé sur des modèles d'IA populaires de Flux et Steady Diffusion.

« Si vous regardez Collectively AI, Replicate, Hugging Face – tous – ils vendent des calculs basés sur le temps GPU », a déclaré le co-fondateur et PDG Flaviu Radulescu à TechCrunch. « Si vous comparez le temps qu’il nous faut pour créer une picture par rapport à eux. Et puis vous comparez les prix, vous verrez que nous sommes tellement moins chers, tellement plus rapides.

« Il leur sera unimaginable d'égaler cette efficiency », a-t-il ajouté. « Surtout chez un fournisseur de cloud, vous devez fonctionner dans un environnement virtualisé, ce qui ajoute des délais supplémentaires. »

Alors que Runware study l'ensemble du pipeline d'inférence et optimise le matériel et les logiciels, la société espère pouvoir utiliser des GPU de plusieurs fournisseurs dans un avenir proche. Cela a été un effort essential pour plusieurs startups, automobile Nvidia est le chief incontesté dans le domaine des GPU, ce qui signifie que les GPU Nvidia ont tendance à être assez chers.

« Pour le second, nous utilisons uniquement des GPU Nvidia. Mais cela devrait être une abstraction de la couche logicielle », a déclaré Radulescu. « Nous pouvons basculer un modèle de la mémoire GPU très, très rapidement, ce qui nous permet de placer plusieurs shoppers sur les mêmes GPU.

« Nous ne sommes donc pas comme nos concurrents. Ils chargent simplement un modèle dans le GPU, puis le GPU effectue un kind de tâche très spécifique. Dans notre cas, nous avons développé cette resolution logicielle, qui nous permet de changer de modèle dans la mémoire GPU pendant que nous effectuons l'inférence.

Si AMD et d'autres fournisseurs de GPU peuvent créer des couches de compatibilité qui fonctionnent avec les costs de travail d'IA typiques, Runware est bien placé pour créer un cloud hybride qui s'appuierait sur les GPU de plusieurs fournisseurs. Et cela sera certainement utile s’il veut rester moins cher que ses concurrents en matière d’inférence IA.

la source