Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et du contenu exclusif sur la couverture de l'IA de pointe. Apprendre encore plus
Alors que les données restent la clé du succès des entreprises, les entreprises s’efforcent de tirer le meilleur parti des informations disponibles. Mais le quantity de données d’entreprise augmente si rapidement – il double tous les deux ans – que la puissance de calcul nécessaire pour les traiter de manière rapide et rentable atteint un plafond.
Basé en Californie DonnéesPelago vise à résoudre ce problème avec un « moteur de traitement de données universel » qui permet aux entreprises de booster les performances des moteurs de requête de données existants (y compris ceux open supply) en utilisant la puissance des éléments informatiques accélérateurs tels que les GPU et les FPGA (Fastened Programming Gate Arrays). Cela permet aux moteurs de traiter des volumes de données complexes en croissance exponentielle dans des codecs variés.
La startup vient tout juste de sortir de la furtivité, mais prétend déjà offrir une réduction par cinq de la latence des requêtes/tâches tout en offrant des avantages financiers significatifs. Elle a également levé 47 tens of millions de {dollars} de financement avec le soutien de plusieurs sociétés de capital-risque, notamment Eclipse, Taiwania Capital, Qualcomm Ventures, Alter Enterprise Companions, Nautilus Enterprise Companions et la Silicon Valley Financial institution.
Relever le défi des données
Il y a plus de dix ans, l'analyse des données structurées et semi-structurées était l'possibility privilégiée pour une croissance basée sur les données, fournissant aux entreprises un aperçu de la efficiency de leur entreprise et de ce qui devait être corrigé.
L’approche a bien fonctionné, mais l’évolution de la technologie a également conduit à l’essor des données non structurées (photos, PDF, fichiers audio et vidéo) au sein des systèmes d’entreprise. Initialement, le quantity de ces données était faible, mais aujourd'hui, il représente 90 % de toutes les informations créé (bien plus que structuré/semi-structuré) et est très critique pour les purposes d'entreprise avancées telles que les grands modèles de langage.
Aujourd’hui, alors que les entreprises cherchent à mobiliser tous leurs actifs de données, y compris de gros volumes de données non structurées, pour ces cas d’utilisation, elles se heurtent à des goulots d’étranglement en termes de performances et peinent à les traiter en temps opportun et de manière rentable.
La raison, comme le dit Rajan Goyal, PDG de DataPelago, est la limitation informatique des plates-formes existantes, conçues à l'origine pour les données structurées et l'informatique à utilization général (CPU).
« Aujourd'hui, les entreprises ont deux choix pour accélérer le traitement des données… Les systèmes open supply proposés sous forme de service géré par les fournisseurs de providers cloud ont des frais de licence moins élevés mais obligent les utilisateurs à payer plus pour les coûts de calcul de l'infrastructure cloud pour atteindre un niveau de efficiency acceptable. D'un autre côté, les providers propriétaires (construits avec des frameworks open supply ou autres) peuvent être intrinsèquement plus performants, mais ils entraînent des frais de licence beaucoup plus élevés. Les deux choix entraînent un coût complete de possession (TCO) plus élevé pour les purchasers », a-t-il expliqué.
Pour combler cet écart de performances et de coûts pour les fees de travail de données de nouvelle génération, Goyal a commencé à créer DataPelago, une plate-forme unifiée qui accélère dynamiquement les moteurs de requêtes avec du matériel informatique accéléré comme les GPU et les FPGA, leur permettant de gérer les besoins de traitement avancés pour tous les sorts de données, sans augmentation huge du TCO.
« Notre moteur accélère les moteurs de requêtes open supply comme Apache Spark ou Trino grâce à la puissance des GPU, ce qui entraîne une réduction de 10 : 1 du nombre de serveurs, ce qui entraîne une baisse des coûts d'infrastructure et des coûts de licence dans la même proportion. Les purchasers voient des avantages prix/efficiency révolutionnaires, ce qui permet d'exploiter toutes les données dont ils disposent », a déclaré Goyal.
À la base, l'offre de DataPelago utilise trois composants principaux : DataApp, DataVM et DataOS. La DataApp est une couche enfichable qui permet l'intégration de DataPelago avec des frameworks de traitement de données ouverts comme Apache Spark ou Trino, en les étendant au niveau du nœud planificateur et exécuteur.
Une fois que le framework est déployé et que l'utilisateur exécute une requête ou un pipeline de données, cela est effectué sans modification, sans qu'aucune modification ne soit requise dans l'utility destinée à l'utilisateur. Sur le backend, le planificateur du framework le convertit en un plan, qui est ensuite repris par DataPelago. Le moteur utilise une bibliothèque open supply comme Apache Gluten pour convertir le plan en une représentation intermédiaire commonplace ouverte appelée Substrait. Ce plan est envoyé au nœud exécuteur où DataOS convertit l'IR en un Information Stream Graph (DFG) exécutable.
Enfin, le DataVM évalue les nœuds du DFG et les mappe dynamiquement au bon élément informatique – CPU, FPGA, GPU Nvidia ou GPU AMD – en fonction de la disponibilité ou des caractéristiques coût/efficiency. De cette façon, le système redirige la cost de travail vers le matériel le plus approprié disponible auprès des hyperscalers ou des fournisseurs de cloud GPU pour maximiser les performances et les avantages en termes de coûts.
Des économies importantes pour les premiers utilisateurs de DataPelago
Bien que la technologie permettant d'accélérer dynamiquement les moteurs de requêtes avec un calcul accéléré soit nouvelle, la société affirme déjà qu'elle peut fournir une réduction de cinq fois de la latence des requêtes/tâches avec une réduction de deux fois du coût complete de possession par rapport aux moteurs de traitement de données existants.
« Une entreprise avec laquelle nous travaillons dépensait 140 tens of millions de {dollars} pour une seule cost de travail, dont 90 % étaient consacrés au calcul. Nous sommes en mesure de réduire leurs dépenses totales à moins de 50 tens of millions de {dollars} », a déclaré Goyal.
Il n'a pas partagé le nombre complete d'entreprises travaillant avec DataPelago, mais il a souligné que l'entreprise constate une traction significative de la half d'entreprises dans des secteurs verticaux tels que la sécurité, la fabrication, la finance, les télécommunications, le SaaS et la vente au détail. La clientèle existante comprend des noms notables tels que Samsung SDS, McAfee et le fournisseur de applied sciences d'assurance Akad Seguros, a-t-il ajouté.
« Le moteur de DataPelago nous permet d'unifier nos pipelines GenAI et d'analyse de données en traitant des données structurées, semi-structurées et non structurées sur le même pipeline tout en réduisant nos coûts de plus de 50 % », a déclaré André Fichel, CTO chez Akad Seguros, dans un communiqué. déclaration.
Comme prochaine étape, Goyal prévoit de s'appuyer sur ce travail et de proposer sa resolution à un plus grand nombre d'entreprises cherchant à accélérer leurs fees de travail de données tout en étant rentable.
« La prochaine section de croissance de DataPelago consiste à renforcer notre équipe de mise sur le marché pour nous aider à gérer le nombre élevé de conversations purchasers dans lesquelles nous sommes déjà engagés, ainsi qu'à continuer de nous développer pour devenir un service mondial », a-t-il déclaré.
la source