Logo Zéphyrnet

Quatre nouvelles fonctionnalités d'Apache Cassandra 5.0 qui suscitent l'enthousiasme – DATAVERSITY

Date :

Avec la récente version bêta d'Apache Cassandra 5.0, c'est le moment idéal pour les équipes de l'essayer et de découvrir les nouvelles fonctionnalités les plus intéressantes et les plus attendues de la version 5.0. 

Alors que j'ai parcouru la nouvelle version bêta, voici quatre fonctionnalités introduites avec Cassandra 5.0 open source qui devraient enthousiasmer les équipes de développeurs :

1. Prise en charge des vecteurs : présentation de la recherche de vecteurs, de nouvelles fonctions et d'un nouveau type de données vectorielles

Cassandra 5.0 ajoute Recherche de vecteur, une nouvelle fonctionnalité particulièrement puissante pour trouver du contenu pertinent dans de grands ensembles de données, ainsi que de nouvelles fonctions CQL et un nouveau type de données vectorielles qui enregistre et récupère les vecteurs d'intégration. Il est important pour beaucoup que ces nouvelles fonctionnalités fassent de Cassandra 5.0 une technologie de couche de données idéale pour les équipes qui poursuivent des projets d'IA/ML – fournissant les fonctionnalités spécifiques requises par ces projets ainsi que les avantages existants de Cassandra en matière de haute disponibilité, d'évolutivité et d'open source. 

Pour les modèles ML, effectuer des comparaisons de similarité est essentiel pour comprendre les données et les connexions de données dans leur contexte. Par exemple, les applications d'IA depuis les moteurs de recommandation de produits jusqu'aux IA générative Les chatbots fonctionnent en reconnaissant des modèles et en extrapolant la prise de décision en fonction de la similarité des nouvelles entrées de données et des requêtes avec les données de formation existantes. Être capable de stocker des vecteurs d'intégration – des tableaux de nombres à virgule flottante qui communiquent à quel point des objets ou des entités spécifiques sont similaires les uns aux autres – est essentiel pour permettre ces comparaisons de similarité cruciales. Par conséquent, Cassandra 5.0 est désormais une solution incontournable pour le développement d’applications d’IA.

2. Indexation attachée au stockage

Le nouveau Storage-Attached Indexing (SAI) de Cassandra 5.0 optimise le cycle de vie des index secondaires, tout en les rendant plus efficaces et plus faciles à utiliser. SAI permet aux utilisateurs de Cassandra de créer un ou plusieurs index secondaires sur une table de base de données, chaque index étant basé sur une seule colonne au choix de l'utilisateur.

Cette indexation au niveau des colonnes, hautement évolutive et distribuée à l'échelle mondiale, offre un débit d'E/S inégalé pour la recherche, y compris la recherche vectorielle. SAI propose également une extensibilité modulaire, la recherche vectorielle servant de première démonstration de cette capacité. Les index SAI peuvent capturer la sémantique en indexant à la fois les requêtes et le contenu (y compris les entrées volumineuses telles que les documents et les images) pour obtenir une fonctionnalité d'indexation exceptionnelle.

3. Trie Memtables et Trie-Indexed SSTables

Les utilisateurs de Cassandra 5.0 peuvent tirer parti d'améliorations potentielles significatives des performances et de l'optimisation de la mémoire fournies avec les nouvelles Memtables et SSTables basées sur trie (arborescence de préfixes) de cette version. Bien que Cassandra soit surtout connu pour son architecture distribuée, ces formats de stockage utilisent des tentatives et des représentations comparables en octets des clés de base de données pour améliorer les performances de Cassandra pour les opérations de lecture et de modification, ainsi que pour dimensionner correctement les structures des données. Les Trie Memtables et les Trie-Indexed SSTables réduisent également les charges liées à la gestion de la mémoire et au garbage collection, ce qui permet aux organisations à grande échelle de gérer plus facilement leurs données.

En fin de compte : ces fonctionnalités permettant de réduire les frais de stockage – tout en améliorant l'évolutivité et les performances d'écriture et de lecture – mériteront l'attention et l'appréciation des utilisateurs de Cassandra. 

4. Nouvelles fonctions d'agrégation et mathématiques

Cassandra 5.0 ajoute de nouvelles fonctions CQL natives et la possibilité pour les utilisateurs de créer leurs propres nouvelles fonctions définies par l'utilisateur. Ces ajouts servent à accroître la vitesse et la flexibilité avec lesquelles les utilisateurs peuvent atteindre leurs objectifs avec Cassandra.

Les nouvelles fonctions d'agrégation natives incluent :

  • count – Trouver combien d’éléments se trouvent dans une collection
  • max et min – Rechercher les éléments maximum ou minimum d'une collection
  • sum et avg – Trouvez la somme ou la moyenne des éléments d'une collection numérique

Les nouvelles fonctions natives permettant d'opérer sur les colonnes de collection incluent :

  • map_keys – Récupère les clés d'une carte
  • map_values ​​– Récupère les valeurs d'une carte

Les nouvelles fonctions mathématiques natives incluent :

  • abs – Renvoie la valeur absolue du x
  • exp – Renvoie la valeur de e (la base des logarithmes naturels) à la puissance de l'entrée
  • log – Renvoie le logarithme népérien (base e) de l'entrée
  • log10 – Renvoie le logarithme base 10 de l'entrée
  • round – Renvoie l'entier le plus proche de l'entrée

Essayez

Ceux qui souhaitent exploiter les avantages de Cassandra 5.0 soulignés ici devraient l'essayer par eux-mêmes et prendre une longueur d'avance en matière d'utilisation et d'optimisation de Cassandra entièrement open source.

spot_img

Dernières informations

spot_img