Logo Zephyrnet

Quattro nuove funzionalità di Apache Cassandra 5.0 di cui essere entusiasti: DATAVERSITY

Data:

Con la recente versione beta di Apache Cassandra 5.0, ora è il momento ideale per i team di provarlo e scoprire le nuove funzionalità più interessanti e attese di 5.0. 

Mentre curiosavo con la nuova beta, ecco quattro funzionalità introdotte con Cassandra 5.0 open source di cui i team di sviluppatori dovrebbero essere entusiasti:

1. Supporto vettoriale: introduzione della ricerca vettoriale, nuove funzioni e un nuovo tipo di dati vettoriali

Cassandra 5.0 aggiunge Ricerca vettoriale, una nuova funzionalità particolarmente potente per trovare contenuti rilevanti all'interno di set di dati di grandi dimensioni, insieme a nuove funzioni CQL e un nuovo tipo di dati vettoriali che salva e recupera i vettori di incorporamento. È importante sottolineare che per molti queste nuove funzionalità rendono Cassandra 5.0 una tecnologia a livello di dati ideale per i team che perseguono progetti AI/ML, fornendo le funzionalità specifiche richieste da tali progetti insieme ai vantaggi esistenti di alta disponibilità, scalabilità e open source di Cassandra. 

Per i modelli ML, l'esecuzione di confronti di similarità è fondamentale per comprendere i dati e le connessioni dati nel contesto. Ad esempio, le applicazioni AI dai motori di raccomandazione dei prodotti a IA generativa i chatbot operano riconoscendo modelli ed estrapolando il processo decisionale in base alla somiglianza dei nuovi input di dati e delle query con i dati di addestramento esistenti. Essere in grado di memorizzare vettori di incorporamento – matrici di numeri in virgola mobile che comunicano quanto oggetti o entità specifici simili sono tra loro – è la chiave per consentire confronti cruciali di somiglianza. Pertanto, Cassandra 5.0 è ora una soluzione di riferimento per lo sviluppo di applicazioni AI.

2. Indicizzazione collegata allo storage

Il nuovo Storage-Attached Indexing (SAI) di Cassandra 5.0 ottimizza il ciclo di vita degli indici secondari, rendendoli allo stesso tempo archivi più efficienti e più facili da usare. SAI consente agli utenti di Cassandra di creare uno o più indici secondari su una tabella di database, con ciascun indice basato su una singola colonna a scelta dell'utente.

Questa indicizzazione a livello di colonna altamente scalabile e distribuita a livello globale offre un throughput I/O senza pari per la ricerca, inclusa la ricerca vettoriale. SAI offre anche estensibilità modulare, con la ricerca vettoriale che funge da dimostrazione iniziale di questa capacità. Gli indici SAI possono acquisire la semantica indicizzando sia le query che il contenuto (inclusi input di grandi dimensioni come documenti e immagini) per ottenere funzionalità di indicizzazione eccezionali.

3. Trie Memtables e SSTable indicizzate in Trie

Gli utenti di Cassandra 5.0 possono sfruttare potenziali miglioramenti significativi delle prestazioni e l'ottimizzazione della memoria forniti con i nuovi Memtables e SSTables basati su trie (albero dei prefissi) di questa versione. Sebbene Cassandra sia nota soprattutto per la sua architettura distribuita, questi formati di archiviazione utilizzano tentativi e rappresentazioni comparabili in byte delle chiavi del database per migliorare le prestazioni di Cassandra per le operazioni di lettura e modifica, nonché per dimensionare correttamente le strutture dei dati. Trie Memtables e Trie-Indexed SSTables riducono inoltre il carico di sovraccarico della gestione della memoria e della garbage collection, rendendo più semplice per le organizzazioni su larga scala la gestione dei propri dati.

In conclusione: queste funzionalità per ridurre il sovraccarico di archiviazione, migliorando al contempo la scalabilità e le prestazioni di scrittura e lettura, guadagneranno l'attenzione e l'apprezzamento degli utenti di Cassandra. 

4. Nuove funzioni di aggregazione e matematica

Cassandra 5.0 aggiunge nuove funzioni CQL native e la possibilità per gli utenti di creare nuove funzioni definite dall'utente. Queste aggiunte servono ad espandere la velocità e la flessibilità con cui gli utenti possono raggiungere i propri obiettivi con Cassandra.

Le nuove funzioni di aggregazione nativa includono:

  • count: trova quanti elementi sono presenti in una raccolta
  • max e min: trova gli elementi massimi o minimi di una raccolta
  • sum and avg: trova la somma o la media degli elementi in una raccolta numerica

Le nuove funzioni native per operare sulle colonne di raccolta includono:

  • map_keys – Ottieni le chiavi di una mappa
  • map_values ​​– Ottieni i valori di una mappa

Le nuove funzioni matematiche native includono:

  • abs – Restituisce il valore assoluto di x
  • exp – Restituisce il valore di e (la base dei logaritmi naturali) elevato alla potenza dell'input
  • log – Restituisce il logaritmo naturale (base e) dell'input
  • log10 – Restituisce il logaritmo in base 10 dell'input
  • round – Restituisce il numero intero più vicino all'input

Provaci

Coloro che sono interessati a sfruttare i vantaggi di Cassandra 5.0 qui evidenziati dovrebbero provarlo da soli e anticipare la curva quando si tratta di utilizzare e ottimizzare Cassandra completamente open source.

spot_img

L'ultima intelligenza

spot_img