Logo Zephyrnet

Bốn tính năng mới của Apache Cassandra 5.0 đáng được quan tâm – DATAVERSITY

Ngày:

Với gần đây phát hành phiên bản beta của Apache Cassandra 5.0, giờ đây là thời điểm tuyệt vời để các nhóm thử nghiệm và khám phá những khả năng mới thú vị và được mong đợi nhất của 5.0. 

Khi tôi tìm hiểu về phiên bản beta mới, đây là bốn tính năng được giới thiệu với Cassandra 5.0 mã nguồn mở mà các nhóm nhà phát triển nên hào hứng:

1. Hỗ trợ Vector: Giới thiệu Tìm kiếm Vector, Hàm mới và Kiểu dữ liệu Vector mới

Cassandra 5.0 bổ sung thêm Tìm kiếm vectơ, một tính năng mới đặc biệt mạnh mẽ để tìm nội dung có liên quan trong các tập dữ liệu lớn, cùng với các hàm CQL mới và kiểu dữ liệu vectơ mới giúp lưu và truy xuất các vectơ nhúng. Điều quan trọng đối với nhiều người là những tính năng mới này khiến Cassandra 5.0 trở thành công nghệ lớp dữ liệu lý tưởng cho các nhóm theo đuổi các dự án AI/ML – cung cấp chức năng cụ thể mà các dự án đó yêu cầu cùng với các lợi ích nguồn mở, khả năng mở rộng và tính sẵn sàng cao hiện có của Cassandra. 

Đối với các mô hình ML, việc thực hiện so sánh tương tự là rất quan trọng để hiểu dữ liệu và kết nối dữ liệu trong ngữ cảnh. Ví dụ: ứng dụng AI từ công cụ đề xuất sản phẩm đến trí tuệ nhân tạo chatbot hoạt động bằng cách nhận dạng các mẫu và đưa ra quyết định ngoại suy dựa trên sự giống nhau của dữ liệu đầu vào và truy vấn mới với dữ liệu đào tạo hiện có. Khả năng lưu trữ các vectơ nhúng – mảng số dấu phẩy động cho biết các đối tượng hoặc thực thể cụ thể tương tự nhau như thế nào – là chìa khóa để cho phép những so sánh tương tự quan trọng đó. Do đó, Cassandra 5.0 hiện là giải pháp phù hợp để phát triển ứng dụng AI.

2. Lập chỉ mục đính kèm bộ nhớ

Tính năng Lập chỉ mục đính kèm lưu trữ (SAI) mới của Cassandra 5.0 tối ưu hóa vòng đời của các chỉ mục phụ, đồng thời làm cho chúng trở thành cửa hàng hiệu quả hơn và dễ sử dụng hơn. SAI cho phép người dùng Cassandra tạo một hoặc nhiều chỉ mục phụ trên bảng cơ sở dữ liệu, với mỗi chỉ mục dựa trên một cột duy nhất do người dùng lựa chọn.

Tính năng lập chỉ mục cấp cột được phân bổ toàn cầu và có khả năng mở rộng cao này cung cấp thông lượng I/O chưa từng có cho tìm kiếm – bao gồm cả Tìm kiếm Vector. SAI cũng có tính năng mở rộng mô-đun, với Vector Search đóng vai trò là minh chứng ban đầu cho khả năng này. Chỉ mục SAI có thể nắm bắt ngữ nghĩa bằng cách lập chỉ mục cả truy vấn và nội dung (bao gồm cả dữ liệu đầu vào lớn như tài liệu và hình ảnh) để đạt được chức năng lập chỉ mục đặc biệt.

3. Trie Memtables và Trie-Indexed SSTables

Người dùng Cassandra 5.0 có thể tận dụng các cải tiến hiệu suất tiềm năng đáng kể và tối ưu hóa bộ nhớ đi kèm với Memtables và SSTables dựa trên trie (cây tiền tố) mới của phiên bản này. Mặc dù Cassandra được biết đến nhiều nhất với kiến ​​trúc phân tán, nhưng các định dạng lưu trữ này sử dụng các lần thử và biểu diễn có thể so sánh byte của các khóa cơ sở dữ liệu để cải thiện hiệu suất của Cassandra cho các hoạt động đọc và sửa đổi, cũng như định cỡ chính xác các cấu trúc cho dữ liệu. Trie Memtables và Trie-Indexed SSTables cũng giảm bớt gánh nặng về chi phí quản lý bộ nhớ và thu gom rác, giúp các tổ chức quy mô cao quản lý dữ liệu của họ đơn giản hơn.

Điểm mấu chốt: những tính năng này nhằm giảm chi phí lưu trữ – đồng thời cải thiện khả năng mở rộng cũng như hiệu suất ghi và đọc – sẽ thu hút được sự chú ý và đánh giá cao của người dùng Cassandra. 

4. Hàm tổng hợp và toán học mới

Cassandra 5.0 bổ sung các hàm CQL gốc mới và khả năng cho người dùng xây dựng các hàm mới do người dùng xác định. Những bổ sung này nhằm mục đích mở rộng tốc độ và tính linh hoạt mà người dùng có thể hoàn thành mục tiêu của mình với Cassandra.

Các hàm tổng hợp gốc mới bao gồm:

  • count – Tìm xem có bao nhiêu mục trong một bộ sưu tập
  • max và min – Tìm các mục tối đa hoặc tối thiểu của bộ sưu tập
  • tổng và trung bình – Tìm tổng hoặc trung bình của các mục trong bộ sưu tập số

Các hàm gốc mới để vận hành trên các cột bộ sưu tập bao gồm:

  • map_keys – Lấy chìa khóa của bản đồ
  • map_values ​​– Nhận các giá trị của bản đồ

Các hàm toán học gốc mới bao gồm:

  • abs – Trả về giá trị tuyệt đối của x
  • exp – Trả về giá trị của e (cơ số logarit tự nhiên) lũy thừa của đầu vào
  • log – Trả về logarit tự nhiên (cơ số e) của đầu vào
  • log10 – Trả về logarit cơ số 10 của đầu vào
  • round – Trả về số nguyên gần nhất với đầu vào

Thôi buông đi

Những người quan tâm đến việc khai thác những ưu điểm của Cassandra 5.0 được nêu ở đây nên tự mình dùng thử và đón đầu xu hướng khi sử dụng và tối ưu hóa Cassandra hoàn toàn nguồn mở.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img