Logo Zephyrnet

Tại sao sự trỗi dậy của LLM và GenAI đòi hỏi một cách tiếp cận mới để lưu trữ dữ liệu – DATAVERSITY

Ngày:

Làn sóng mới của các giải pháp bảo mật và hoạt động dựa trên AI (GenAI) và hoạt động dựa trên AI (GenAI) đã làm tăng tính cấp thiết của các công ty trong việc áp dụng các phương pháp tiếp cận mới để lưu trữ dữ liệu. Những giải pháp này cần quyền truy cập vào lượng lớn dữ liệu để đào tạo mô hình và khả năng quan sát. Tuy nhiên, để thành công, quy trình ML phải sử dụng nền tảng dữ liệu cung cấp khả năng lưu trữ dữ liệu “nóng” dài hạn – nơi tất cả dữ liệu đều có thể truy cập dễ dàng để truy vấn và chạy đào tạo – với giá lưu trữ lạnh.

Thật không may, nhiều nền tảng dữ liệu quá đắt để lưu giữ dữ liệu trên quy mô lớn. Các công ty sử dụng hàng terabyte dữ liệu hàng ngày thường buộc phải nhanh chóng chuyển dữ liệu đó vào kho lạnh – hoặc loại bỏ hoàn toàn – để giảm chi phí. Cách tiếp cận này chưa bao giờ là lý tưởng, nhưng đó là một tình huống khiến mọi việc trở nên rắc rối hơn trong thời đại AI vì dữ liệu đó có thể được sử dụng cho các hoạt động đào tạo có giá trị.

Bài viết này nhấn mạnh tính cấp thiết của việc đại tu chiến lược cơ sở hạ tầng lưu trữ dữ liệu để sử dụng bởi mô hình ngôn ngữ lớn (LLM) và ML. Các giải pháp lưu trữ ít nhất phải rẻ hơn nhiều so với các giải pháp hiện tại mà không làm giảm khả năng mở rộng hoặc hiệu suất. Chúng cũng phải được xây dựng để sử dụng các kiến ​​trúc dựa trên đám mây, hướng sự kiện ngày càng phổ biến. 

Nhu cầu dữ liệu của ML và GenAI

Nguyên tắc rất đơn giản: càng có nhiều dữ liệu chất lượng thì các mô hình ML và các sản phẩm liên quan càng trở nên hiệu quả hơn. Các tập dữ liệu huấn luyện lớn hơn có xu hướng tương quan với độ chính xác tổng quát được cải thiện – khả năng của một mô hình đưa ra dự đoán chính xác về dữ liệu mới, chưa được nhìn thấy. Nhiều dữ liệu hơn có thể tạo các tập hợp cho tập huấn luyện, xác thực và kiểm tra. Đặc biệt, việc khái quát hóa là rất quan trọng trong bối cảnh bảo mật nơi các mối đe dọa trên mạng biến đổi nhanh chóng và việc phòng thủ hiệu quả phụ thuộc vào việc nhận ra những thay đổi này. Mô hình tương tự cũng áp dụng cho các ngành đa dạng như quảng cáo kỹ thuật số và thăm dò dầu khí.

Tuy nhiên, khả năng xử lý khối lượng dữ liệu trên quy mô lớn không phải là yêu cầu duy nhất đối với các giải pháp lưu trữ. Dữ liệu phải có thể truy cập dễ dàng và liên tục để hỗ trợ tính chất thử nghiệm và lặp lại của việc xây dựng và đào tạo mô hình. Điều này đảm bảo các mô hình có thể được cải tiến và cập nhật liên tục khi chúng học hỏi từ dữ liệu và phản hồi mới, dẫn đến hiệu suất và độ tin cậy ngày càng tốt hơn. Nói cách khác, các trường hợp sử dụng ML và GenAI yêu cầu dữ liệu “nóng” dài hạn.

Tại sao ML và GenAI yêu cầu dữ liệu nóng 

Quản lý sự kiện và thông tin bảo mật (SIEM) cũng như các giải pháp về khả năng quan sát thường phân chia dữ liệu thành các cấp nóng và lạnh để giảm những chi phí quá cao cho khách hàng. Mặc dù kho lạnh tiết kiệm chi phí hơn nhiều so với kho nóng nhưng nó không sẵn có để truy vấn. Lưu trữ nóng là điều cần thiết để tích hợp dữ liệu vào các hoạt động hàng ngày cần truy cập thường xuyên với thời gian phản hồi truy vấn nhanh, như cơ sở dữ liệu khách hàng, phân tích thời gian thực và nhật ký hiệu suất CDN. Ngược lại, kho lạnh hoạt động như một kho lưu trữ tiết kiệm chi phí nhưng lại ảnh hưởng đến hiệu suất. Truy cập và truy vấn dữ liệu lạnh chậm. Việc chuyển nó trở lại cấp nóng thường mất hàng giờ hoặc hàng ngày, khiến nó không phù hợp với các quy trình thử nghiệm và lặp đi lặp lại liên quan đến việc xây dựng các ứng dụng hỗ trợ ML.

Các nhóm khoa học dữ liệu làm việc qua các giai đoạn, bao gồm phân tích thăm dò, đào tạo và kỹ thuật tính năng cũng như duy trì các mô hình đã triển khai. Mỗi giai đoạn liên quan đến việc sàng lọc và thử nghiệm liên tục. Bất kỳ sự chậm trễ hoặc cản trở hoạt động nào, như truy xuất dữ liệu từ kho lạnh, đều làm tăng thời gian và chi phí phát triển các sản phẩm hỗ trợ AI chất lượng cao.

Sự đánh đổi do chi phí lưu trữ cao

Các nền tảng như Splunk tuy có giá trị nhưng lại được coi là tốn kém. Dựa trên giá của họ trên AWS Marketplace, việc giữ lại một gigabyte dữ liệu nóng trong một tháng có thể tốn khoảng 2.19 USD. So sánh điều đó với bộ lưu trữ đối tượng AWS S3, nơi chi phí bắt đầu ở mức 0.023 USD mỗi GB. Mặc dù các nền tảng này gia tăng giá trị cho dữ liệu thông qua việc lập chỉ mục và các quy trình khác, nhưng vấn đề cơ bản vẫn là: Việc lưu trữ trên các nền tảng này rất tốn kém. Để quản lý chi phí, nhiều nền tảng áp dụng các chính sách lưu giữ dữ liệu tích cực, giữ dữ liệu trong bộ lưu trữ nóng trong 30 đến 90 ngày – và thường chỉ là bảy ngày – trước khi xóa hoặc chuyển sang bộ lưu trữ lạnh, nơi việc truy xuất có thể mất tới 24 giờ.

Khi dữ liệu được chuyển sang kho lạnh, nó thường trở thành dữ liệu tối – dữ liệu được lưu trữ và bị lãng quên. Nhưng tệ hơn nữa là việc dữ liệu bị phá hủy hoàn toàn. Thường được quảng cáo là các phương pháp hay nhất, bao gồm lấy mẫu, tóm tắt và loại bỏ các tính năng (hoặc trường), tất cả đều làm giảm giá trị của dữ liệu so với các mô hình ML đào tạo.

Sự cần thiết của một mô hình lưu trữ dữ liệu mới

Các dịch vụ lưu trữ dữ liệu, SIEM và khả năng quan sát hiện tại rất quan trọng đối với hoạt động kinh doanh hiện đại và chiếm một phần đáng kể trong ngân sách doanh nghiệp. Một lượng lớn dữ liệu đi qua các nền tảng này và sau đó bị mất, nhưng có nhiều trường hợp sử dụng cần giữ lại dữ liệu đó cho các dự án LLM và GenAI. Tuy nhiên, nếu chi phí lưu trữ dữ liệu nóng không giảm đáng kể, chúng sẽ cản trở sự phát triển trong tương lai của các sản phẩm hỗ trợ LLM và GenAI. Các kiến ​​trúc mới nổi giúp phân tách và tách rời bộ lưu trữ cho phép mở rộng quy mô tính toán và lưu trữ một cách độc lập, đồng thời mang lại hiệu suất truy vấn cao, điều này rất quan trọng. Những kiến ​​trúc này cung cấp hiệu năng tương tự như ổ đĩa thể rắn với mức giá gần bằng giá của bộ lưu trữ đối tượng. 

Tóm lại, thách thức chính trong quá trình chuyển đổi này không phải là kỹ thuật mà là kinh tế. Các nhà cung cấp hiện tại về khả năng quan sát, SIEM và giải pháp lưu trữ dữ liệu phải nhận ra các rào cản tài chính đối với lộ trình sản phẩm AI của họ và tích hợp các công nghệ lưu trữ dữ liệu thế hệ tiếp theo vào cơ sở hạ tầng của họ. Việc chuyển đổi tính kinh tế của dữ liệu lớn sẽ giúp phát huy tiềm năng về khả năng quan sát và bảo mật do AI điều khiển.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img