Logo Zephyrnet

Sử dụng công cụ Data Lake để cung cấp thông tin chi tiết về tự phục vụ

Ngày:

Hiểu và đáp ứng khách hàng
nhu cầu là chìa khóa để thành công trong kinh doanh và dữ liệu khách hàng là nền tảng
mà thành công được xây dựng. Truy cập và phân tích dữ liệu hầu như luôn luôn
phụ thuộc vào các kỹ sư dữ liệu và các nhân viên CNTT khác, trong khi những người ra quyết định chờ đợi
nhận thông tin chi tiết. Một cách để bỏ qua sự chờ đợi và cung cấp dữ liệu trực tiếp đến
người dùng cuối bằng cách tạo mô hình Dữ liệu dưới dạng Dịch vụ (DaaS) nội bộ, cho phép
truy cập vào dữ liệu doanh nghiệp bất kể nó cư trú ở đâu, mà không cần sự hỗ trợ của
Nhân viên công nghệ thông tin.

Dữ liệu dưới dạng dịch vụ

Theo DAMA DMBoK2, có hai mô hình cho Data-as-a-Service: Một mô hình sử dụng dữ liệu từ bên ngoài công ty và mô hình thứ hai sử dụng dữ liệu nội bộ của công ty, được trình bày dưới dạng “dịch vụ” thông qua bộ phận CNTT cho người tiêu dùng dữ liệu nội bộ. DaaS bên ngoài sử dụng dữ liệu được cấp phép từ một nhà cung cấp, được cung cấp theo yêu cầu, thay vì được lưu trữ và duy trì bởi tổ chức cấp phép. Một ví dụ phổ biến về loại Dữ liệu dưới dạng dịch vụ bao gồm thông tin về chứng khoán được bán qua sở giao dịch chứng khoán và giá cả liên quan. Mô hình nội bộ của DaaS sử dụng khái niệm “dịch vụ” trong một tổ chức để cung cấp dữ liệu doanh nghiệp của chính công ty hoặc các dịch vụ dữ liệu cho các chức năng, con người và hệ thống hoạt động khác nhau.

Daniel Newman, trong một bài đăng trên Forbes có tựa đề Dữ liệu như một dịch vụ: Cơ hội lớn cho kinh doanh cho biết rằng hầu hết các công ty có dịch vụ lưu trữ và phân tích dữ liệu tại chỗ “rất khó theo kịp với nhu cầu ngày càng tăng về thông tin chi tiết theo hướng dữ liệu”. DaaS cung cấp các luồng dữ liệu phục vụ phù hợp với nhu cầu của khách hàng, tiết kiệm thời gian và công sức quý báu, ông nói. Khi các công ty có quyền truy cập vào dữ liệu họ cần ở định dạng dễ sử dụng, thì việc tận dụng dữ liệu đó như một tài sản dễ dàng hơn và ít tốn thời gian hơn.

Tomer Shiran, đồng sáng lập và giám đốc điều hành của Dremio, nói rằng mục tiêu là làm cho các công ty cuối cùng có thể trở nên dựa trên dữ liệu, phấn đấu hướng tới “Chén thánh của phân tích, để hỏi bất kỳ câu hỏi nào về dữ liệu bất kỳ lúc nào, bất kể dữ liệu lớn như thế nào hoặc hệ thống đó là gì được lưu trữ trong. ”Shiran tin rằng khả năng tiếp cận phân tích phải tương tự như một tiện ích:“ Giống như bạn có thể khai thác điện hoặc mở vòi ở nhà và bạn có nước. Bạn không phải lo lắng về điều đó ”. Ông nói, thực tế là các công ty không có tất cả dữ liệu của họ ở một nơi, vì vậy họ còn lâu mới có thể truy cập và phân tích dữ liệu của mình một cách dễ dàng.

Dữ liệu phân tán và gánh nặng đối với CNTT

Xem xét nhiều công ty thấy
dữ liệu của họ làm tài sản khác biệt chính của họ, họ sẽ có thể lấy
Lợi thế của nó, Shiran nói, nhưng đối với hầu hết các công ty thì điều đó là không thể. Với
dữ liệu nằm rải rác trong nhiều hệ thống khác nhau, truy cập nó để phân tích
trở nên quá phức tạp và quá tải, và các bộ kỹ năng không có ở đó để có thể
để sắp xếp nó và chạy các truy vấn trên đó.

Nhân viên CNTT ngày nay buộc phải sao chép và di chuyển dữ liệu từ hồ sang Kho dữ liệu, hình khối, trích xuất BI và bảng tổng hợp để đạt được đủ hiệu suất có thể đặt câu hỏi về nó, Shiran nói. Nhưng làm như vậy cũng thu hẹp đáng kể phạm vi dữ liệu có sẵn để phân tích. “Mục tiêu chưa được thực hiện là có thể đặt câu hỏi trên tất cả dữ liệu, bất kể nó ở đâu và vẫn nhận được phản hồi cực kỳ nhanh chóng.”

Người dùng cuối không hiểu hoặc không
quan tâm đến sự khác biệt giữa cơ sở dữ liệu Oracle và một thư mục của parquet
các tập tin trên S3, anh ấy nói. “Cách duy nhất này sẽ hoạt động là nếu bạn có thể
đặt câu hỏi về vị trí của dữ liệu, và càng ngày dữ liệu đó càng được lưu trữ trong hồ dữ liệu. ”

Đối với người dùng về phía doanh nghiệp,
tập dữ liệu là một tập dữ liệu và họ chỉ muốn dễ dàng thêm các nguồn mới và
trải nghiệm thời gian phản hồi nhanh chóng bất kể họ đang truy vấn trên
nguồn duy nhất hoặc trên nhiều nguồn. “Mọi người không muốn trải qua
đại lý du lịch nữa. Họ muốn độc lập và tự do di chuyển nhanh chóng ”

Nơi làm việc đã phát triển đến nơi
các nhà phân tích về phía doanh nghiệp rất hiểu biết về việc sử dụng dữ liệu và
muốn có thể khám phá tất cả và đặt câu hỏi của riêng họ. “Những người này
không còn muốn chỉ nhìn thấy bản in trên bàn của họ vào buổi sáng. Họ muốn
để tự mình đi làm. "

Hadoop và thử thách khóa nhà cung cấp

Dựa trên Hadoop hồ dữ liệu Ông nói, cuối cùng đã trở nên khó khăn đối với các công ty trong việc tạo ra, duy trì và sử dụng, vì vậy những người nhận được nhiều giá trị nhất từ ​​chúng là các nhà phát triển và nhân viên kỹ thuật.

“Dremio bắt đầu bằng cách nghĩ rằng nếu bạn có thể bắt đầu lại từ đầu với một phương tiện chặn sạch sẽ và làm cho việc truy vấn bộ lưu trữ hồ dữ liệu và các nguồn khác trở nên dễ dàng và nhanh hơn hoàn toàn, thì điều đó thật kỳ diệu.”

Tâm lý "phương tiện chặn sạch" cho phép
họ thấy được sự khôn ngoan trong việc tận dụng các xu hướng công nghệ hiện tại trong
ngành, chẳng hạn như áp dụng đám mây và đặc biệt là xu hướng hạ cánh
và lưu trữ tất cả các loại dữ liệu trong bộ lưu trữ hồ dữ liệu dựa trên đám mây như AWS S3 và
ADLS của Microsoft. Và khối lượng dữ liệu đó tăng lên đáng kể có nghĩa là
trở nên kém thực tế hơn bao giờ hết để sao chép, chuyển đổi và di chuyển nó thành dữ liệu
các kho hàng. Nó bắt đầu trở nên rõ ràng rằng tất cả các công ty, không chỉ
các công ty khởi nghiệp và công nghệ, sẽ tận dụng đám mây công cộng trong một
Shiran nói theo cách lớn, vì vậy họ muốn xây dựng dựa trên xu hướng đó.

Họ cũng muốn có một mở
cách tiếp cận, nơi các công ty có thể chọn những đám mây mà họ muốn và dễ dàng
di chuyển giữa chúng. “Rất nhiều công ty có chiến lược đa đám mây. Hiện tại
có thể sử dụng cùng một công nghệ đó cho cả hồ dữ liệu tại chỗ của bạn và
hồ dữ liệu dựa trên đám mây của bạn cũng quan trọng không kém. ”

Một vấn đề họ muốn tránh là
khóa nhà cung cấp, một xu hướng mà họ đã nghe thấy từ các công ty trong thời gian qua
thập kỷ. Bị khóa vào các nhà cung cấp cụ thể hoặc vào một loại dữ liệu cụ thể
nhà kho với chi phí tăng chóng mặt đã là một điểm khó khăn cho khách hàng, ông nói.
“Trọng tâm của chúng tôi với tư cách là một công ty là đổi mới theo cách cho phép khách hàng
để sử dụng các công cụ tính toán khác và các công cụ khác với dữ liệu của chúng. "

Công cụ hồ dữ liệu

Một hệ thống hiện đại phải có khả năng hỗ trợ tính độc lập và đổi mới dữ liệu bằng cách cung cấp các câu trả lời nhanh chóng, dễ tiếp cận cho các yêu cầu của người dùng, bất kể dữ liệu nằm ở đâu. Dremio kết hợp lưu trữ hồ dữ liệu với mục đích xây dựng của họ công cụ hồ dữ liệu, cung cấp sự linh hoạt và kiểm soát cho các kiến ​​trúc sư dữ liệu và tự phục vụ cho người tiêu dùng dữ liệu, Shiran nói. Với công cụ hồ dữ liệu, người tiêu dùng dữ liệu thực hiện phân tích của họ trực tiếp với hồ dữ liệu, với hiệu suất tương tác đầy đủ. Tất cả dữ liệu vẫn ở nguyên vị trí, vì công cụ hồ dữ liệu loại bỏ các bản sao và di chuyển dữ liệu.

Công cụ hồ dữ liệu cung cấp lớp ngữ nghĩa do người dùng tạo với danh mục tích hợp, có thể tìm kiếm lập chỉ mục tất cả siêu dữ liệu để người dùng doanh nghiệp có thể dễ dàng hiểu tất cả dữ liệu của họ. Nó có thể kết nối với bất kỳ công cụ BI hoặc Data Science nào và trông giống như một cơ sở dữ liệu quan hệ. Việc quản lý dữ liệu trong ngữ cảnh ảo SQL tiêu chuẩn cho phép lọc, chuyển đổi, kết hợp và tổng hợp dữ liệu từ một hoặc nhiều nguồn nhanh chóng, dễ dàng và tiết kiệm chi phí, tất cả đều không có bất kỳ sự tham gia nào từ các nhóm kỹ thuật dữ liệu và CNTT.

Kiến trúc sư dữ liệu duy trì kiểm soát hoàn toàn: Dữ liệu nhạy cảm có thể được che giấu, có thể đặt quyền ở cấp hàng và cột, đồng thời kiểm soát dựa trên vai trò đảm bảo truy cập suôn sẻ vào bất kỳ thứ gì người dùng cuối cần. Dòng dữ liệu được tích hợp sẵn, với mối quan hệ giữa các nguồn dữ liệu, tập dữ liệu ảo và truy vấn được duy trì trong biểu đồ dữ liệu của Dremio, hiển thị chính xác từng tập dữ liệu đến từ đâu.

Shiran đã sử dụng Royal Caribbean Cruise Line như một ví dụ về một công ty sử dụng DaaS để cung cấp trải nghiệm cá nhân hóa cho khách hàng của họ. “Họ đã tạo ra một kiến ​​trúc dữ liệu rất hiện đại trên đám mây, trên Azurevà họ có dữ liệu trong vài chục hệ thống khác nhau cung cấp cho Azure Data Lake Storage, ”ông nói, từ quản lý tài sản đến sòng bạc của họ, đến hệ thống đặt chỗ của họ.

Hành vi của khách hàng được ghi lại trong khoảng thời gian trước khi đặt du thuyền và khi khách hàng mua sắm cho chuyến đi của họ, và điều này được kết hợp với thông tin về những gì họ làm trên du thuyền, cũng như phản hồi mà khách hàng cung cấp sau chuyến đi của họ. Quy trình thu thập dữ liệu toàn diện đó cung cấp sự hiểu biết sâu sắc hơn nhiều về khách hàng của họ, chẳng hạn, cho phép Royal Caribbean gửi cho một cặp vợ chồng đã nghỉ hưu một đề nghị du thuyền có mục tiêu khác với đề nghị mà họ sẽ gửi cho một gia đình có bốn con nhỏ.

Cơ hội tạo ra thay đổi lớn

“Chúng ta đang ở giữa một khối lượng lớn
thay đổi do sự gia tăng của đám mây công cộng và dẫn đến sự phân tách
về máy tính và lưu trữ, ”Shiran nói. Trong quá khứ, với các cụm Hadoop,
máy tính chạy trên bộ nhớ vì vào thời điểm đó, mạng là mạng lớn nhất
bận tâm. “Đó là tốc độ xáo trộn và tự hỏi liệu tôi có đủ kết nối mạng không
băng thông để thực sự làm cho những truy vấn lớn này hoạt động. " Bây giờ với đám mây,
kết nối mạng không còn là vấn đề nữa và vì bộ nhớ được cung cấp như một dịch vụ,
máy tính được tách ra. “Vì vậy, bây giờ bạn thấy cơ hội này cho các công ty
chọn công cụ tốt nhất cho công việc. ”

Trong một cuộc phỏng vấn trên Sourceforge, Shiran nói rằng DaaS là ​​một mô hình để giúp dữ liệu dễ dàng khám phá, quản lý, chia sẻ và phân tích cho dù nó đang được quản lý ở đâu, cho dù nó lớn đến đâu và bất kể công cụ nào được sử dụng để phân tích hoặc trực quan hóa. DaaS tích hợp một số khu vực chức năng thành một giải pháp duy nhất, có thể mở rộng và tự phục vụ. Bằng cách áp dụng mô hình DaaS, các công ty có thể làm cho người tiêu dùng dữ liệu của họ tự túc và độc lập hơn, đồng thời làm cho kỹ sư dữ liệu hiệu quả hơn.

“Các công ty cần được định hướng dựa trên dữ liệu để tồn tại trong thế giới mà chúng ta đang sống hiện nay, nhưng trừ khi nó dễ dàng, điều đó sẽ không xảy ra,” Shiran nói.

Hình ảnh được sử dụng theo giấy phép từ
Shutterstock.com

Nguồn: https://www.dataversity.net/using-a-data-lake-engine-to-provide-self-service-insights/

tại chỗ_img

Tin tức mới nhất

tại chỗ_img

Trò chuyện trực tiếp với chúng tôi (chat)

Chào bạn! Làm thế nào để tôi giúp bạn?