Logo Zephyrnet

Hướng dẫn chuyển đổi kỹ thuật số: Kiến trúc ưu tiên dữ liệu

Ngày:

Nhấp để tìm hiểu thêm về tác giả John Ottmann.

Mục tiêu của chuyển đổi kỹ thuật số vẫn giống như bao giờ hết - trở nên theo hướng dữ liệu hơn. Chúng tôi đã học cách đạt được lợi thế cạnh tranh bằng cách nắm bắt các sự kiện kinh doanh trong dữ liệu. Sự kiện là ảnh chụp nhanh dữ liệu về hoạt động phức tạp có nguồn gốc từ web, hệ thống khách hàng, giao dịch ERP, truyền thông xã hội, IoT, phát trực tuyến và thậm chí từ dữ liệu do máy tạo ra. Bằng cách thu thập và xử lý dữ liệu sự kiện trong thời gian thực, người quản lý có được nhận thức về tình huống để đưa ra quyết định tốt hơn.

Các ứng dụng theo hướng dữ liệu làm phong phú thêm hiểu biết của chúng ta về các sự kiện kinh doanh vì chúng tận dụng nhiều dữ liệu hơn. Để thực hiện được điều này, các ứng dụng thế hệ tiếp theo kết hợp máy học (ML) và trí tuệ nhân tạo (AI) yêu cầu tính linh hoạt của lược đồ và khả năng xử lý lượng dữ liệu rất lớn với giá cả phải chăng. Mục tiêu là nâng cao tiêu chuẩn về một 'phiên bản duy nhất của sự thật' và tạo ra các quy trình nâng cao để cải thiện kết quả kinh doanh.

Thu thập dữ liệu sự kiện

Dữ liệu sự kiện cải thiện khả năng hiển thị. Doanh nghiệp Kho dữ liệu dựa trên các lược đồ chuẩn, từ trên xuống thường không mô tả đầy đủ các sự kiện kinh doanh. Ví dụ: các giao dịch đặt hàng của khách hàng được sắp xếp và phân tích, nhưng chúng ta còn biết gì về những sự kiện này? Khách hàng được giới thiệu và do ai? Một ứng dụng di động, Web hay khách hàng bán lẻ? Khách hàng có thể muốn mua gì khác? Việc thu thập dữ liệu sự kiện xây dựng bối cảnh và cho phép đưa ra quyết định tốt hơn với kết quả dễ đoán hơn. 

Việc thu thập dữ liệu sự kiện cũng có thể liên quan đến việc thu thập dữ liệu quy mô lớn. Dữ liệu có cấu trúc từ các hệ thống giao dịch chỉ cung cấp bức tranh một phần. Ngày nay, tới 80% dữ liệu doanh nghiệp là không có cấu trúc hoặc bán cấu trúc và bao gồm hình ảnh, email, mạng xã hội, âm thanh và video. Để thiết lập một 'phiên bản duy nhất của sự thật' cho một sự kiện kinh doanh cụ thể, việc thu thập dữ liệu bao gồm tất cả dữ liệu có sẵn về sự kiện đó bao gồm dữ liệu có cấu trúc, tệp, dữ liệu truyền trực tuyến, nhật ký máy và tệp thô.

Bạn có thể đang nghĩ, "nghe có vẻ như rất nhiều dữ liệu!" Khả năng mở rộng thường được đề cập đến bằng các thuật ngữ đơn giản như chúng tôi có thể hỗ trợ bao nhiêu petabyte. Tuy nhiên, việc chia tỷ lệ hàng loạt đơn giản đến petabyte thường dẫn đến các hệ thống lớn trở nên lớn đến mức chúng ít sử dụng được. Các kho lưu trữ tệp Petabyte trở nên kém hiệu quả khi bạn đang tìm kiếm các kết quả hạt mịn. Nhưng khi chúng tôi mở rộng quy mô một cách hợp lý đến các không gian tên cụ thể và rời rạc hơn, chúng tôi có thể mô tả dữ liệu tốt hơn và quá trình xử lý có thể được tối ưu hóa hiệu quả hơn. Do đó, thách thức về khả năng mở rộng đã phát triển từ việc chúng tôi có thể hỗ trợ bao nhiêu petabyte đến bao nhiêu không gian tên mà chúng tôi có thể quản lý.

Kiến trúc thông tin đám mây

Với rất nhiều yêu cầu về cơ sở hạ tầng thay đổi, doanh nghiệp theo hướng dữ liệu yêu cầu một kiến ​​trúc thông tin mới để đạt được chuyển đổi kỹ thuật số. Kiến trúc thông tin mới này nhập vào bất kỳ dữ liệu nào, sử dụng lưu trữ đối tượng để lưu trữ dữ liệu hàng loạt với chi phí thấp nhất và mở rộng theo chiều ngang trên các cụm cơ sở hạ tầng hàng hóa. Và tất nhiên, kiến ​​trúc phải theo thời gian thực vì dữ liệu mất giá trị quá nhanh khi nó già đi.

Sự gia tăng của kiến ​​trúc đa đám mây, dựa trên dữ liệu và danh mục rộng rãi các ứng dụng hướng dữ liệu tiên tiến đã ra đời do đó đòi hỏi các hệ thống quản lý dữ liệu đám mây phải thu thập, quản lý, chi phối và xây dựng các đường ống để phân luồng dữ liệu doanh nghiệp. Kiến trúc dữ liệu đám mây trải rộng trên các môi trường đám mây riêng, đa đám mây và đám mây lai kết nối với các hệ thống giao dịch, máy chủ tệp, Internet và các kho lưu trữ đa đám mây.

Nền tảng dữ liệu đám mây là trung tâm của các chương trình quản lý dữ liệu đám mây và chúng quản lý việc thu thập dữ liệu thống nhất và lưu trữ dữ liệu với chi phí thấp nhất. Lưu trữ, hồ dữ liệu và dịch vụ nội dung cho phép các dự án di chuyển đám mây kết nối, nhập và quản lý bất kỳ loại dữ liệu nào từ bất kỳ nguồn nào bao gồm hệ thống kế thừa, máy tính lớn, ERP và thậm chí cả môi trường SaaS như Salesforce hoặc Workday đã trở thành hệ thống ghi mới.

Dữ liệu được di chuyển sang đám mây thường được lưu trữ “nguyên trạng” trong các thùng để giảm bớt các quy trình ETL nặng nề. Mục tiêu là thiết lập các đường ống dẫn dữ liệu thời gian thực để hỗ trợ các ứng dụng theo hướng dữ liệu. Khi dữ liệu “nguyên trạng” không đáp ứng các yêu cầu ứng dụng, các hồ dữ liệu doanh nghiệp được sử dụng để làm sạch và chuyển đổi dữ liệu thô để chuẩn bị cho quá trình xử lý trong tương lai. Chuẩn bị dữ liệu cung cấp các biện pháp chất lượng dữ liệu quan trọng bao gồm lập hồ sơ dữ liệu, làm sạch dữ liệu, chuyển đổi dữ liệu, làm giàu dữ liệu và mô hình hóa dữ liệu.

Đường ống dữ liệu và quản lý siêu dữ liệu

Đường ống dữ liệu là một chuỗi các luồng dữ liệu trong đó đầu ra của một phần tử là đầu vào của phần tử tiếp theo, v.v. Các hồ dữ liệu đóng vai trò là điểm thu thập và truy cập trong một đường ống dữ liệu và chịu trách nhiệm kiểm soát truy cập. Khi các đường ống dẫn dữ liệu xuất hiện trong toàn doanh nghiệp, các hồ dữ liệu của doanh nghiệp trở thành trung tâm phân phối dữ liệu với các điều khiển tập trung để liên kết dữ liệu trên các mạng của các hồ dữ liệu. Liên kết dữ liệu tập trung vào Quản lý siêu dữ liệu, Quản trị dữ liệu và kiểm soát tuân thủ đồng thời cho phép các hoạt động của hồ dữ liệu phi tập trung.

Quản lý siêu dữ liệu cung cấp chế độ xem toàn bộ dữ liệu (bao gồm dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc) và giúp người dùng hiểu dữ liệu của họ tốt hơn. Các nhà phân tích phân loại, lập hồ sơ và thiết lập các mô tả nhất quán và bối cảnh kinh doanh cho dữ liệu. Quản lý siêu dữ liệu cho phép người dùng khám phá bối cảnh dữ liệu của họ theo ba cách: 

Dòng dữ liệu giúp người dùng hiểu được vòng đời dữ liệu bao gồm lịch sử chuyển động và biến đổi dữ liệu. Dòng dữ liệu đơn giản hóa việc phân tích nguyên nhân gốc rễ bằng cách truy tìm lỗi dữ liệu và cải thiện độ tin cậy để xử lý bởi các hệ thống hạ nguồn. 

Danh mục dữ liệu là một chế độ xem danh mục đầu tư về khoảng không quảng cáo dữ liệu và tài sản dữ liệu. Người dùng duyệt dữ liệu mà họ cần và có thể đánh giá dữ liệu cho các mục đích sử dụng.

Bảng thuật ngữ kinh doanh là danh sách các thuật ngữ kinh doanh với các định nghĩa của chúng. Các chương trình Quản trị Dữ liệu yêu cầu các khái niệm kinh doanh cho một tổ chức phải được xác định và sử dụng một cách nhất quán.

Quản lý dữ liệu đám mây để tuân thủ 

Quản lý dữ liệu đám mây cũng cung cấp quyền riêng tư cho dữ liệu của người tiêu dùng và các biện pháp kiểm soát Quản trị dữ liệu cần thiết để giảm rủi ro liên quan đến việc xử lý dữ liệu hàng loạt. Quản lý vòng đời thông tin (ILM) quản lý dữ liệu trong suốt vòng đời của nó và thiết lập một hệ thống kiểm soát và các quy tắc kinh doanh bao gồm các chính sách lưu giữ dữ liệu và lưu giữ hợp pháp. Các công cụ bảo mật và quyền riêng tư như phân loại dữ liệu, tạo mặt nạ dữ liệu và khám phá dữ liệu nhạy cảm giúp tuân thủ các chính sách Quản trị dữ liệu như NIST 800-53, PCI, HIPAA và GDPR. Quyền riêng tư dữ liệu của người tiêu dùng và Quản trị dữ liệu không chỉ cần thiết cho việc tuân thủ pháp luật mà còn cải thiện chất lượng dữ liệu.

Các CIO cam kết chuyển đổi kỹ thuật số nên bắt đầu với kiến ​​trúc lấy dữ liệu đầu tiên để tương tác thành công với đám mây và mạng lưới dữ liệu và dịch vụ web rộng lớn của nó. Mục đích là để mô tả các sự kiện kinh doanh tốt hơn bằng cách sử dụng dữ liệu được tổng hợp từ hệ thống OLTP, kho lưu trữ tệp, cơ sở dữ liệu và máy chủ thư. Cho dù lưu trữ các hồ dữ liệu, kho lưu trữ doanh nghiệp hay chạy các ứng dụng NoSQL, kiến ​​trúc lấy dữ liệu trên hết yêu cầu Quản lý dữ liệu đám mây cung cấp các dịch vụ thiết yếu cho các ứng dụng hướng dữ liệu thành công.

Coinsmart. Đặt cạnh Bitcoin-Börse ở Europa
Nguồn: https://www.dataversity.net/guide-to-digital-transformation-data-first-architecture/

tại chỗ_img

Tin tức mới nhất

tại chỗ_img