Logo Zephyrnet

Những điều cần cân nhắc khi chuyển kho dữ liệu sang Amazon Redshift

Ngày:

Khách hàng đang di chuyển kho dữ liệu sang Amazon RedShift bởi vì nó nhanh chóng, có thể mở rộng và tiết kiệm chi phí. Tuy nhiên, các dự án di chuyển kho dữ liệu có thể phức tạp và đầy thách thức. Trong bài đăng này, tôi giúp bạn hiểu các trình điều khiển phổ biến của việc di chuyển kho dữ liệu, chiến lược di chuyển cũng như những công cụ và dịch vụ nào có sẵn để hỗ trợ dự án di chuyển của bạn.

Trước tiên, hãy thảo luận về bối cảnh dữ liệu lớn, ý nghĩa của kiến ​​trúc dữ liệu hiện đại và những gì bạn cần xem xét đối với dự án di chuyển kho dữ liệu của mình khi xây dựng kiến ​​trúc dữ liệu hiện đại.

Cơ hội kinh doanh

Dữ liệu đang thay đổi cách chúng ta làm việc, sống và vui chơi. Tất cả sự thay đổi hành vi này và sự di chuyển lên đám mây đã dẫn đến sự bùng nổ dữ liệu trong 20 năm qua. Sự gia tăng của Internet vạn vật và điện thoại thông minh đã đẩy nhanh lượng dữ liệu được tạo ra mỗi ngày. Các mô hình kinh doanh đã thay đổi, và nhu cầu của những người điều hành các doanh nghiệp này cũng vậy. Chúng ta đã chuyển từ việc nói về hàng terabyte dữ liệu chỉ vài năm trước đây sang hàng petabyte và exabyte dữ liệu. Bằng cách đưa dữ liệu vào hoạt động hiệu quả và xây dựng những hiểu biết sâu sắc về kinh doanh từ dữ liệu thu thập được, các doanh nghiệp thuộc các ngành khác nhau và thuộc nhiều quy mô khác nhau có thể đạt được nhiều loại kết quả kinh doanh. Chúng có thể được phân loại rộng rãi thành các kết quả kinh doanh cốt lõi sau:

  • Nâng cao hiệu quả hoạt động - Bằng cách hiểu rõ dữ liệu được thu thập từ các quy trình hoạt động khác nhau, các doanh nghiệp có thể cải thiện trải nghiệm của khách hàng, tăng hiệu quả sản xuất và tăng khả năng bán hàng và tiếp thị
  • Đưa ra quyết định sáng suốt hơn - Thông qua việc phát triển những hiểu biết sâu sắc có ý nghĩa hơn bằng cách tập hợp bức tranh toàn cảnh về dữ liệu trong một tổ chức, các doanh nghiệp có thể đưa ra quyết định sáng suốt hơn
  • Tăng tốc đổi mới - Kết hợp các nguồn dữ liệu bên trong và bên ngoài cho phép nhiều trường hợp sử dụng AI và máy học (ML) giúp các doanh nghiệp tự động hóa các quy trình và mở ra các cơ hội kinh doanh mà trước đây không thể thực hiện được hoặc quá khó thực hiện

Thách thức kinh doanh

Tăng trưởng dữ liệu theo cấp số nhân cũng đã đưa ra những thách thức kinh doanh.

Trước hết, các doanh nghiệp cần truy cập tất cả dữ liệu trong toàn tổ chức và dữ liệu có thể được phân phối trong các hầm chứa. Nó đến từ nhiều nguồn khác nhau, trong nhiều loại dữ liệu, khối lượng và tốc độ lớn. Một số dữ liệu có thể được lưu trữ dưới dạng dữ liệu có cấu trúc trong cơ sở dữ liệu quan hệ. Dữ liệu khác có thể được lưu trữ dưới dạng dữ liệu bán cấu trúc trong các cửa hàng đối tượng, chẳng hạn như tệp phương tiện và dữ liệu dòng nhấp liên tục truyền trực tuyến từ thiết bị di động.

Thứ hai, để xây dựng thông tin chi tiết từ dữ liệu, doanh nghiệp cần đi sâu vào dữ liệu bằng cách tiến hành phân tích. Các hoạt động phân tích này thường liên quan đến hàng chục và hàng trăm nhà phân tích dữ liệu, những người cần truy cập hệ thống đồng thời. Có một hệ thống hiệu suất có thể mở rộng để đáp ứng nhu cầu truy vấn thường là một thách thức. Nó trở nên phức tạp hơn khi các doanh nghiệp cần chia sẻ dữ liệu đã phân tích với khách hàng của họ.

Cuối cùng nhưng không kém phần quan trọng, các doanh nghiệp cần một giải pháp hiệu quả về chi phí để giải quyết các kho chứa dữ liệu, hiệu suất, khả năng mở rộng, bảo mật và tuân thủ. Việc có thể hình dung và dự đoán chi phí là cần thiết đối với một doanh nghiệp để đo lường hiệu quả chi phí của giải pháp của mình.

Để giải quyết những thách thức này, các doanh nghiệp cần một kiến ​​trúc dữ liệu hiện đại bằng chứng trong tương lai và một hệ thống phân tích mạnh mẽ, hiệu quả.

Kiến trúc dữ liệu hiện đại

Kiến trúc dữ liệu hiện đại cho phép các tổ chức lưu trữ bất kỳ lượng dữ liệu nào ở các định dạng mở, phá vỡ các silo dữ liệu bị ngắt kết nối, trao quyền cho người dùng chạy phân tích hoặc ML bằng công cụ hoặc kỹ thuật ưa thích của họ và quản lý những người có quyền truy cập vào các phần dữ liệu cụ thể với bảo mật thích hợp và kiểm soát quản trị dữ liệu.

Kiến trúc hồ dữ liệu AWS là một kiến ​​trúc dữ liệu hiện đại cho phép bạn lưu trữ dữ liệu trong hồ dữ liệu và sử dụng một vòng các dịch vụ dữ liệu được xây dựng có mục đích xung quanh hồ, như thể hiện trong hình sau. Điều này cho phép bạn đưa ra quyết định với tốc độ và sự nhanh nhẹn, trên quy mô lớn và tiết kiệm chi phí. Để biết thêm chi tiết, hãy tham khảo Kiến trúc dữ liệu hiện đại trên AWS.

Kho dữ liệu hiện đại

Amazon RedShift là một kho dữ liệu hiện đại được quản lý hoàn toàn, có thể mở rộng, giúp tăng tốc thời gian để hiểu rõ hơn với các phân tích nhanh chóng, dễ dàng và an toàn trên quy mô lớn. Với Amazon Redshift, bạn có thể phân tích tất cả dữ liệu của mình và nhận được hiệu suất ở bất kỳ quy mô nào với chi phí thấp và có thể dự đoán được.

Amazon Redshift cung cấp những lợi ích sau:

  • Phân tích tất cả dữ liệu của bạn - Với Amazon Redshift, bạn có thể dễ dàng phân tích tất cả dữ liệu của mình trên toàn bộ kho dữ liệu và hồ dữ liệu với các chính sách quản trị và bảo mật nhất quán. Chúng tôi gọi đây là kiến ​​trúc dữ liệu hiện đại. Với Quang phổ dịch chuyển đỏ Amazon, bạn có thể truy vấn dữ liệu trong hồ dữ liệu của mình mà không cần tải hoặc chuẩn bị dữ liệu khác. Và với dữ liệu hồ xuất khẩu, bạn có thể lưu lại kết quả của một truy vấn Amazon Redshift vào hồ. Điều này có nghĩa là bạn có thể tận dụng các phân tích thời gian thực và các trường hợp sử dụng ML / AI mà không cần tái kiến ​​trúc, vì Amazon Redshift được tích hợp hoàn toàn với hồ dữ liệu của bạn. Với các khả năng mới như chia sẻ dữ liệu, bạn có thể dễ dàng chia sẻ dữ liệu trên các cụm Amazon Redshift cả bên trong và bên ngoài, để mọi người có cái nhìn trực tiếp và nhất quán về dữ liệu. Máy học dịch chuyển đỏ của Amazon giúp bạn dễ dàng thực hiện nhiều việc hơn với dữ liệu của mình — bạn có thể tạo, đào tạo và triển khai các mô hình ML bằng cách sử dụng các lệnh SQL quen thuộc trực tiếp trong kho dữ liệu Amazon Redshift.
  • Hiệu suất nhanh ở mọi quy mô - Amazon Redshift là một hệ thống tự điều chỉnh và tự học cho phép bạn đạt được hiệu suất tốt nhất cho khối lượng công việc của mình mà không cần phải điều chỉnh kho dữ liệu của bạn với các tác vụ như xác định khóa sắp xếp và khóa phân phối cũng như các khả năng mới như quan điểm vật chất, tự động làm mới và tự động ghi lại truy vấn. Amazon Redshift mở rộng quy mô để cung cấp kết quả nhanh chóng nhất quán từ gigabyte đến petabyte dữ liệu và từ một vài người dùng đến hàng nghìn người. Khi cơ sở người dùng của bạn mở rộng thành hàng nghìn người dùng đồng thời, quy mô đồng thời khả năng tự động triển khai các tài nguyên tính toán cần thiết để quản lý tải bổ sung. Phiên bản Amazon Redshift RA3 với lưu trữ được quản lý tính toán và lưu trữ riêng biệt, vì vậy bạn có thể mở rộng từng quy mô một cách độc lập và chỉ trả tiền cho dung lượng bạn cần. AQUA (Trình tăng tốc truy vấn nâng cao) cho Amazon Redshift là một bộ nhớ cache được phân phối và tăng tốc phần cứng mới tự động tăng cường một số loại truy vấn nhất định.
  • Phân tích dễ dàng cho mọi người - Amazon Redshift là một kho dữ liệu được quản lý hoàn toàn giúp loại bỏ gánh nặng về quản lý cơ sở hạ tầng chi tiết hoặc tối ưu hóa hiệu suất. Bạn có thể tập trung vào việc tìm hiểu thông tin chi tiết, thay vì thực hiện các tác vụ bảo trì như cung cấp cơ sở hạ tầng, tạo bản sao lưu, thiết lập bố cục dữ liệu và các tác vụ khác. Bạn có thể vận hành dữ liệu ở các định dạng mở, sử dụng các lệnh SQL quen thuộc và tận dụng các trực quan hóa truy vấn có sẵn thông qua Trình chỉnh sửa truy vấn v2. Bạn cũng có thể truy cập dữ liệu từ bất kỳ ứng dụng nào thông qua API dữ liệu an toàn mà không cần cấu hình trình điều khiển phần mềm, quản lý kết nối cơ sở dữ liệu. Amazon Redshift tương thích với các công cụ thông minh kinh doanh (BI), mở ra sức mạnh và khả năng tích hợp của Amazon Redshift cho người dùng doanh nghiệp hoạt động từ bên trong công cụ BI.

Kiến trúc dữ liệu hiện đại với kiến ​​trúc hồ dữ liệu và kho dữ liệu hiện đại với Amazon Redshift giúp các doanh nghiệp ở mọi quy mô khác nhau giải quyết những thách thức về dữ liệu lớn, hiểu được lượng lớn dữ liệu và thúc đẩy kết quả kinh doanh. Bạn có thể bắt đầu hành trình xây dựng kiến ​​trúc dữ liệu hiện đại bằng cách di chuyển kho dữ liệu của mình sang Amazon Redshift.

Cân nhắc di chuyển

Di chuyển kho dữ liệu đưa ra một thách thức về mức độ phức tạp của dự án và gây rủi ro về nguồn lực, thời gian và chi phí. Để giảm bớt sự phức tạp của việc di chuyển kho dữ liệu, điều cần thiết là phải chọn một chiến lược di chuyển phù hợp dựa trên bối cảnh kho dữ liệu hiện có của bạn và số lượng chuyển đổi cần thiết để di chuyển sang Amazon Redshift. Sau đây là các yếu tố chính có thể ảnh hưởng đến quyết định chiến lược di chuyển của bạn:

  • Kích thước máy - Tổng kích thước của kho dữ liệu nguồn sẽ được di chuyển được xác định bởi các đối tượng, bảng và cơ sở dữ liệu có trong quá trình di chuyển. Hiểu rõ về các nguồn dữ liệu và miền dữ liệu cần thiết để chuyển sang Amazon Redshift dẫn đến việc định cỡ tối ưu cho dự án di chuyển.
  • Truyền dữ liệu - Di chuyển kho dữ liệu liên quan đến việc truyền dữ liệu giữa các máy chủ của kho dữ liệu nguồn và AWS. Bạn có thể truyền dữ liệu qua kết nối mạng giữa vị trí nguồn và AWS, chẳng hạn như Kết nối trực tiếp AWS hoặc truyền dữ liệu ngoại tuyến thông qua các công cụ hoặc dịch vụ như Gia đình tuyết AWS.
  • Tỷ lệ thay đổi dữ liệu - Tần suất cập nhật hoặc thay đổi dữ liệu trong kho dữ liệu của bạn như thế nào? Tốc độ thay đổi dữ liệu kho dữ liệu hiện tại của bạn xác định khoảng thời gian cập nhật cần thiết để giữ cho kho dữ liệu nguồn và Amazon Redshift mục tiêu được đồng bộ hóa. Kho dữ liệu nguồn có tốc độ thay đổi dữ liệu cao yêu cầu dịch vụ chuyển đổi từ nguồn sang Amazon Redshift phải hoàn thành trong khoảng thời gian cập nhật, điều này dẫn đến thời hạn chuyển đổi ngắn hơn.
  • Chuyển đổi dữ liệu - Di chuyển kho dữ liệu hiện có của bạn sang Amazon Redshift là một quá trình di chuyển không đồng nhất liên quan đến việc chuyển đổi dữ liệu như ánh xạ dữ liệu và thay đổi lược đồ. Sự phức tạp của việc chuyển đổi dữ liệu xác định thời gian xử lý cần thiết cho một lần di chuyển lặp lại.
  • Các công cụ di chuyển và ETL - Việc lựa chọn các công cụ di chuyển và trích xuất, chuyển đổi và tải (ETL) có thể ảnh hưởng đến dự án di chuyển. Ví dụ, những nỗ lực cần thiết để triển khai và thiết lập các công cụ này có thể khác nhau. Chúng ta sẽ xem xét kỹ hơn các công cụ và dịch vụ AWS ngay sau đây.

Sau khi đã tính toán tất cả những cân nhắc này, bạn có thể chọn một tùy chọn chiến lược di chuyển cho dự án di chuyển Amazon Redshift của mình.

Các chiến lược di chuyển

Bạn có thể chọn từ ba chiến lược di chuyển: di chuyển một bước, di chuyển hai bước hoặc di chuyển dựa trên làn sóng.

Di chuyển một bước là một lựa chọn tốt cho các cơ sở dữ liệu không yêu cầu hoạt động liên tục như sao chép liên tục để giữ cho các thay đổi dữ liệu đang diễn ra đồng bộ giữa nguồn và đích. Bạn có thể trích xuất cơ sở dữ liệu hiện có dưới dạng tệp giá trị được phân tách bằng dấu phẩy (CSV) hoặc định dạng cột như Parquet, sau đó sử dụng các dịch vụ AWS Snow Family chẳng hạn như Quả cầu tuyết AWS để cung cấp bộ dữ liệu cho Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) để tải vào Amazon Redshift. Sau đó, bạn kiểm tra cơ sở dữ liệu Amazon Redshift đích về tính nhất quán của dữ liệu với nguồn. Sau khi tất cả các xác thực đã được thông qua, cơ sở dữ liệu được chuyển sang AWS.

Di chuyển hai bước thường được sử dụng cho cơ sở dữ liệu ở bất kỳ kích thước nào yêu cầu hoạt động liên tục, chẳng hạn như sao chép liên tục. Trong quá trình di chuyển, cơ sở dữ liệu nguồn có các thay đổi dữ liệu liên tục và việc sao chép liên tục giúp các thay đổi dữ liệu được đồng bộ hóa giữa nguồn và Amazon Redshift. Bản phân tích của chiến lược di chuyển hai bước như sau:

  • Di chuyển dữ liệu ban đầu - Dữ liệu được trích xuất từ ​​cơ sở dữ liệu nguồn, tốt nhất là trong thời gian sử dụng không cao điểm để giảm thiểu tác động. Sau đó, dữ liệu được di chuyển sang Amazon Redshift bằng cách thực hiện theo phương pháp di chuyển một bước được mô tả trước đây.
  • Di chuyển dữ liệu đã thay đổi - Dữ liệu đã thay đổi trong cơ sở dữ liệu nguồn sau khi di chuyển dữ liệu ban đầu được truyền đến đích trước khi chuyển đổi. Bước này đồng bộ hóa cơ sở dữ liệu nguồn và cơ sở dữ liệu đích. Sau khi tất cả dữ liệu đã thay đổi được di chuyển, bạn có thể xác thực dữ liệu trong cơ sở dữ liệu đích và thực hiện các kiểm tra cần thiết. Nếu tất cả các bài kiểm tra đều vượt qua, thì bạn chuyển sang kho dữ liệu Amazon Redshift.

Di chuyển dựa trên sóng phù hợp với các dự án di chuyển kho dữ liệu quy mô lớn. Nguyên tắc của di cư dựa trên làn sóng là thực hiện các biện pháp phòng ngừa để chia một dự án di cư phức tạp thành nhiều làn sóng hợp lý và có hệ thống. Chiến lược này có thể làm giảm đáng kể sự phức tạp và rủi ro. Bạn bắt đầu từ một khối lượng công việc bao gồm nhiều nguồn dữ liệu và lĩnh vực chủ đề có độ phức tạp trung bình, sau đó thêm nhiều nguồn dữ liệu và lĩnh vực chủ đề hơn trong mỗi wave tiếp theo. Với chiến lược này, bạn chạy song song cả kho dữ liệu nguồn và môi trường sản xuất Amazon Redshift trong một khoảng thời gian nhất định trước khi có thể ngừng hoạt động hoàn toàn kho dữ liệu nguồn. Xem Phát triển phương pháp di chuyển ứng dụng để hiện đại hóa kho dữ liệu của bạn với Amazon Redshift để biết chi tiết về cách xác định và nhóm các nguồn dữ liệu và ứng dụng phân tích để di chuyển từ kho dữ liệu nguồn sang Amazon Redshift bằng cách sử dụng phương pháp di chuyển dựa trên làn sóng.

Để hướng dẫn quyết định chiến lược di chuyển của bạn, hãy tham khảo bảng sau để lập bản đồ các yếu tố cần cân nhắc với chiến lược di chuyển ưu tiên.

. Di chuyển một bước Di chuyển hai bước Di chuyển dựa trên sóng
Số lượng các lĩnh vực chủ đề trong phạm vi di chuyển Nhỏ Trung bình đến Lớn Trung bình đến Lớn
Khối lượng truyền dữ liệu Nhỏ đến Lớn Nhỏ đến Lớn Nhỏ đến Lớn
Tốc độ thay đổi dữ liệu trong quá trình di chuyển Không áp dụng Tối thiểu đến Thường xuyên Tối thiểu đến Thường xuyên
Chuyển đổi dữ liệu phức tạp Bất kì Bất kì Bất kì
Cửa sổ thay đổi di chuyển để chuyển từ nguồn sang đích Giờ Giây Giây
Thời hạn dự án di chuyển tuần Tuần đến tháng Tháng

Quá trình di chuyển

Trong phần này, chúng tôi xem xét ba bước cấp cao của quá trình di chuyển. Chiến lược di cư hai bước và chiến lược di cư theo làn sóng bao gồm cả ba bước di cư. Tuy nhiên, chiến lược di chuyển dựa trên làn sóng bao gồm một số lần lặp lại. Bởi vì chỉ những cơ sở dữ liệu không yêu cầu hoạt động liên tục mới phù hợp cho quá trình di chuyển một bước, chỉ cần có Bước 1 và 2 trong quá trình di chuyển.

Bước 1: Chuyển đổi lược đồ và chủ đề

Trong bước này, bạn làm cho lược đồ kho dữ liệu nguồn tương thích với lược đồ Amazon Redshift bằng cách chuyển đổi lược đồ kho dữ liệu nguồn bằng cách sử dụng các công cụ chuyển đổi giản đồ như Công cụ chuyển đổi giản đồ AWS (AWS SCT) và các công cụ khác từ các đối tác AWS. Trong một số tình huống, bạn cũng có thể được yêu cầu sử dụng mã tùy chỉnh để thực hiện các chuyển đổi giản đồ phức tạp. Chúng tôi tìm hiểu sâu hơn về AWS SCT và các phương pháp di chuyển tốt nhất trong phần sau.

Bước 2: Trích xuất và tải dữ liệu ban đầu

Trong bước này, bạn hoàn thành việc trích xuất dữ liệu ban đầu và tải dữ liệu nguồn vào Amazon Redshift lần đầu tiên. Bạn có thể dùng Trình trích xuất dữ liệu AWS SCT để trích xuất dữ liệu từ kho dữ liệu nguồn và tải dữ liệu lên Amazon S3 nếu kích thước dữ liệu và yêu cầu truyền dữ liệu của bạn cho phép bạn truyền dữ liệu qua mạng được kết nối. Ngoài ra, nếu có các giới hạn như giới hạn dung lượng mạng, bạn có thể tải dữ liệu vào Snowball và từ đó dữ liệu được tải lên Amazon S3. Khi dữ liệu trong kho dữ liệu nguồn có sẵn trên Amazon S3, nó sẽ được tải lên Amazon Redshift. Trong các tình huống khi các công cụ gốc của kho dữ liệu nguồn thực hiện công việc dỡ và tải dữ liệu tốt hơn các trình trích xuất dữ liệu AWS SCT, bạn có thể chọn sử dụng các công cụ gốc để hoàn thành bước này.

Bước 3: Delta và tải tăng dần

Trong bước này, bạn sử dụng AWS SCT và đôi khi là các công cụ gốc của kho dữ liệu nguồn để nắm bắt và tải các thay đổi delta hoặc gia tăng từ các nguồn vào Amazon Redshift. Điều này thường được gọi là thu thập dữ liệu thay đổi (CDC). CDC là một quá trình ghi lại những thay đổi được thực hiện trong cơ sở dữ liệu và đảm bảo rằng những thay đổi đó được sao chép tới một đích như kho dữ liệu.

Bây giờ bạn sẽ có đủ thông tin để bắt đầu phát triển kế hoạch di chuyển cho kho dữ liệu của mình. Trong phần sau, tôi đi sâu hơn vào các dịch vụ AWS có thể giúp bạn di chuyển kho dữ liệu của mình sang Amazon Redshift và các phương pháp hay nhất khi sử dụng các dịch vụ này để đẩy nhanh quá trình phân phối thành công dự án di chuyển kho dữ liệu của bạn.

Dịch vụ di chuyển kho dữ liệu

Di chuyển kho dữ liệu bao gồm một tập hợp các dịch vụ và công cụ để hỗ trợ quá trình di chuyển. Bạn bắt đầu với việc tạo báo cáo đánh giá di chuyển cơ sở dữ liệu và sau đó chuyển đổi giản đồ dữ liệu nguồn để tương thích với Amazon Redshift bằng cách sử dụng AWS SCT. Để di chuyển dữ liệu, bạn có thể sử dụng công cụ trích xuất dữ liệu AWS SCT, có tích hợp với Dịch vụ di chuyển dữ liệu AWS (AWS DMS) để tạo và quản lý các tác vụ AWS DMS và điều phối quá trình di chuyển dữ liệu.

Để truyền dữ liệu nguồn qua mạng được kết nối giữa nguồn và AWS, bạn có thể sử dụng Cổng lưu trữ AWS, Amazon Kinesis Dữ liệu Firehose, Kết nối trực tiếp, Dịch vụ AWS Transfer Family, Tăng tốc chuyển nhượng Amazon S3Đồng bộ dữ liệu AWS. Đối với việc di chuyển kho dữ liệu liên quan đến khối lượng lớn dữ liệu hoặc nếu có những hạn chế với dung lượng mạng được kết nối với nhau, bạn có thể truyền dữ liệu bằng cách sử dụng Dòng dịch vụ AWS Snow. Với cách tiếp cận này, bạn có thể sao chép dữ liệu vào thiết bị, gửi lại cho AWS và sao chép dữ liệu vào Amazon Redshift thông qua Amazon S3.

AWS SCT là một dịch vụ cần thiết để đẩy nhanh quá trình di chuyển kho dữ liệu của bạn sang Amazon Redshift. Hãy đi sâu hơn vào nó.

Di chuyển bằng AWS SCT

AWS SCT tự động hóa phần lớn quy trình chuyển đổi giản đồ kho dữ liệu của bạn sang giản đồ cơ sở dữ liệu Amazon Redshift. Vì công cụ cơ sở dữ liệu nguồn và đích có thể có nhiều tính năng và khả năng khác nhau, AWS SCT cố gắng tạo một lược đồ tương đương trong cơ sở dữ liệu mục tiêu của bạn bất cứ khi nào có thể. Nếu không thể chuyển đổi trực tiếp, AWS SCT sẽ tạo báo cáo đánh giá di chuyển cơ sở dữ liệu để giúp bạn chuyển đổi giản đồ của mình. Báo cáo đánh giá di chuyển cơ sở dữ liệu cung cấp thông tin quan trọng về việc chuyển đổi lược đồ từ cơ sở dữ liệu nguồn sang cơ sở dữ liệu đích của bạn. Báo cáo tóm tắt tất cả các nhiệm vụ chuyển đổi lược đồ và nêu chi tiết các mục hành động cho các đối tượng lược đồ không thể chuyển đổi sang công cụ DB của cơ sở dữ liệu mục tiêu của bạn. Báo cáo cũng bao gồm các ước tính về lượng nỗ lực sẽ cần để viết mã tương đương trong cơ sở dữ liệu mục tiêu của bạn mà không thể được chuyển đổi tự động.

Tối ưu hóa lưu trữ là trọng tâm của chuyển đổi kho dữ liệu. Khi sử dụng cơ sở dữ liệu Amazon Redshift của bạn làm nguồn và cơ sở dữ liệu Amazon Redshift thử nghiệm làm mục tiêu, AWS SCT đề xuất các khóa sắp xếp và khóa phân phối để tối ưu hóa cơ sở dữ liệu của bạn.

Với AWS SCT, bạn có thể chuyển đổi các lược đồ kho dữ liệu sau sang Amazon Redshift:

  • Amazon RedShift
  • Azure Synapse Analytics (phiên bản 10)
  • Cơ sở dữ liệu Greenplum (phiên bản 4.3 trở lên)
  • Microsoft SQL Server (phiên bản 2008 trở lên)
  • Netezza (phiên bản 7.0.3 trở lên)
  • Oracle (phiên bản 10.2 trở lên)
  • Snowflake (phiên bản 3)
  • Teradata (phiên bản 13 trở lên)
  • Vertica (phiên bản 7.2 trở lên)

At
AWS, chúng tôi tiếp tục phát hành các tính năng và cải tiến mới để cải thiện sản phẩm của mình. Đối với các chuyển đổi được hỗ trợ mới nhất, hãy truy cập Hướng dẫn sử dụng AWS SCT.

Di chuyển dữ liệu bằng công cụ trích xuất dữ liệu AWS SCT

Bạn có thể sử dụng công cụ trích xuất dữ liệu AWS SCT để trích xuất dữ liệu từ kho dữ liệu tại chỗ của mình và di chuyển dữ liệu đó sang Amazon Redshift. Tác nhân trích xuất dữ liệu của bạn và tải dữ liệu lên Amazon S3 hoặc dịch vụ AWS Snowball Family để di chuyển quy mô lớn. Sau đó, bạn có thể sử dụng AWS SCT để sao chép dữ liệu vào Amazon Redshift. Amazon S3 là một dịch vụ lưu trữ và truy xuất. Để lưu trữ một đối tượng trong Amazon S3, bạn tải tệp bạn muốn lưu trữ lên thùng S3. Khi tải tệp lên, bạn có thể đặt quyền trên đối tượng và cả trên bất kỳ siêu dữ liệu nào.

Trong quá trình di chuyển quy mô lớn liên quan đến việc tải dữ liệu lên dịch vụ AWS Snowball Family, bạn có thể sử dụng quy trình làm việc dựa trên trình hướng dẫn trong AWS SCT để tự động hóa quy trình trong đó công cụ trích xuất dữ liệu điều phối AWS DMS để thực hiện quá trình di chuyển thực tế.

Cân nhắc đối với các công cụ di chuyển Amazon Redshift

Để cải thiện và đẩy nhanh quá trình di chuyển kho dữ liệu sang Amazon Redshift, hãy xem xét các mẹo và phương pháp hay nhất sau đây. Danh sách này không phải là đầy đủ. Đảm bảo rằng bạn hiểu rõ về hồ sơ kho dữ liệu của mình và xác định các phương pháp hay nhất mà bạn có thể sử dụng cho dự án di chuyển của mình.

  • Sử dụng AWS SCT để tạo báo cáo đánh giá di chuyển và nỗ lực di chuyển phạm vi.
  • Tự động hóa di chuyển với AWS SCT nếu có thể. Kinh nghiệm từ khách hàng của chúng tôi cho thấy AWS SCT có thể tự động tạo phần lớn các tập lệnh DDL và SQL.
  • Khi không thể chuyển đổi giản đồ tự động, hãy sử dụng tập lệnh tùy chỉnh để chuyển đổi mã.
  • Cài đặt các tác nhân trích xuất dữ liệu AWS SCT càng gần nguồn dữ liệu càng tốt để cải thiện độ tin cậy và hiệu suất di chuyển dữ liệu.
  • Để cải thiện hiệu suất di chuyển dữ liệu, hãy định kích thước phù hợp Đám mây điện toán đàn hồi Amazon Phiên bản (Amazon EC2) và các máy ảo tương đương của nó mà tác nhân trích xuất dữ liệu được cài đặt trên đó.
  • Định cấu hình nhiều tác nhân trích xuất dữ liệu để chạy nhiều tác vụ song song nhằm cải thiện hiệu suất di chuyển dữ liệu bằng cách tối đa hóa việc sử dụng băng thông mạng được phân bổ.
  • Điều chỉnh cấu hình bộ nhớ AWS SCT để cải thiện hiệu suất chuyển đổi giản đồ.
  • Sử dụng Amazon S3 để lưu trữ các đối tượng lớn như hình ảnh, PDF và dữ liệu nhị phân khác từ kho dữ liệu hiện có của bạn.
  • Để di chuyển các bảng lớn, hãy sử dụng phân vùng ảo và tạo các tác vụ con để cải thiện hiệu suất di chuyển dữ liệu.
  • Hiểu các trường hợp sử dụng của các dịch vụ AWS như Kết nối trực tiếp, Nhóm truyền AWS và Nhóm AWS Snow. Chọn dịch vụ hoặc công cụ phù hợp để đáp ứng các yêu cầu di chuyển dữ liệu của bạn.
  • Hiểu hạn ngạch dịch vụ AWS và đưa ra quyết định thiết kế di chuyển sáng suốt.

Tổng kết

Dữ liệu đang phát triển về khối lượng và độ phức tạp nhanh hơn bao giờ hết. Tuy nhiên, chỉ một phần nhỏ của tài sản vô giá này là có sẵn để phân tích. Kho dữ liệu tại chỗ truyền thống có kiến ​​trúc cứng nhắc không mở rộng cho các trường hợp sử dụng phân tích dữ liệu lớn hiện đại. Các kho dữ liệu truyền thống này rất tốn kém để thiết lập và vận hành, đồng thời yêu cầu đầu tư trả trước lớn vào cả phần mềm và phần cứng.

Trong bài đăng này, chúng tôi đã thảo luận về Amazon Redshift như một kho dữ liệu hiện đại, có thể mở rộng, được quản lý hoàn toàn, có thể giúp bạn phân tích tất cả dữ liệu của mình và đạt được hiệu suất ở mọi quy mô với chi phí thấp và có thể dự đoán được. Để di chuyển kho dữ liệu của bạn sang Amazon Redshift, bạn cần xem xét một loạt các yếu tố, chẳng hạn như tổng kích thước của kho dữ liệu, tốc độ thay đổi dữ liệu và độ phức tạp của quá trình chuyển đổi dữ liệu, trước khi chọn một chiến lược và quy trình di chuyển phù hợp để giảm độ phức tạp và chi phí của dự án di chuyển kho dữ liệu của bạn. Với các dịch vụ AWS, chẳng hạn như AWS SCT và AWS DMS, và bằng cách áp dụng các mẹo và phương pháp hay nhất của các dịch vụ này, bạn có thể tự động hóa các nhiệm vụ di chuyển, quy mô di chuyển, đẩy nhanh việc phân phối dự án di chuyển kho dữ liệu và làm hài lòng khách hàng của bạn.


Lưu ý

Lewis Tang là Kiến trúc sư giải pháp cao cấp tại Amazon Web Services có trụ sở tại Sydney, Úc. Lewis cung cấp cho các đối tác hướng dẫn về một loạt các dịch vụ AWS và giúp các đối tác đẩy nhanh tốc độ phát triển thực hành AWS.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img

Trò chuyện trực tiếp với chúng tôi (chat)

Chào bạn! Làm thế nào để tôi giúp bạn?