ゼファーネットのロゴ

Amazon Redshiftの新機能– 2021年のレビュー

日付:

Amazonレッドシフト に最適なクラウドデータウェアハウスです 何万人もの顧客 何バイトものデータを分析してビジネスの洞察を得るためにそれを使用する人。 お客様は、すべてのデータの保存、処理、分析をより簡単、高速、安全にするために、Redshiftの機能を強化することを求めています。 データウェアハウスのプロビジョニング、管理、スケーリングに関する複雑さを解消した最初のクラウドデータウェアハウスとして、2012年にRedshiftを発表しました。 それ以来、同時実行スケーリング、Spectrum、RA3ノードなどの機能を開始して、顧客がすべてのデータを分析し、組織内のすべてのユーザーにわたって増大する分析要求をサポートできるようにしました。 お客様に代わってRedshiftを使用して革新を続け、50年に2021を超える重要な機能をリリースしました。この投稿では、ユースケースやメリットなど、これらの機能の一部について説明します。

お客様の要件から逆戻りして、Redshiftに投資し、次のXNUMXつの主要な領域で新しい機能を引き出しています。

  1. 誰にとっても簡単な分析
  2. すべてのデータを分析する
  3. あらゆる規模のパフォーマンス

お客様から、組織内のデータウェアハウスユーザーは管理者、開発者、アナリスト、データサイエンティストから基幹業務(LoB)ユーザーに拡大しているとのことでした。そのため、Redshiftを誰にとっても使いやすくするための投資を続けています。 また、お客様は、データサイロから脱却し、データレイク、データベース、データウェアハウス全体のデータにアクセスし、SQLとマシンラーニング(ML)を使用してそのデータを分析したいと述べています。 そのため、お客様がすべてのデータを分析できるようにするための投資を続けています。 そして最後に、顧客は、テラバイトからペタバイトのデータまで、あらゆる規模の分析に最高の価格パフォーマンスを求めていると語っています。 そのため、あらゆる規模のパフォーマンスのための新しい機能を引き続き提供します。 これらの柱のそれぞれに飛び込み、2021年に立ち上げた主要な機能について説明しましょう。

AmazonRedshiftの主要なイノベーション

AmazonRedshiftの主要なイノベーション

Redshiftはすべての人に簡単な分析を提供します

誰にとっても簡単な分析には、より簡単な開始エクスペリエンス、自動化された管理性、および技術ユーザーと非技術ユーザーの両方がデータウェアハウス内のデータを迅速に開始、操作、分析するための視覚的なユーザーインターフェイスが必要です。 。 Redshift Serverless(プレビュー)、Query Editor V2、自動マテリアライズドビュー(プレビュー)などの新機能をリリースし、2021年にデータAPIを拡張して、お客様がデータウェアハウスを簡単に実行できるようにしました。

Redshiftサーバーレス(プレビュー中) データウェアハウスクラスターをプロビジョニングおよび管理することなく、分析を数秒で簡単に実行および拡張できます。 サーバーレスオプションを使用すると、データアナリスト、開発者、ビジネスユーザー、データサイエンティストを含むすべてのユーザーが、Redshiftを使用して、データウェアハウスにデータを読み込んでクエリを実行するだけで、データから洞察を数秒で取得できます。 お客様は、データウェアハウスを起動し、Redshiftサーバーレスオプションを使用して、数回クリックするだけでデータの分析を開始できます。 AWSマネジメントコンソール。 ノードタイプ、ノード数、またはその他の構成を選択する必要はありません。 顧客は、事前にロードされたサンプルデータセットとサンプルクエリを利用して、分析をすぐに開始できます。 データベース、スキーマ、テーブルを作成し、デスクトップから独自のデータをロードできます。 Amazon Simple Storage Service(S3)、 Amazon Redshiftデータ共有を介して、または既存のAmazonRedshiftプロビジョニングされたクラスタースナップショットを復元します。 また、Amazon S3データレイク内のParquetやORCなどのオープン形式のデータや、次のような運用データベース内のデータを直接クエリすることもできます。 アマゾンオーロラ & アマゾンRDS。 顧客は使用した分だけ支払い、きめ細かいコスト管理でコストを管理できます。

RedshiftクエリエディターV2 は、データアナリスト、データサイエンティスト、およびデータベース開発者がRedshiftデータウェアハウスおよびデータレイク内のデータを調査、分析、および共同作業するためのWebベースのツールです。 顧客は、クエリエディタのビジュアルインターフェイスを使用して、スキーマとテーブルの作成と参照、データの読み込み、SQLクエリとストアドプロシージャの作成、およびクエリ結果のグラフ化を行うことができます。 クエリと分析を共有および共同作業したり、組み込みのバージョン管理を使用して変更を追跡したりできます。 クエリエディタV2もサポートしています SQLノートブック (プレビュー中)。これは、データアナリストやデータサイエンティストなどのユーザーがクエリを作成し、XNUMXつのドキュメントで複数のSQLクエリと注釈を整理し、ノートブックを共有してチームメンバーと共同作業できる新しいノートブックインターフェイスを提供します。

AmazonRedshiftクエリエディターV2

AmazonRedshiftクエリエディターV2

お客様は長い間AmazonRedshiftを使用してきました マテリアライズドビュー (MV)事前に計算された結果セットの場合。2021つ以上のベーステーブルに対するSQLクエリに基づいて、クエリのパフォーマンスを向上させます。特に、ダッシュボードやレポートなど、頻繁に使用されるクエリの場合に使用します。 XNUMX年にローンチしました 自動マテリアライズドビュー (AutoMV)プレビューで、マテリアライズド・ビューを自動的に作成および保守することにより、ユーザーの労力なしでクエリのパフォーマンスを向上させます(合計実行時間を短縮します)。 お客様からは、MVにはパフォーマンス上の大きなメリットがありますが、スキーマ、データ、およびワークロードを分析して、MVを使用することでメリットが得られる可能性のあるクエリ、またはメリットがなくなったために削除する必要のあるMVを特定するには、知識、時間、労力が必要であるとのことです。 AutoMVを使用すると、Redshiftはクラスターを継続的に監視して候補MVを特定し、メリットとコストを評価できます。 これにより、既存のワークロードがこのプロセスによって悪影響を受けないようにしながら、費用便益比の高いMVが作成されます。 AutoMVは継続的にシステムを監視し、もはや有益ではないMVをドロップします。 これらはすべて、ユーザーとアプリケーションに対して透過的です。 ダッシュボードなどのアプリケーションは、コードを変更せずにメリットがあります。 自動クエリ書き換え、明示的に参照されていない場合でも、既存のクエリがMVの恩恵を受けることができます。 お客様はMVを次のように設定することもできます 自動更新 そのため、MVは、利便性を高めるために常に最新のデータを持っています。

また、お客様は、クラスターから最適なパフォーマンスを引き出すことができるように、スキーマやテーブルの設計などのデータウェアハウスのメンテナンスタスクを簡素化および自動化することを求めています。 過去数年間、私たちはこれらのメンテナンスタスクを自動化するために多額の投資を行ってきました。 たとえば、自動テーブル最適化(ATO)は、パフォーマンスを最大化するためのデータの最適な物理レイアウトを決定するために、最適な並べ替えキーと分散キーを選択します。 ATOを拡張して、列圧縮エンコーディングを変更し、高性能を実現してストレージ使用率を削減しました。 また、過去数年間、自動バキューム削除や自動分析などのさまざまな機能を導入して、顧客のデータウェアハウスが最高のパフォーマンスで動作し続けることを確認しています。

データAPI2020年にリリースされた、は、マルチステートメントクエリの実行、再利用可能なコードを開発するためのパラメータのサポート、顧客がRedshiftのデータにプログラムでアクセスしやすくするための2021年のより多くの地域での可用性などの主要な機能強化も見ています。 Data APIを使用すると、Redshiftを使用すると、顧客は、従来のクラウドネイティブでコンテナ化されたサーバーレスWebサービスベースのアプリケーションやイベント駆動型アプリケーションのすべてのタイプでデータに簡単にアクセスできます。 Python、Go、Java、Node.js、PHP、Ruby、C ++など、AWS SDKでサポートされているプログラミング言語やプラットフォームからのデータアクセス、取り込み、出力を簡素化します。 Data APIを使用すると、ドライバーを構成したり、データベース接続を管理したりする必要がなくなります。 代わりに、お客様は、Data APIによって提供されるセキュリティで保護されたAPIエンドポイントを呼び出すだけで、AmazonRedshiftクラスターに対してSQLコマンドを実行できます。 Data APIは、データベース接続の管理とデータのバッファリングを処理します。 Data APIは非同期であるため、結果を後で取得して24時間保存できます。

最後に、すべての人のための簡単な分析の柱として、2021年に GrafanaRedshiftプラグイン お客様がクラスターのパフォーマンスをより深く理解できるようにするため。 Grafanaは、分析および監視システムをオンラインで実行するための人気のあるオープンソースツールです。 Grafana Redshiftプラグインを使用すると、顧客はシステムテーブルとビューにクエリを実行して、Redshiftクラスターの運用メトリックの最も完全なセットを探すことができます。 プラグインは、オープンソースのGrafanaリポジトリ、およびAmazonマネージドGrafanaサービスで利用できます。 また、この機能を利用するために、デフォルトの詳細な運用ダッシュボードを公開しました。

Redshiftを使用すると、顧客はすべてのデータを分析できます

Redshiftは、データレイクと、データベースやデータウェアハウスなどの専用データストアの両方の長所をお客様に提供します。 これにより、お客様は、データレイクに寄木細工やJSONなどのオープンな標準ベースのデータ形式で任意の量のデータを低コストで保存し、読み込みや変換を行わずにSQLクエリを実行できます。 さらに、高度なクエリ最適化、高性能ストレージでの列型ストレージ、および超並列クエリ実行を使用して、テラバイトからペタバイトの構造化および半構造化データに対して高性能の複雑な分析クエリを実行できます。 Redshiftを使用すると、顧客はビジネスインテリジェンス(BI)およびレポートアプリケーションの一部としてトランザクションデータベースのライブデータにアクセスして、運用分析を実現できます。 お客様は、データレイク、データウェアハウス、およびデータベース内のデータをシームレスにクエリすることで、データサイロを分解できます。 チームが好みのツールまたは手法を使用して分析とMLを実行できるようにします。 適切なセキュリティとデータガバナンスの制御により、誰がデータにアクセスできるかを管理します。 2021年に、データ共有、AWSデータ交換統合、Redshift MLなどの新機能をリリースし、お客様がすべてのデータを簡単に分析できるようにしました。

AmazonRedshiftデータ共有 お客様は、Amazon Redshiftが単一クラスターで提供する使いやすさ、パフォーマンス、およびコストのメリットを、データを共有しながらマルチクラスター展開に拡張できます。 データをコピーしたり移動したりすることなく、AmazonRedshiftクラスター全体で瞬時にきめ細かく高速なデータアクセスを可能にします。 データ共有はデータへのライブアクセスを提供するため、ユーザーはデータウェアハウスで更新されたときに常に最新の一貫性のある情報を見ることができます。 お客様は、同じまたは同じ内のAmazonRedshiftクラスターとライブデータを安全に共有できます 異なるAWSアカウント 同じ地域内または 地域間。 データ共有は、結果のキャッシュや同時実行のスケーリングなど、いくつかのパフォーマンスの強化を特徴としています。これにより、顧客は幅広い分析アプリケーションのセットをサポートし、共有データをクエリするときに重要なパフォーマンスSLAを満たすことができます。 お客様は、ワークロードの分離や課金機能などのユースケースにデータ共有を使用できるだけでなく、チーム内およびチーム間や外部の関係者間で安全で管理されたコラボレーションを提供できます。

お客様はまた、サービスとしてのデータやオンボード3などのユースケースを可能にするために、内部または外部のデータマーケットプレイスを支援するように依頼しました。rd-パーティデータ。 の公開プレビューを開始しました Amazon Redshift の AWS データ交換、顧客がサードパーティのデータを検索してサブスクライブできるようにする新機能 AWSデータ交換 AmazonRedshiftデータウェアハウスで数分でクエリを実行できること。 データプロバイダーは、AWS DataExchangeカタログにAmazonRedshiftデータセットを含む製品を一覧表示して提供し、AmazonRedshiftに保存されているデータへの直接の読み取り専用アクセスをサブスクライバーに許可できます。 この機能により、顧客はこれらのサードパーティのデータセットを使用してアプリケーションをすばやくクエリ、分析、および構築できます。 AWS Data Exchange for Amazon Redshiftを使用すると、お客様はAWSDataExchangeで見つかったサードパーティのデータをAmazonRedshiftクラウドデータウェアハウス内の独自のファーストパーティのデータと組み合わせることができます。ETLは必要ありません。 顧客はプロバイダーのデータウェアハウスに直接クエリを実行しているため、提供されている最新のデータを使用していることを確認できます。 さらに、エンタイトルメント、請求、支払い管理はすべて自動化されています。AmazonRedshiftデータへのアクセスは、データサブスクリプションの開始時に許可され、終了時に削除されます。請求書は自動的に生成され、支払いはAWSMarketplaceを通じて自動的に収集および支払われます。

また、顧客は、複雑なデータ移動や新しいツールを学びます。 ローンチしました 赤方偏移ML 今年の初めに、お客様が使い慣れたSQLコマンドを使用してMLモデルを作成、トレーニング、デプロイできるようにします。 Amazon Redshift MLを使用すると、顧客は アマゾンセージメーカー、データを移動したり、新しいスキルを習得したりすることなく、完全に管理されたMLサービス。 さらに、AmazonSageMakerを搭載したAmazonRedshift MLを使用すると、お客様はSQLステートメントを使用してAmazon RedshiftのデータからMLモデルを作成およびトレーニングし、これらのモデルをチャーン予測や不正リスクスコアリングなどのユースケースにクエリやレポートで直接使用できます。 Amazon Redshift MLは、最適なモデルを自動的に検出し、トレーニングデータに基づいてそれを調整します。 Amazon SageMakerオートパイロット。 SageMaker Autopilotは、回帰、バイナリ、またはマルチクラス分類モデルから選択します。 または、Xtreme Gradient Boosted tree(XGBoost)や多層パーセプトロン(MLP)などの特定のモデルタイプ、回帰や分類などの問題タイプ、プリプロセッサやハイパーパラメータを選択することもできます。 Amazon Redshift MLは、お客様のパラメーターを使用して、Amazon Redshiftデータウェアハウスでモデルを構築、トレーニング、デプロイします。 顧客は、SQLクエリを使用して、ユーザー定義関数(UDF)を呼び出すかのように、これらのトレーニング済みモデルから予測を取得し、超並列処理機能を含むAmazonRedshiftのすべての利点を活用できます。 お客様は、事前にトレーニングされたSageMaker Autopilot、XGBoost、またはMLPモデルをAmazon Redshiftクラスターにインポートして、ローカル推論を行うこともできます。 Redshift MLは、予測からパーソナライズに至るまでの高度な分析のユースケースに対して、教師ありMLと教師なしMLの両方をサポートします。

お客様は、運用データベースのライブデータをAmazonRedshiftデータウェアハウスのデータおよびAmazonS3データレイク環境のデータと組み合わせて、企業内のすべてのデータにわたって統合された分析ビューを取得したいと考えています。 Amazon Redshiftフェデレーションクエリを開始し、顧客がトランザクションデータベースからのライブデータをBIおよびレポートアプリケーションの一部として組み込んで、運用分析を可能にできるようにしました。 Amazon Redshiftのインテリジェントオプティマイザーは、計算の一部をプッシュダウンしてリモート運用データベースに直接分散し、ネットワーク上で移動するデータを削減することでパフォーマンスを高速化します。 Amazon Redshiftは、超並列処理機能を活用してさらに高速化することにより、クエリの後続の実行を補完します。 フェデレーションクエリを使用すると、複雑なETLパイプラインを必要とせずに、顧客が運用データベースに直接クエリを実行したり、オンザフライで変換を適用したり、ターゲットテーブルにデータを読み込んだりできるため、AmazonRedshiftへのデータの取り込みが簡単になります。 2021年に、 MySQLデータベース用のAmazonAuroraMySQLおよびAmazonRDS フェデレーションクエリ用の既存のAmazonAuroraPostgreSQLおよびAmazonRDSfor PostgreSQLデータベースに加えて、顧客がより多くのデータソースにアクセスしてより豊富な分析を行えるようにします。

最後に、2021年のすべてのデータの柱を分析する際に、SUPER、GEOGRAPHY、VARBYTEなどのデータ型を追加して、半構造化データをRedshiftデータウェアハウスにネイティブに保存できるようにしました。これにより、すべてのデータを大規模に分析できます。パフォーマンス付き。 The スーパー データ型を使用すると、顧客はJSONおよび半構造化データを取り込んでAmazonRedshiftデータウェアハウスに保存できます。 Amazon Redshiftには、リレーショナルデータ、半構造化データ、およびネストされたデータへのSQL互換アクセスのためのPartiQLのサポートも含まれています。 Amazon RedshiftのSUPERデータ型とPartiQLを使用すると、顧客は、従来の構造化SQLデータ(文字列、数値、タイムスタンプなど)と半構造化SUPERデータ(JSONなど)を優れたパフォーマンスと柔軟性で組み合わせた高度な分析を実行できます。使いやすさ。 The 地理 データ型は、Redshiftの空間分析のサポートに基づいて構築されており、より多くのサードパーティの空間およびGISアプリケーションのサポートを開始します。 さらに、GEOMETRYデータ型と、Redshiftですでに利用可能な70を超える空間関数が追加されます。 GEOGRAPHYデータ型は、地球の回転楕円体モデルで表すことができ、空間座標系として緯度と経度を使用して参照できる地理的特徴を備えた空間データに対して、より高精度の結果を必要とするクエリで使用されます。 ヴァーバイト は、可変長のバイナリ文字列を格納および表現するための可変サイズのデータ​​型です。

Redshiftはあらゆる規模のパフォーマンスを提供します

2012年にAmazonRedshiftを発表して以来、あらゆる規模のパフォーマンスは、データからビジネスの洞察を得るために毎日私たちを信頼している何万もの顧客に価値を提供するための基本的な信条です。 私たちの顧客は、新興企業からフォーチュン500企業に至るまで、あらゆる業界と規模にまたがっており、あらゆるユースケースで最高の価格パフォーマンスを提供するよう努めています。 何年にもわたって、同時実行スケーリングで必要なときにクラスター容量を動的に追加する、自動ワークロード管理(WLM)でクラスターリソースを効率的に使用できるようにする、データレイアウト、分散キー、クエリプランを自動的に調整するなどの機能を開始しました。特定のワークロードに最適なパフォーマンスを提供します。 2021年に、AQUA、書き込みの同時実行スケーリング、RA3ノードのさらなる拡張などの機能を開始し、Redshiftの価格パフォーマンスを継続的に改善しました。

コンピューティングとストレージの独立したスケーリングを可能にするテクノロジーとして、3年にRA2019ノードタイプを導入しました。 また、Codeacademy、OpenVault、Yelp、Nielsenなどのお客様が、マネージドストレージを備えたAmazonRedshiftRA3ノードをどのように活用しているかについても説明しました。 クラウドデータウェアハウスを拡張し、コストを削減します。 RA3は、耐久性のあるストレージレイヤーとしてRedshift Managed Storage(RMS)を活用し、データがAmazonS3にコミットされるほぼ無制限のストレージ容量を可能にします。 これにより、データ共有やAQUAなどの新機能が有効になり、RMSが複数のクラスター間で共有ストレージとして使用されます。 RA3ノードは、価格とパフォーマンスのバランスをとるために16つのサイズ(4XL、2021XL、およびXLPlus)で利用できます。 XNUMX年にローンチしました シングルノードRA3XLPlusクラスター 顧客がコストパフォーマンスの高い方法で小規模なデータウェアハウスのワークロードをRA3に移行し、より優れた価格パフォーマンスを活用できるようにします。 セルフサービスも導入しました DS2からRA3へのRI移行機能 これにより、同等のノードタイプ間で一定のコストでRIを変換できます。

AQUA (Advanced Query Accelerator)for Amazon Redshiftは、特定のクエリタイプを自動的にブーストすることにより、Amazon Redshiftが他のエンタープライズクラウドデータウェアハウスよりも桁違いに高速に実行できるようにする、新しい分散型のハードウェアアクセラレーションキャッシュです。 AQUAは、データの暗号化と圧縮を高速化するように適合されたAWS Nitroチップを備えたAWS設計のプロセッサと、FPGAに実装されたカスタム分析プロセッサを使用して、スキャン、フィルタリング、集約などの操作を高速化します。 AQUAは、RA3.16xlarge、RA3.4xlarge、またはRA3.xlplusノードで追加料金なしで利用でき、コードを変更する必要はありません。

同時実行スケーリングは、容量を事前にプロビジョニングすることなく、スパイク状で予測不可能な読み取りワークロードを処理するために2019年に開始されました。 Redshiftは、メインクラスターが実行されている24時間の使用ごとに、2021時間の無料の同時実行スケーリングを提供します。 また、同時実行スケーリングの使用量と関連コストを監視および制限するためのコスト管理も提供します。 読み取りクエリに加えて、書き込みクエリのサポートは、ETLワークロードをサポートすることをお客様から強く求められてきました。 XNUMX年にローンチしました RedshiftConcurrencyScaling書き込みクエリのサポート INSERT、DELETE、UPDATE、COPYなどの一般的な操作を使用してプレビューし、ETLワークロードの予測できないスパイクを処理します。 現在同時実行スケーリングを使用している場合、この新しい機能はクラスターで自動的に有効になります。 Amazon Redshift Consoleを使用して同時実行スケーリングの使用状況を監視し、定義された制限を超える使用状況に関するアラートを受け取ることができます。 を使用して、プログラムで使用制限を作成、変更、および削除することもできます。 AWSコマンドラインインターフェイス(CLI) & AWS API.

最後に、AWSが最も要求の厳しい要件を満たす包括的なセキュリティ機能を備えていることを引き続き確認し、AmazonRedshiftは追加費用なしですぐに使用できるデータセキュリティを提供し続けます。 2021年に、次のような新しいセキュリティ機能を導入しました。 クロスVPC サポートと デフォルトのIAMロール、Redshiftを顧客のワークロードに対してより安全にするために。

まとめ

お客様がすべてのデータをより簡単に、より簡単に、より速く分析できるようにすることに関しては、速度が重要であり、Redshiftに新しい機能をもたらすために急速に革新しています。 すべてのお客様がすべての機能にアクセスできるようにするために、世界中のより多くのAWSリージョンでRedshift機能を引き続き利用できるようにしています。 上記の主要な機能について説明しました。完全なリストを利用できます。 こちら。 これらの機能のいくつかを使用して、データと分析の革新を継続する方法を楽しみにしています。


著者について

マナン・ゴエル は、AW​​SのAmazon Redshift&AQUAを含むAWS AnalyticsServicesの製品市場リーダーです。 彼は25年以上の経験があり、データベース、データウェアハウジング、ビジネスインテリジェンス、および分析に精通しています。 マナンは、デューク大学でMBAを取得し、電子通信工学の理学士号を取得しています。

ソース:https://aws.amazon.com/blogs/big-data/whats-new-in-amazon-redshift-2021-a-year-in-review/

スポット画像

最新のインテリジェンス

スポット画像