生成 AI 時代のデータガバナンス |アマゾンウェブサービス

データは生成的な AI の差別化要因であり、成功の鍵となります。 generative AI 実装は、包括的なデータを組み込んだ堅牢なデータ戦略に依存します。データガバナンスアプローチ。エンタープライズユースケースで大規模言語モデル (LLM) を扱うには、責任ある AI を推進するために品質とプライバシーに関する考慮事項を実装する必要があります。しかし、サイロ化されたソースから生成されたエンタープライズデータは、データ統合戦略の欠如と相まって、生成 AI アプリケーション用のデータをプロビジョニングする際に課題を生み出します。エンドツーエンドの必要性データ管理の戦略データの取り込み、保存、クエリから、人工知能 (AI) や機械学習 (ML) モデルの分析、視覚化、実行に至るまで、あらゆる段階でのデータガバナンスは、企業にとって引き続き最も重要です。

この投稿では、生成 AI アプリケーションデータパイプラインのデータガバナンスのニーズについて説明します。これは、LLM が使用するデータを管理するための重要な構成要素であり、安全、安心、透明な方法でユーザープロンプトに対する応答の精度と関連性を向上させます。企業は、取得拡張生成 (RAG)、微調整、基礎モデルによる継続的な事前トレーニングなどのアプローチで独自のデータを使用することでこれを実現しています。

データガバナンスは、これらすべてのアプローチにわたる重要な構成要素であり、新たに 2 つの焦点が当てられる領域が見えてきます。まず、LLM のユースケースの多くは、データウェアハウスからの構造化データに加えて、文書、トランスクリプト、画像などの非構造化データから引き出す必要があるエンタープライズナレッジに依存しています。非構造化データは通常、さまざまな形式でサイロ化されたシステムに保存されており、一般に構造化データと同じレベルの厳密さで管理または管理されていません。第 2 に、生成 AI アプリケーションでは従来のアプリケーションよりも多くのデータインタラクションが導入されるため、データセキュリティ、プライバシー、アクセス制御ポリシーを生成 AI ユーザーワークフローの一部として実装する必要があります。

この投稿では、構造化および非構造化エンタープライズナレッジソースに焦点を当てて、AWS 上で生成 AI アプリケーションを構築するためのデータガバナンスと、ユーザーのリクエストと応答のワークフローにおけるデータガバナンスの役割について説明します。

ユースケースの概要

カスタマーサポート AI アシスタントの例を見てみましょう。次の図は、ユーザープロンプトで開始される一般的な会話型ワークフローを示しています。

ワークフローには、次の主要なデータガバナンス手順が含まれます。

ユーザーのアクセス制御とセキュリティポリシーを要求します。
ポリシーにアクセスして、関連データに基づいて権限を抽出し、プロンプトされたユーザーの役割と権限に基づいて結果をフィルタリングします。
個人を特定できる情報 (PII) の編集などのデータプライバシーポリシーを適用します。
きめ細かいアクセス制御を実施します。
ユーザーロールに機密情報とコンプライアンスポリシーに対するアクセス許可を付与します。

エンタープライズコンテキストを含む応答を提供するには、データウェアハウスの構造化データとエンタープライズデータレイクの非構造化データからの洞察を組み合わせて各ユーザープロンプトを強化する必要があります。バックエンドでは、エンタープライズデータレイクを更新するバッチデータエンジニアリングプロセスを拡張して、非構造化データを取り込み、変換、管理する必要があります。変換の一環として、データのプライバシーを確保するためにオブジェクトを処理する必要があります (PII 編集など)。最後に、アクセス制御ポリシーを非構造化データオブジェクトにも拡張する必要があります。ベクターデータストア.

データガバナンスを企業のナレッジソースデータパイプラインとユーザーの要求と応答のワークフローにどのように適用できるかを見てみましょう。

エンタープライズナレッジ: データ管理

次の図は、データパイプラインに関するデータガバナンスの考慮事項と、データガバナンスを適用するためのワークフローをまとめたものです。

上の図では、データエンジニアリングパイプラインには次のデータガバナンスステップが含まれています。

データの進化を通じてカタログを作成および更新します。
データプライバシーポリシーを実装します。
データの種類とソースごとにデータ品質を実装します。
構造化データセットと非構造化データセットをリンクします。
構造化データセットと非構造化データセットに対して、統合されたきめ細かいアクセス制御を実装します。

データパイプラインの主な変更点、つまりデータカタログ化、データ品質、ベクトル埋め込みセキュリティについて詳しく見てみましょう。

データの発見可能性

明確に定義された行と列で管理される構造化データとは異なり、非構造化データはオブジェクトとして保存されます。ユーザーがデータを発見して理解できるようにするための最初のステップは、ソースシステムで生成およびキャプチャされたメタデータを使用して包括的なカタログを構築することです。これは、オブジェクト (ドキュメントやトランスクリプトファイルなど) が関連するソースシステムから raw ゾーンに取り込まれることから始まります。データレイク in Amazon シンプルストレージサービス (Amazon S3) をそれぞれのネイティブ形式で保存します (上の図を参照)。ここから、オブジェクトのメタデータ (ファイル所有者、作成日、機密レベルなど) が抽出され、 Amazon S3 機能を使用してクエリされます。メタデータはデータソースによって異なる場合があるため、フィールドを調べ、必要に応じて必要なフィールドを導出して、必要なすべてのメタデータを完成させることが重要です。たとえば、コンテンツの機密性などの属性がソースアプリケーションのドキュメントレベルでタグ付けされていない場合、メタデータ抽出プロセスの一部としてこれを取得し、データカタログに属性として追加する必要がある場合があります。取り込みプロセスでは、新しいオブジェクトに加えてオブジェクトの更新 (変更、削除) を継続的にキャプチャする必要があります。詳細な実装ガイダンスについては、以下を参照してください。 AWS AI/ML および分析サービスを使用した非構造化データの管理とガバナンス。ビジネス用語集と技術データカタログ間の発見と内省をさらに簡素化するには、次のように使用できます。アマゾンデータゾーンビジネスユーザーがデータサイロ全体に保存されているデータを発見して共有できるようにします。

データプライバシー

企業のナレッジソースには、PII やその他の機密データ (住所や社会保障番号など) が含まれることがよくあります。データプライバシーポリシーに基づいて、これらの要素をダウンストリームのユースケースで使用する前に、ソースから処理 (マスク、トークン化、または編集) する必要があります。 Amazon S3 の raw ゾーンからのオブジェクトは、ダウンストリームの生成 AI モデルで使用される前に処理される必要があります。ここでの重要な要件は次のとおりです PII の特定と編集で実装できます。 Amazon Comprehend。データのコンテキストに影響を与えずにすべての機密データを削除することが常に可能であるとは限らないことに留意することが重要です。意味論的なコンテキストは、生成 AI モデルの出力の精度と関連性を高める重要な要素の 1 つであり、ユースケースから逆算して、プライバシー制御とモデルのパフォーマンスの間で必要なバランスを取ることが重要です。

データの充実

さらに、追加のメタデータをオブジェクトから抽出する必要がある場合があります。 Amazon Comprehend は以下の機能を提供しますエンティティの認識 (たとえば、保険契約番号や保険金請求番号などのドメイン固有のデータの識別) カスタム分類 (たとえば、問題の説明に基づいてカスタマーケアチャットの記録を分類する)。さらに、非構造化データと構造化データを組み合わせて、顧客などの主要なエンティティの全体像を作成する必要がある場合があります。たとえば、航空会社のロイヤルティシナリオでは、顧客とのやり取りの非構造化データキャプチャ (顧客チャット記録や顧客レビューなど) を構造化データシグナル (航空券購入やマイル交換など) とリンクさせて、より完全な情報を作成することに大きな価値があります。これにより、より適切で関連性の高い旅行の推奨を提供できるようになります。 AWS エンティティ解決は、レコードの照合とリンクを支援する ML サービスです。このサービスは、関連する情報セットをリンクして、顧客、製品などの主要なエンティティに関するより深く関連したデータを作成するのに役立ち、LLM 出力の品質と関連性をさらに向上させることができます。これは Amazon S3 の変換ゾーンで利用でき、ベクターストア、微調整、LLM のトレーニングのために下流で使用できるようになります。これらの変換後、Amazon S3 のキュレートされたゾーンでデータを利用できるようになります。

データ品質

生成 AI の可能性を最大限に発揮するための重要な要素は、モデルのトレーニングに使用されるデータと、ユーザー入力に対するモデルの応答を増強および強化するために使用されるデータの品質に依存します。精度、偏り、信頼性の観点からモデルとその結果を理解することは、モデルの構築とトレーニングに使用されるデータの品質に直接比例します。

Amazon SageMakerモデルモニターモデルのデータ品質のドリフトとモデルの品質メトリクスのドリフトの逸脱を事前に検出します。また、モデルの予測と特徴の帰属におけるバイアスドリフトも監視します。詳細については、以下を参照してください。 Amazon SageMaker ModelMonitorを使用して本番環境のMLモデルを大規模に監視する。モデル内のバイアスを検出することは、責任ある AI の基本的な構成要素であり、 Amazon SageMaker の明確化マイナスの結果や精度の低い結果を生み出す可能性のある潜在的なバイアスを検出するのに役立ちます。詳細については、を参照してください。 Amazon SageMaker Clarify がバイアスの検出にどのように役立つかを学ぶ.

生成 AI で新たに焦点が当てられているのは、エンタープライズおよび独自のデータストアからのプロンプトでのデータの使用と品質です。ここで考慮すべき新たなベストプラクティスは次のとおりです。 左シフト、早期かつ積極的な品質保証メカニズムに重点を置いています。生成 AI アプリケーション用のデータを処理するように設計されたデータパイプラインのコンテキストでは、これは、データ品質の問題を上流で早期に特定して解決し、後からデータ品質問題が引き起こす潜在的な影響を軽減することを意味します。 AWS Glue データ品質データレイク、データウェアハウス、トランザクションデータベースに保管されているデータの品質を測定および監視するだけでなく、抽出、変換、ロード (ETL) パイプラインの品質問題を早期に検出して修正し、データを確実に保護することもできます。消費される前に品質基準を満たしていること。詳細については、を参照してください。 AWS Glue データカタログから AWS Glue データ品質を開始する.

ベクターストアのガバナンス

ベクトルデータベースへの埋め込みセマンティック検索や幻覚の軽減などの機能を有効にすることで、生成 AI アプリケーションのインテリジェンスと機能を向上させます。通常、埋め込みにはプライベートな機密データが含まれており、ユーザー入力ワークフローではデータの暗号化が推奨される手順です。 Amazon OpenSearch サーバーレスベクトル埋め込みを保存および検索し、保存データを暗号化します。 AWSキー管理サービス (AWS KMS)。詳細については、を参照してください。 Amazon OpenSearch サーバーレス用のベクターエンジンの紹介、現在プレビュー中。同様に、AWS 上の追加のベクトルエンジンオプションには、以下が含まれます。アマゾンケンドラ & アマゾンオーロラ、AWS KMS を使用して保存データを暗号化します。詳細については、以下を参照してください。保存時の暗号化 & 暗号化を使用したデータの保護.

エンベディングが生成され、ベクターストアに保存されるため、ロールベースのアクセス制御 (RBAC) を使用してデータへのアクセスを制御することが、全体的なセキュリティを維持するための重要な要件になります。 AmazonOpenSearchサービスは、大阪できめ細かいアクセス制御 (FGAC) の機能 AWS IDおよびアクセス管理関連付けることができる (IAM) ルールアマゾンコグニートユーザー。対応するユーザーアクセス制御メカニズムも、によって提供されます。 OpenSearch サーバーレス, アマゾンケンドラ、オーロラ。詳細については、を参照してください。 Amazon OpenSearch Serverless のデータアクセス制御, トークンを使用したドキュメントへのユーザーアクセスの制御, Amazon Aurora の ID とアクセス管理それぞれ。

ユーザーのリクエストとレスポンスのワークフロー

データガバナンスプレーンのコントロールは、全体の一部として生成 AI アプリケーションに統合する必要があります。ソリューションの展開データセキュリティ (役割ベースのアクセス制御に基づく) およびデータプライバシー (機密データへの役割ベースのアクセスに基づく) ポリシーへの準拠を確保します。次の図は、データガバナンスを適用するためのワークフローを示しています。

ワークフローには、次の主要なデータガバナンス手順が含まれます。

コンプライアンスポリシー (バイアスや有害性など) に合わせて有効な入力プロンプトを提供します。
プロンプトのキーワードをデータカタログにマッピングしてクエリを生成します。
ユーザーの役割に基づいて FGAC ポリシーを適用します。
ユーザーの役割に基づいて RBAC ポリシーを適用します。
ユーザーの役割の権限とコンプライアンスポリシーに基づいて、データとコンテンツの編集を応答に適用します。

プロンプトサイクルの一環として、Amazon Comprehend などのサービスを使用してユーザープロンプトを解析し、キーワードを抽出してコンプライアンスポリシーとの整合性を確保する必要があります (「Amazon Comprehend」を参照)。 Amazon Comprehend の新機能 – 毒性検出）または Amazon Bedrock のガードレール (プレビュー)。それが検証され、プロンプトで構造化データの抽出が必要な場合は、データカタログ (ビジネスまたは技術) に対してキーワードを使用して、関連するデータテーブルとフィールドを抽出し、データウェアハウスからクエリを構築できます。ユーザー権限は以下を使用して評価されます。 AWSレイクフォーメーション関連するデータをフィルタリングします。非構造化データの場合、検索結果は、ベクターストアに実装されているユーザー権限ポリシーに基づいて制限されます。最後のステップとして、LLM からの出力応答を、ユーザーのアクセス許可 (データのプライバシーとセキュリティを確保するため) および安全性の遵守 (バイアスや有害性のガイドラインなど) に対して評価する必要があります。

このプロセスは RAG 実装に固有であり、他の LLM 実装戦略にも適用できますが、追加の制御があります。

迅速なエンジニアリング – 呼び出すプロンプトテンプレートへのアクセスは、以下に基づいて制限する必要があります。アクセス制御ビジネスロジックによって強化されます。
微調整モデルとトレーニング基礎モデル – Amazon S3 のキュレートされたゾーンのオブジェクトが基礎モデルを微調整するためのトレーニングデータとして使用される場合、アクセス許可ポリシーを次のように設定する必要があります。 Amazon S3 ID とアクセス管理要件に基づいてバケットまたはオブジェクトレベルで。

まとめ

データガバナンスは、組織がエンタープライズ生成 AI アプリケーションを構築できるようにするために重要です。企業のユースケースが進化し続けるにつれて、プライバシー、セキュリティ、品質ポリシーとの整合性を確保するために、新しく多様な非構造化データセットを管理および管理するためのデータインフラストラクチャを拡張する必要があります。これらのポリシーは、データの取り込み、保存、およびユーザー対話ワークフローとともにエンタープライズナレッジベースの管理の一部として実装および管理する必要があります。これにより、生成 AI アプリケーションは、不正確または間違った情報を共有するリスクを最小限に抑えるだけでなく、有害または中傷的な結果につながる可能性のある偏見や有害性からも確実に保護します。 AWS でのデータガバナンスの詳細については、次を参照してください。データガバナンスとは何ですか？

今後の投稿では、生成 AI ユースケースをサポートするためにデータインフラストラクチャのガバナンスを拡張する方法に関する実装ガイダンスを提供します。

著者について

クリシュナ・ルパナグンタ AWS のデータおよび AI スペシャリストのチームを率いています。彼と彼のチームは顧客と協力して、データ、分析、AI/ML を使用して顧客がより迅速にイノベーションを起こし、より適切な意思決定を行えるよう支援しています。彼には LinkedIn 経由で連絡できます。

Imtiaz（Taz）は言った は、AWS の分析部門の WW テクノロジーリーダーです。彼は、データと分析に関するあらゆることに関してコミュニティと関わることを楽しんでいます。彼には LinkedIn 経由で連絡できます。

ラグベンダー・アルニ (アルニ) AWS 業界内のカスタマーアクセラレーションチーム (CAT) を率いています。 CAT は、顧客対応のクラウドアーキテクト、ソフトウェアエンジニア、データサイエンティスト、AI/ML の専門家とデザイナーからなるグローバルな部門横断型チームであり、高度なプロトタイピングを通じてイノベーションを推進し、専門的な技術的専門知識を通じてクラウドの運用上の卓越性を推進します。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/big-data/data-governance-in-the-age-of-generative-ai/

生成的データインテリジェンス

生成型 AI 時代のデータガバナンス |アマゾンウェブサービス

ユースケースの概要

エンタープライズナレッジ: データ管理

データの発見可能性

データプライバシー

データの充実

データ品質

ベクターストアのガバナンス

ユーザーのリクエストとレスポンスのワークフロー

まとめ

著者について

カーリー・ハンソン、アリス・イン・チェインズの「Nutshell」を心のこもったカバーで追悼

ヒュンダイは、EV需要の鈍化を補うためにさらに多くのハイブリッドを開発する – Autoblog

最新のインテリジェンス

ドレイク、トゥパックのAIボーカルを巡る訴訟で脅迫される

「マグショットエディション」購入者向けのカスタム序数を備えた独占的なトランプビットコインNFT – CryptoInfoNet

企業がナイジェリア人にデジタル金融リテラシートレーニングを提供 – CryptoInfoNet

BDAG が 5 年の有望な仮想通貨プリセールのトップ 2024 をリード

暗号通貨を購入する前に市場センチメントを評価する方法

SOLネットワーク問題とDOT価格予測の中でのBlockDAGの100億ドルの流動性と権利確定期間

生成型 AI 時代のデータ ガバナンス |アマゾン ウェブ サービス

ユースケースの概要

エンタープライズナレッジ: データ管理

データの発見可能性

データプライバシー

データの充実

データ品質

ベクターストアのガバナンス

ユーザーのリクエストとレスポンスのワークフロー

まとめ

著者について

最新のインテリジェンス

生成型 AI 時代のデータガバナンス |アマゾンウェブサービス