生成型 AI の出現により、機密の内部データが誤って扱われたとして、いくつかの著名な企業がその使用を制限するようになりました。 CNNによると、 一部の企業は、テクノロジーへの理解を深めるために生成 AI ツールを社内で禁止しており、多くの企業は社内の ChatGPT の使用もブロックしています。
大規模言語モデル (LLM) を検討する際、企業は依然として内部データを使用するリスクを受け入れることがよくあります。これは、このコンテキスト データによって LLM が汎用の知識からドメイン固有の知識に変更できるためです。生成 AI または従来の AI 開発サイクルでは、データの取り込みがエントリ ポイントとして機能します。ここでは、企業の要件に合わせた生データを収集、前処理、マスクして、LLM またはその他のモデルに適した形式に変換できます。現在、データ取り込みの課題を克服するための標準化されたプロセスは存在しませんが、モデルの精度はそれに依存します。
データの取り込みが不十分な場合の 4 つのリスク
- 誤った情報の生成: LLM が汚染されたデータ (エラーまたは不正確さを含むデータ) でトレーニングされると、不正確な回答が生成され、欠陥のある意思決定や連鎖的な問題が発生する可能性があります。
- 分散の増加: 分散は一貫性を測定します。データが不十分だと、時間の経過とともに答えが変化したり、誤解を招く外れ値が生じたりする可能性があり、特に小規模なデータセットに影響を与えます。モデルの分散が大きい場合は、モデルがトレーニング データでは機能するものの、実際の業界のユースケースには不適切であることを示している可能性があります。
- データ範囲が限られており、代表的ではない回答: データ ソースが限定的、均質である、または誤った重複が含まれている場合、サンプリング バイアスなどの統計的エラーにより、すべての結果が歪められる可能性があります。これにより、モデルが地域、部門、人口統計、業界、または情報源全体を会話から除外する可能性があります。
- 偏ったデータを修正する際の課題: 最初からデータに偏りがあれば、「そのデータの一部を遡って削除する唯一の方法は、アルゴリズムを最初から再トレーニングすることです」 LLM モデルは、ベクトル化されたときに、代表的ではないデータや汚染されたデータから導き出された回答を元に戻すことは困難です。これらのモデルは、以前に同化された回答に基づいて理解を強化する傾向があります。
データの取り込みは最初から適切に行う必要があります。データの取り込みを誤ると、新たな問題が多数発生する可能性があります。 AI モデルのトレーニング データの基礎は、飛行機の操縦に似ています。離陸角度が 1 度ずれると、予想よりもまったく新しい大陸に着陸する可能性があります。
生成 AI パイプライン全体は、それを実現するデータ パイプラインに依存しているため、正しい予防策を講じることが不可欠です。
信頼性の高いデータ取り込みを保証する 4 つの主要コンポーネント
- データの品質とガバナンス: データ品質とは、データ ソースのセキュリティを確保し、全体的なデータを維持し、明確なメタデータを提供することを意味します。これには、Web スクレイピングやアップロードなどの方法による新しいデータの操作が必要になる場合もあります。 データガバナンス これは、法律および企業のベスト プラクティスへのコンプライアンスを確保するために、データ ライフサイクルの継続的なプロセスです。
- データ統合: これらのツールを使用すると、企業は異種のデータ ソースを 1 つの安全な場所に統合できます。一般的な方法は、抽出、ロード、変換 (ELT) です。 ELT システムでは、サイロ化されたウェアハウスからデータ セットが選択され、変換されて、ソースまたはターゲットのデータ プールにロードされます。 ELT ツールなど IBM® DataStage® 並列処理エンジンを通じて高速かつ安全な変換を促進します。 2023 年には、平均的な企業は数百の異種データ ストリームを受信し、従来の AI モデルと新しい AI モデルの開発には効率的かつ正確なデータ変換が不可欠になります。
- データのクリーニングと前処理: これには、特定の LLM トレーニング要件、オーケストレーション ツール、またはデータ型を満たすためのデータのフォーマットが含まれます。テキスト データはチャンク化またはトークン化でき、画像データは埋め込みとして保存できます。データ統合ツールを使用して、包括的な変換を実行できます。また、重複を削除したり、データ型を変更したりして、生データを直接操作する必要がある場合もあります。
- データストレージ: データがクリーンアップされ、処理された後は、データの保管に関する課題が生じます。ほとんどのデータはクラウドまたはオンプレミスでホストされているため、企業はデータの保存場所を決定する必要があります。個人データ、内部文書、顧客データなどの機密情報を扱うために外部 LLM を使用する場合は、注意することが重要です。ただし、LLM は、検索拡張生成 (RAG) ベースのアプローチの微調整または実装において重要な役割を果たします。リスクを軽減するには、できるだけ多くのデータ統合プロセスを内部サーバーで実行することが重要です。考えられる解決策の 1 つは、 のようなリモート ランタイム オプションを使用することです。
IBM でデータの取り込みを始めましょう
IBM DataStage は、さまざまなツールを組み合わせることによってデータ統合を合理化し、ハイブリッド クラウド環境で AI トレーニング モデルに必要なデータを簡単に取得、整理、変換、保存できるようにします。あらゆるスキル レベルのデータ実務者が、ノーコード GUI を使用してツールを使用したり、ガイド付きカスタム コードを使用して API にアクセスしたりできます。
新しい DataStage as a Service Anywhere リモート ランタイム オプションにより、データ変換を柔軟に実行できます。どこからでも並列エンジンを使用できるようになります, これにより、その位置をかつてないほど制御できるようになります。 DataStage as a Service Anywhere は軽量コンテナとしてマニフェストされ、あらゆる環境ですべてのデータ変換機能を実行できます。これにより、仮想プライベート クラウド内でデータの統合、クリーニング、前処理を実行するときに、不適切なデータ取り込みによる落とし穴の多くを回避できます。 DataStage を使用すると、セキュリティ、データの品質、有効性を完全に制御し、生成 AI イニシアチブのためのすべてのデータ ニーズに対応できます。
生成 AI で達成できることに事実上制限はありませんが、モデルが使用するデータには制限があり、そのデータがすべての違いを生む可能性があります。
人工知能の詳細
IBM ニュースレター
最新の思想的リーダーシップと新たなトレンドに関する洞察を提供するニュースレターとトピックの最新情報を入手してください。
今すぐ会員登録します。
その他のニュースレター
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://www.ibm.com/blog/the-importance-of-data-ingestion-and-integration-for-enterprise-ai/