ゼファーネットのロゴ

エンタープライズ AI におけるデータの取り込みと統合の重要性 – IBM ブログ

日付:


エンタープライズ AI におけるデータの取り込みと統合の重要性 – IBM ブログ



粘着ノートにアイデアを書く若い女性と男性の同僚

生成型 AI の出現により、機密の内部データが誤って扱われたとして、いくつかの著名な企業がその使用を制限するようになりました。 CNNによると、 一部の企業は、テクノロジーへの理解を深めるために生成 AI ツールを社内で禁止しており、多くの企業は社内の ChatGPT の使用もブロックしています。

大規模言語モデル (LLM) を検討する際、企業は依然として内部データを使用するリスクを受け入れることがよくあります。これは、このコンテキスト データによって LLM が汎用の知識からドメイン固有の知識に変更できるためです。生成 AI または従来の AI 開発サイクルでは、データの取り込みがエントリ ポイントとして機能します。ここでは、企業の要件に合わせた生データを収集、前処理、マスクして、LLM またはその他のモデルに適した形式に変換できます。現在、データ取り込みの課題を克服するための標準化されたプロセスは存在しませんが、モデルの精度はそれに依存します。

 データの取り込みが不十分な場合の 4 つのリスク

  1. 誤った情報の生成: LLM が汚染されたデータ (エラーまたは不正確さを含むデータ) でトレーニングされると、不正確な回答が生成され、欠陥のある意思決定や連鎖的な問題が発生する可能性があります。 
  2. 分散の増加: 分散は一貫性を測定します。データが不十分だと、時間の経過とともに答えが変化したり、誤解を招く外れ値が生じたりする可能性があり、特に小規模なデータセットに影響を与えます。モデルの分散が大きい場合は、モデルがトレーニング データでは機能するものの、実際の業界のユースケースには不適切であることを示している可能性があります。
  3. データ範囲が限られており、代表的ではない回答: データ ソースが限定的、均質である、または誤った重複が含まれている場合、サンプリング バイアスなどの統計的エラーにより、すべての結果が歪められる可能性があります。これにより、モデルが地域、部門、人口統計、業界、または情報源全体を会話から除外する可能性があります。
  4. 偏ったデータを修正する際の課題: 最初からデータに偏りがあれば、「そのデータの一部を遡って削除する唯一の方法は、アルゴリズムを最初から再トレーニングすることです」 LLM モデルは、ベクトル化されたときに、代表的ではないデータや汚染されたデータから導き出された回答を元に戻すことは困難です。これらのモデルは、以前に同化された回答に基づいて理解を強化する傾向があります。

データの取り込みは最初から適切に行う必要があります。データの取り込みを誤ると、新たな問題が多数発生する可能性があります。 AI モデルのトレーニング データの基礎は、飛行機の操縦に似ています。離陸角度が 1 度ずれると、予想よりもまったく新しい大陸に着陸する可能性があります。

生成 AI パイプライン全体は、それを実現するデータ パイプラインに依存しているため、正しい予防策を講じることが不可欠です。

信頼性の高いデータ取り込みを保証する 4 つの主要コンポーネント

  1. データの品質とガバナンス: データ品質とは、データ ソースのセキュリティを確保し、全体的なデータを維持し、明確なメタデータを提供することを意味します。これには、Web スクレイピングやアップロードなどの方法による新しいデータの操作が必要になる場合もあります。 データガバナンス これは、法律および企業のベスト プラクティスへのコンプライアンスを確保するために、データ ライフサイクルの継続的なプロセスです。
  2. データ統合: これらのツールを使用すると、企業は異種のデータ ソースを 1 つの安全な場所に統合できます。一般的な方法は、抽出、ロード、変換 (ELT) です。 ELT システムでは、サイロ化されたウェアハウスからデータ セットが選択され、変換されて、ソースまたはターゲットのデータ プールにロードされます。 ELT ツールなど IBM® DataStage® 並列処理エンジンを通じて高速かつ安全な変換を促進します。 2023 年には、平均的な企業は数百の異種データ ストリームを受信し、従来の AI モデルと新しい AI モデルの開発には効率的かつ正確なデータ変換が不可欠になります。
  3. データのクリーニングと前処理: これには、特定の LLM トレーニング要件、オーケストレーション ツール、またはデータ型を満たすためのデータのフォーマットが含まれます。テキスト データはチャンク化またはトークン化でき、画像データは埋め込みとして保存できます。データ統合ツールを使用して、包括的な変換を実行できます。また、重複を削除したり、データ型を変更したりして、生データを直接操作する必要がある場合もあります。
  4. データストレージ: データがクリーンアップされ、処理された後は、データの保管に関する課題が生じます。ほとんどのデータはクラウドまたはオンプレミスでホストされているため、企業はデータの保存場所を決定する必要があります。個人データ、内部文書、顧客データなどの機密情報を扱うために外部 LLM を使用する場合は、注意することが重要です。ただし、LLM は、検索拡張生成 (RAG) ベースのアプローチの微調整または実装において重要な役割を果たします。リスクを軽減するには、できるだけ多くのデータ統合プロセスを内部サーバーで実行することが重要です。考えられる解決策の 1 つは、 のようなリモート ランタイム オプションを使用することです。

IBM でデータの取り込みを始めましょう

IBM DataStage は、さまざまなツールを組み合わせることによってデータ統合を合理化し、ハイブリッド クラウド環境で AI トレーニング モデルに必要なデータを簡単に取得、整理、変換、保存できるようにします。あらゆるスキル レベルのデータ実務者が、ノーコード GUI を使用してツールを使用したり、ガイド付きカスタム コードを使用して API にアクセスしたりできます。

新しい DataStage as a Service Anywhere リモート ランタイム オプションにより、データ変換を柔軟に実行できます。どこからでも並列エンジンを使用できるようになります, これにより、その位置をかつてないほど制御できるようになります。 DataStage as a Service Anywhere は軽量コンテナとしてマニフェストされ、あらゆる環境ですべてのデータ変換機能を実行できます。これにより、仮想プライベート クラウド内でデータの統合、クリーニング、前処理を実行するときに、不適切なデータ取り込みによる落とし穴の多くを回避できます。 DataStage を使用すると、セキュリティ、データの品質、有効性を完全に制御し、生成 AI イニシアチブのためのすべてのデータ ニーズに対応できます。

生成 AI で達成できることに事実上制限はありませんが、モデルが使用するデータには制限があり、そのデータがすべての違いを生む可能性があります。

詳細についてはミーティングを予約してください

データ統合トライアルで DataStage を試す


人工知能の詳細




IBM の新しい watsonx 大規模音声モデルは、生成 AI を電話にもたらします

3 分読みます生成 AI は、その驚くべきテキストおよび画像生成機能を通じて私たちの日常用語集に登場し、企業の中核的なビジネス機能の処理方法における革命として期待されているため、ほとんどの人は大規模言語モデル (LLM) について聞いたことがあるでしょう。今では、チャット インターフェースを通じて AI と会話したり、AI に特定のタスクを実行させたりするという考えが、これまで以上に具体的な現実になっています。個人としての日々の経験にプラスの影響を与えるこのテクノロジーの導入に向けて、大きな進歩が見られています。




知っておくべき 5 つの機械学習の種類

5 分読みます機械学習 (ML) テクノロジーは、医療から人事、金融に至るまで、事実上すべての業界で意思決定を推進でき、またコンピューター ビジョン、大規模言語モデル (LLM)、音声認識、自動運転車などの無数のユースケースでも意思決定を推進できます。ただし、ML の影響力の増大には複雑さが伴います。 ML テクノロジーの基盤となる検証データセットとトレーニング データセットは人間によって集約されることが多く、人間はバイアスを受けやすく、間違いを犯しやすいものです。 ML モデル自体にバイアスがない場合でも…




成功した組織が従うべき顧客サービスのトレンド

4 分読みます最新の顧客サービスのトレンドに注意を払うことで、組織は変化する顧客の期待に応える準備ができています。 新型コロナウイルス感染症のパンデミック、社会的影響、ブランドの切り替えの容易さなどにより、顧客ロイヤルティは低下しつつある。 組織は顧客満足度を向上させ、高まる顧客ニーズに応えるために、顧客サービス エクスペリエンスの変化をこれまで以上に把握する必要があります。 19 年の Gartner 調査によると、リーダーの 2023% がビジネスの成長を最も重要な目標の 58 つと認識していることがわかりました。




知っておくべき XNUMX つのオープンソース AI ツール

5 分読みますオープンソースの人工知能 (AI) とは、ソース コードが誰でも自由に使用、変更、配布できる AI テクノロジを指します。 AI アルゴリズム、事前トレーニングされたモデル、データ セットが一般公開や実験に利用できるようになると、ボランティア愛好家のコミュニティが既存の成果を基にして、実用的な AI ソリューションの開発を加速するにつれて、創造的な AI アプリケーションが出現します。結果として、これらのテクノロジーは、多くの企業のユースケースにわたる複雑な課題に対処するための最良のツールにつながることがよくあります。

IBM ニュースレター

最新の思想的リーダーシップと新たなトレンドに関する洞察を提供するニュースレターとトピックの最新情報を入手してください。

今すぐ会員登録します。

その他のニュースレター

スポット画像

最新のインテリジェンス

スポット画像