エンタープライズ AI におけるデータの取り込みと統合の重要性 - IBM ブログ

エンタープライズ AI におけるデータの取り込みと統合の重要性 – IBM ブログ

生成型 AI の出現により、機密の内部データが誤って扱われたとして、いくつかの著名な企業がその使用を制限するようになりました。 CNNによると、一部の企業は、テクノロジーへの理解を深めるために生成 AI ツールを社内で禁止しており、多くの企業は社内の ChatGPT の使用もブロックしています。

大規模言語モデル (LLM) を検討する際、企業は依然として内部データを使用するリスクを受け入れることがよくあります。これは、このコンテキストデータによって LLM が汎用の知識からドメイン固有の知識に変更できるためです。生成 AI または従来の AI 開発サイクルでは、データの取り込みがエントリポイントとして機能します。ここでは、企業の要件に合わせた生データを収集、前処理、マスクして、LLM またはその他のモデルに適した形式に変換できます。現在、データ取り込みの課題を克服するための標準化されたプロセスは存在しませんが、モデルの精度はそれに依存します。

データの取り込みが不十分な場合の 4 つのリスク

誤った情報の生成: LLM が汚染されたデータ (エラーまたは不正確さを含むデータ) でトレーニングされると、不正確な回答が生成され、欠陥のある意思決定や連鎖的な問題が発生する可能性があります。
分散の増加: 分散は一貫性を測定します。データが不十分だと、時間の経過とともに答えが変化したり、誤解を招く外れ値が生じたりする可能性があり、特に小規模なデータセットに影響を与えます。モデルの分散が大きい場合は、モデルがトレーニングデータでは機能するものの、実際の業界のユースケースには不適切であることを示している可能性があります。
データ範囲が限られており、代表的ではない回答: データソースが限定的、均質である、または誤った重複が含まれている場合、サンプリングバイアスなどの統計的エラーにより、すべての結果が歪められる可能性があります。これにより、モデルが地域、部門、人口統計、業界、または情報源全体を会話から除外する可能性があります。
偏ったデータを修正する際の課題: 最初からデータに偏りがあれば、「そのデータの一部を遡って削除する唯一の方法は、アルゴリズムを最初から再トレーニングすることです」 LLM モデルは、ベクトル化されたときに、代表的ではないデータや汚染されたデータから導き出された回答を元に戻すことは困難です。これらのモデルは、以前に同化された回答に基づいて理解を強化する傾向があります。

データの取り込みは最初から適切に行う必要があります。データの取り込みを誤ると、新たな問題が多数発生する可能性があります。 AI モデルのトレーニングデータの基礎は、飛行機の操縦に似ています。離陸角度が 1 度ずれると、予想よりもまったく新しい大陸に着陸する可能性があります。

生成 AI パイプライン全体は、それを実現するデータパイプラインに依存しているため、正しい予防策を講じることが不可欠です。

信頼性の高いデータ取り込みを保証する 4 つの主要コンポーネント

データの品質とガバナンス: データ品質とは、データソースのセキュリティを確保し、全体的なデータを維持し、明確なメタデータを提供することを意味します。これには、Web スクレイピングやアップロードなどの方法による新しいデータの操作が必要になる場合もあります。データガバナンスこれは、法律および企業のベストプラクティスへのコンプライアンスを確保するために、データライフサイクルの継続的なプロセスです。
データ統合： これらのツールを使用すると、企業は異種のデータソースを 1 つの安全な場所に統合できます。一般的な方法は、抽出、ロード、変換 (ELT) です。 ELT システムでは、サイロ化されたウェアハウスからデータセットが選択され、変換されて、ソースまたはターゲットのデータプールにロードされます。 ELT ツールなど IBM® DataStage® 並列処理エンジンを通じて高速かつ安全な変換を促進します。 2023 年には、平均的な企業は数百の異種データストリームを受信し、従来の AI モデルと新しい AI モデルの開発には効率的かつ正確なデータ変換が不可欠になります。
データのクリーニングと前処理: これには、特定の LLM トレーニング要件、オーケストレーションツール、またはデータ型を満たすためのデータのフォーマットが含まれます。テキストデータはチャンク化またはトークン化でき、画像データは埋め込みとして保存できます。データ統合ツールを使用して、包括的な変換を実行できます。また、重複を削除したり、データ型を変更したりして、生データを直接操作する必要がある場合もあります。
データストレージ： データがクリーンアップされ、処理された後は、データの保管に関する課題が生じます。ほとんどのデータはクラウドまたはオンプレミスでホストされているため、企業はデータの保存場所を決定する必要があります。個人データ、内部文書、顧客データなどの機密情報を扱うために外部 LLM を使用する場合は、注意することが重要です。ただし、LLM は、検索拡張生成 (RAG) ベースのアプローチの微調整または実装において重要な役割を果たします。リスクを軽減するには、できるだけ多くのデータ統合プロセスを内部サーバーで実行することが重要です。考えられる解決策の 1 つは、のようなリモートランタイムオプションを使用することです。

IBM でデータの取り込みを始めましょう

IBM DataStage は、さまざまなツールを組み合わせることによってデータ統合を合理化し、ハイブリッドクラウド環境で AI トレーニングモデルに必要なデータを簡単に取得、整理、変換、保存できるようにします。あらゆるスキルレベルのデータ実務者が、ノーコード GUI を使用してツールを使用したり、ガイド付きカスタムコードを使用して API にアクセスしたりできます。

新しい DataStage as a Service Anywhere リモートランタイムオプションにより、データ変換を柔軟に実行できます。どこからでも並列エンジンを使用できるようになります, これにより、その位置をかつてないほど制御できるようになります。 DataStage as a Service Anywhere は軽量コンテナとしてマニフェストされ、あらゆる環境ですべてのデータ変換機能を実行できます。これにより、仮想プライベートクラウド内でデータの統合、クリーニング、前処理を実行するときに、不適切なデータ取り込みによる落とし穴の多くを回避できます。 DataStage を使用すると、セキュリティ、データの品質、有効性を完全に制御し、生成 AI イニシアチブのためのすべてのデータニーズに対応できます。

生成 AI で達成できることに事実上制限はありませんが、モデルが使用するデータには制限があり、そのデータがすべての違いを生む可能性があります。

詳細についてはミーティングを予約してください

データ統合トライアルで DataStage を試す

プロダクトマネージャー、イノベーションリーダー

人工知能の詳細

リビングルームの机に座り、電話を手に微笑みながら、もう一方の手はラップトップを持っている人

2024 年 1 月 3 日

IBM の新しい watsonx 大規模音声モデルは、生成 AI を電話にもたらします

3 分読みます – 生成 AI は、その驚くべきテキストおよび画像生成機能を通じて私たちの日常用語集に登場し、企業の中核的なビジネス機能の処理方法における革命として期待されているため、ほとんどの人は大規模言語モデル (LLM) について聞いたことがあるでしょう。今では、チャットインターフェースを通じて AI と会話したり、AI に特定のタスクを実行させたりするという考えが、これまで以上に具体的な現実になっています。個人としての日々の経験にプラスの影響を与えるこのテクノロジーの導入に向けて、大きな進歩が見られています。

2023 年 12 月 20 日

知っておくべき 5 つの機械学習の種類

5 分読みます – 機械学習 (ML) テクノロジーは、医療から人事、金融に至るまで、事実上すべての業界で意思決定を推進でき、またコンピュータービジョン、大規模言語モデル (LLM)、音声認識、自動運転車などの無数のユースケースでも意思決定を推進できます。ただし、ML の影響力の増大には複雑さが伴います。 ML テクノロジーの基盤となる検証データセットとトレーニングデータセットは人間によって集約されることが多く、人間はバイアスを受けやすく、間違いを犯しやすいものです。 ML モデル自体にバイアスがない場合でも…

2023 年 12 月 15 日

成功した組織が従うべき顧客サービスのトレンド

4 分読みます – 最新の顧客サービスのトレンドに注意を払うことで、組織は変化する顧客の期待に応える準備ができています。新型コロナウイルス感染症のパンデミック、社会的影響、ブランドの切り替えの容易さなどにより、顧客ロイヤルティは低下しつつある。組織は顧客満足度を向上させ、高まる顧客ニーズに応えるために、顧客サービスエクスペリエンスの変化をこれまで以上に把握する必要があります。 19 年の Gartner 調査によると、リーダーの 2023% がビジネスの成長を最も重要な目標の 58 つと認識していることがわかりました。

2023 年 12 月 15 日

知っておくべき XNUMX つのオープンソース AI ツール

5 分読みます – オープンソースの人工知能 (AI) とは、ソースコードが誰でも自由に使用、変更、配布できる AI テクノロジを指します。 AI アルゴリズム、事前トレーニングされたモデル、データセットが一般公開や実験に利用できるようになると、ボランティア愛好家のコミュニティが既存の成果を基にして、実用的な AI ソリューションの開発を加速するにつれて、創造的な AI アプリケーションが出現します。結果として、これらのテクノロジーは、多くの企業のユースケースにわたる複雑な課題に対処するための最良のツールにつながることがよくあります。

IBM ニュースレター

最新の思想的リーダーシップと新たなトレンドに関する洞察を提供するニュースレターとトピックの最新情報を入手してください。

今すぐ会員登録します。

その他のニュースレター

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://www.ibm.com/blog/the-importance-of-data-ingestion-and-integration-for-enterprise-ai/

生成的データインテリジェンス

エンタープライズ AI におけるデータの取り込みと統合の重要性 – IBM ブログ

データの取り込みが不十分な場合の 4 つのリスク

信頼性の高いデータ取り込みを保証する 4 つの主要コンポーネント

IBM でデータの取り込みを始めましょう

人工知能の詳細

IBM の新しい watsonx 大規模音声モデルは、生成 AI を電話にもたらします

知っておくべき 5 つの機械学習の種類

成功した組織が従うべき顧客サービスのトレンド

知っておくべき XNUMX つのオープンソース AI ツール

IBM ニュースレター

BDAG が 5 年の有望な仮想通貨プリセールのトップ 2024 をリード

暗号通貨を購入する前に市場センチメントを評価する方法

最新のインテリジェンス

SOLネットワーク問題とDOT価格予測の中でのBlockDAGの100億ドルの流動性と権利確定期間

Rainbet とクリプトカジノ: パックのリーダー

ビットコインの大惨事：仮想通貨アナリストが8％の価格下落で「デスクロス」を指摘

AIEMP、革新的な AI セキュリティプロジェクトの立ち上げを発表

SECに対するバイナンスの弁護はマンゴー・マーケット事件によって支援される可能性がある

英国の法執行機関、犯罪者に関連するデジタル資産を押収、破壊する新たな権限を付与