ゼファーネットのロゴ

生成 AI の重要な用語の説明 – KDnuggets

日付:

生成 AI の重要な用語の説明
著者による画像
 

ここ数年、特に 12 か月ほど前に ChatGPT が登場して以来、リアルな合成テキスト、画像、ビデオ、オーディオを作成するための生成 AI モデルが登場し、それ以来急速に進歩しています。 地味な研究として始まったものは、前述のさまざまな媒体にわたって高品質で人間のような出力を生成する能力を備えたシステムに急速に発展しました。 特にニューラル ネットワークにおける重要な革新と計算能力の大幅な向上によって推進され、現在、驚くべきペースで能力が向上しているこれらのモデルへの無料および/または有料アクセスを提供する企業が増えています。

ただし、生成 AI は虹や子犬だけではありません。 さまざまなアプリケーションで人間の創造性を拡張するという大きな期待がある一方、これらの生成システムを適切に評価、テストし、責任を持って展開する方法については懸念が残っています。 このテクノロジーによってもたらされる偏見、真実性、社会的影響への懸念とともに、誤った情報の拡散に関連した特に不安があります。

ただし、新しいテクノロジーについて最初に行うべきことは、それを利用したり批判したりする前に、それを理解しようとすることです。 この記事では、それを始めることを計画しました。 私たちは、初歩的な基礎を提供し、今後のより深い学習への道を開くために、いくつかの重要な AI 生成用語を整理し、初心者にとって直感的なレベルで理解できるように最善を尽くすつもりです。 その流れで、以下の主要な用語ごとに関連資料へのリンクが表示され、必要に応じてさらに調査を開始できます。

それでは始めましょう。

自然言語処理

 
自然言語処理 (NLP) は、機械が人間の言語を理解し、解釈し、生成できるようにするために必要なツールをプログラムで提供することに焦点を当てた AI サブ分野です。 NLP は人間のコミュニケーションとコンピューターの理解の間のギャップを埋めます。 NLPを初めて採用 現在の最先端の NLP のほとんどは、さまざまなニューラル ネットワーク技術に依存しています。

ニューラルネットワーク

 
ニューラルネットワーク 機械学習の計算モデルです インスピレーションを受けた (会員登録はお済みでしょうか? のレプリカ) データから学習するために使用される人間の脳。 ニューラル ネットワークは、小さな個々のデータを処理および送信する人工ニューロンの層 (多くの層 = ディープ ラーニング) で構成され、このデータを関数に適合させ、データを「より適切に適合させる」ために処理ニューロンに関連付けられた重みを繰り返し更新します。機能に。 ニューラル ネットワークは、今日の AI の学習機能と意思決定機能に不可欠です。 XNUMX 年ちょっと前に始まったディープラーニング革命がなければ、私たちが AI と呼ぶものの多くは実現できなかったでしょう。

生成AI

 
生成AI は、ニューラル ネットワークを利用した人工知能のカテゴリであり、新しいコンテンツの作成に重点を置いています。 このコンテンツには、テキスト、画像、音声など、さまざまな形式があります。 これは、既存のデータの分類や分析に重点を置き、トレーニング データに基づいて新しいコンテンツを「想像」して生成する能力を具体化する「従来の」タイプの AI とは異なります。

コンテンツ生成

 
コンテンツ生成は、トレーニングされた生成モデルが合成テキスト、画像、ビデオ、およびオーディオを生成する実際のプロセスであり、トレーニング データから学習したパターンを使用してこれを実行し、ユーザーの入力またはプロンプトに応じてコンテキストに関連した出力を生成します。 これらのプロンプトは、前述のいずれかの形式にすることもできます。 たとえば、テキストをプロンプトとして使用して、さらにテキストを生成したり、テキストの説明に基づいて画像を生成したり、代わりに音声やビデオを生成したりすることができます。 同様に、画像をプロンプトとして使用して、別の画像、テキスト、ビデオなどを生成することもできます。たとえば、テキストと画像を使用して音声を生成するマルチモーダル プロンプトも可能です。

大規模な言語モデル

 
大規模な言語モデル (LLM) は、人間の言語を処理して「理解」するように調整された特殊な機械学習モデルです。 LLM は膨大な量のテキスト データでトレーニングされるため、複雑な言語構造、ニュアンス、コンテキストを分析して再現できます。 使用されている正確な LLM モデルとテクニックに関係なく、これらのモデルの本質は、現在の単語やトークン (文字のグループ) に続く次の単語やトークン (文字のグループ) を学習し、予測することです。 LLM は本質的に非常に複雑な「次の単語の推測」であり、おそらく聞いたことがあると思いますが、次の単語の推測を改善することは現在非常にホットな研究テーマです。

基礎モデル

 
基礎モデル は、さまざまな特定のタスクに適応できる幅広い機能を備えて設計された AI システムです。 基礎モデルは、特定のチャットボット、アシスタント、または追加の生成機能用に一般的な言語モデルを調整するなど、より特殊なアプリケーションを構築するためのベースを提供します。 ただし、基本モデルは言語モデルに限定されず、画像やビデオなどの生成タスクにも存在します。 よく知られており、信頼されている基礎モデルの例には、GPT、BERT、安定拡散などがあります。

計測パラメータ

 
この文脈において、パラメーターとは、モデルの構造、動作動作、学習および予測の能力を定義する数値です。 たとえば、OpenAI の GPT-4 の数十億のパラメーターは、その単語予測と対話作成能力に影響を与えます。 より技術的に言えば、ニューラル ネットワーク内の各ニューロン間の接続は重み (前述) を持ち、これらの重みのそれぞれが単一のモデル パラメーターになります。 ニューロンが増えるほど → 重みが増える → パラメータが増える → (よく訓練された) ネットワークの学習と予測の能力が高まります。

単語の埋め込み

 
単語の埋め込み 単語やフレーズをあらかじめ決められた次元数の数値ベクトルに変換し、それぞれのワンホット エンコードに必要なサイズよりもはるかに小さいサイズの多次元空間でその意味や文脈上の関係をキャプチャしようとする手法です。語彙内の単語 (またはフレーズ)。 各行が 500,000 つの単語に対して作成され、問題の単語を表す 0 つの列を除いてその行のすべての列が「500,000」に設定された 500,000 単語の行列を作成すると、行列は 0 x 1 になります。行 x 列であり、信じられないほどまばらです。 これはストレージとパフォーマンスの両方にとって大惨事になります。 列を 300 から XNUMX の間のさまざまな小数値に設定し、列の数をたとえば XNUMX (ディメンション) に減らすことにより、より集中したストレージ構造が得られ、本質的に操作パフォーマンスが向上します。 副作用として、これらの次元の埋め込み値をニューラル ネットワークに学習させることにより、類似の用語は異なる用語よりも次元の値が「近く」なり、相対的な単語の意味についての洞察が得られます。

変圧器モデル

 
変圧器モデル は文全体を同時に処理する AI アーキテクチャであり、言語のコンテキストと長期的な関連性を把握するために重要です。 文中で遠く離れている場合でも、単語やフレーズ間の関係を検出することに優れています。 たとえば、テキストの塊の早い段階で「彼女」が特定の個人を指す名詞および/または代名詞として確立されている場合、変換者はこの関係を「記憶」することができます。

位置エンコーディング

 
位置エンコーディングは、単語の順序を維持するのに役立つトランスフォーマー モデルの方法を指します。 これは、文内および文間のコンテキストを理解するために重要な要素です。

人間のフィードバックからの強化学習

 
ヒューマン フィードバックからの強化学習 (RLHF) は、LLM をトレーニングする方法を指します。 従来の強化学習 (RL) と同様に、RLHF は報酬モデルをトレーニングして使用しますが、これは人間のフィードバックから直接得られます。 報酬モデルは、最適化アルゴリズムを使用して LLM のトレーニングで報酬関数として使用されます。 このモデルは、最適化された LLM に必要な必須の、そしておそらく他の方法では達成できないフィードバックを人間のフィードバックによって提供できることを期待して、モデルのトレーニング中に人間を明示的にループさせます。

緊急時の行動

 
緊急時の行動 大規模で複雑な言語モデルによって示される予期せぬスキル、つまり単純なモデルでは示されないスキルを指します。 これらの予期せぬスキルには、コーディング、作曲、小説執筆などの能力が含まれる場合があります。 これらのスキルはモデルに明示的にプログラムされているわけではなく、複雑なアーキテクチャから現れます。 ただし、創発的な能力に関する質問は、これらのより一般的なスキルを超える場合があります。 たとえば、 心の理論 突発的な行動?

幻覚

 
幻覚 データとアーキテクチャの制約により、LLM が事実に誤りがある、または非論理的な応答を生成する場合に与えられる用語です。 モデルがどのような高度な機能を備えているとしても、これらのエラーは、モデルのトレーニング データに根拠のないクエリが発生した場合と、モデルのトレーニング データが誤った情報または事実と異なる情報で構成されている場合の両方で発生する可能性があります。

擬人化

 
擬人化とは、AI システムに人間のような性質があると考える傾向です。 人間の感情や会話を模倣する能力や、モデルを「それ」ではなく「彼」や「彼女」(またはその他の代名詞)として考える本能にもかかわらず、AI システムは注意することが重要です。感情や意識を持たない。

バイアス

 
バイアスは AI 研究において広く使われている用語であり、さまざまなものを指します。 ここでの文脈では、バイアスとは、歪んだトレーニング データによって引き起こされる AI 出力のエラーを指し、不正確、攻撃的、または誤解を招く予測につながります。 バイアスは、アルゴリズムが意味のあるパターンよりも無関係なデータ特性を優先する場合、または意味のあるパターンがまったくない場合に発生します。

 
 

マシュー・メイヨー (@ mattmayo13) は、コンピューター サイエンスの修士号とデータ マイニングの大学院卒業証書を取得しています。 KDnuggets の編集長として、Matthew は複雑なデータ サイエンスの概念をアクセスしやすくすることを目指しています。 彼の専門的な関心には、自然言語処理、機械学習アルゴリズム、新興 AI の探索などがあります。 彼は、データ サイエンス コミュニティの知識を民主化するという使命に突き動かされています。 マシューは 6 歳の頃からコーディングを続けています。

スポット画像

最新のインテリジェンス

スポット画像