ゼファーネットのロゴ

生成 AI の歴史 – DATAVERSITY

日付:

generative AIgenerative AI
Ole.CNX / シャッターストック

生成 AI の歴史はかなり浅く、このテクノロジーは 1960 年代にチャットボットの形で最初に導入されました。これは人工知能の一種で、現在高品質のテキスト、画像、ビデオ、オーディオ、合成データを数秒で生成できます。しかし、生成 AI が現実の人々の本物の録音のように見える画像、ビデオ、オーディオを作成できるまでに進化したのは、敵対的生成ネットワーク (GAN) の概念が導入された 2014 年になってからでした。

現在、生成 AI は ChatGPT とそのバリエーションの主要コンポーネントです。

1950s

生成 AI のベースとなるのは、 機械学習 そして深層学習アルゴリズム。最初の機械学習アルゴリズムは、1952 年にアーサー サミュエルによってチェッカーをプレイするために開発されました。彼は「機械学習」という言葉も思いつきました。

トレーニング可能な最初の「ニューラル ネットワーク」は、 パーセプトロン、1957年にコーネル大学の心理学者フランク・ローゼンブラットによって開発されました。パーセプトロンの設計は現代のニューラル ネットワークに非常に似ていますが、調整可能なしきい値と重みを含む「XNUMX つの」層のみがあり、入力層と出力層が分離されていました。このシステムは時間がかかりすぎたため失敗しました。

1960年代と1970年代

歴史上最初の生成 AI の例は ELIZA と呼ばれました。チャットボットの初期バージョンと考えることもできます。 1961 年にジョセフ ヴァイゼンバウムによって作成されました。 エリザ これは、自然言語と共感的に聞こえるように設計された応答を使用して、人間に応答する会話コンピューター プログラムでした。

1960 年代から 70 年代にかけて、コンピューター ビジョンといくつかの基本的な認識パターンの基礎研究が行われました。アン B. レスク、レオン D. ハーモン、AJ ゴールドスタインがその精度を大幅に向上させたとき、顔認識は劇的な飛躍を遂げました (人間の顔の識別におけるマンマシンインタラクション、1972)。研究チームは、顔を自動的に識別するために、唇の厚さや髪の色などの特徴を含む 21 個の特定のマーカーを開発しました。 

1970 年代に、Seppo Linnainmaa によってバックプロパゲーションが使用され始めました。用語 "誤差逆伝播法」は、学習プロセスの一部として、エラーを後方に伝播するプロセスです。必要な手順は次のとおりです。

  1. 出力側で処理される
  2. 逆方向に配布するために送信されました 
  3. トレーニングと学習のためにネットワークの層を移動します 

(バックプロパゲーションはディープ ニューラル ネットワークのトレーニングに使用されます。) 

最初の AI 冬が機械学習と人工知能を分ける

初めての AI の冬 始まって終わった およそ 1973 年から 1979 年まで – 約束はされましたが、期待は守られませんでした。人工知能の研究に資金を提供していた機関(DARPA、NRC、英国政府)は、人工知能の開発が前進していないことに突然困惑した。 

ただし、機械学習 (ML) は進化し続けました。まだ政府からの資金提供を受けていたからではなく、機械学習が対応ツールとしてビジネスにとって非常に役立つものになったからです。 機械学習 は AI のトレーニング手法として開始されましたが、電話に応答したり、適切な人に電話を転送したりするなどの単純なタスクの実行にも使用できることが判明しました。 ML プログラムはインテリジェントな会話を行うことはできませんが、基本的ではあるが非常に便利なタスクを実行できます。企業は、コスト効率が高く便利なツールを手放すことに興味がありませんでした。

企業は機械学習の開発のために自社の研究に資金を提供することを選択し、元研究者は 1990 年代に再び AI と合併するまで、別の業界に再編されました。

ニューラル ネットワークは 1944 年にシカゴ大学の XNUMX 人の研究者、ウォーレン マカローとウォルター ピッツによって最初の機能的な「多層」人工ニューラル ネットワークとして提案されましたが、 コグニトロン, 1975年に福島邦彦氏によって開発されました。

ニューラル ネットワークは、機械学習と深層学習の使用の基礎を築きます。その設計は入力層と出力層をサポートしており、それらの間にある隠れ層は入力データを変換するために使用され、出力層にとって有用になります。この新しいデザインにより、顔認識と音声認識が劇的に向上しました。隠れ層は深層学習の基盤も提供します。

1979年には、 福島邦彦 彼は、階層的、多層の人工ニューラル ネットワークを開発することを提案し、それを彼が名付けました。 ネオコグニトロン。これは最初の深層学習ニューラル ネットワークでした。彼の設計は、視覚パターン、より具体的には手書き文字認識を識別する方法を学習するコンピューターの能力をサポートしました。彼の設計では、重要なデータを手動で調整することもでき、人間が特定の接続の「重み」を増やすことができました。

1980 年代と第 XNUMX 回 AI の冬

1982 年に、新しい形式のニューラル ネットワークを開発したジョン ホップフィールドによって別の発見が行われました。 ホップフィールドネット – まったく異なるアプローチを使用します。ホップフィールド ネットは、以前のシステムよりも人間の脳が行うのと同じように記憶を収集し、取得しました。

しかし、第二次 AI の冬はおよそ 1984 年に始まり、1990 年まで続き、人工知能と生成 AI の開発が遅れました。約束を破られ、期待を裏切られたことに対する怒りと不満は非常に強烈だったので、「人工知能」という用語は疑似科学の地位を獲得し、しばしば軽蔑をもって語られました。 AI に関しては広範な懐疑的な見方が広がっていました。残念ながら、AI と深層学習の研究の大部分に対する資金は削減されました。

1986 年に、デビッド・ルメルハートと彼のチームは、 新しい方法 1970 年代に開発されたバックプロパゲーション技術を使用したニューラル ネットワークのトレーニング。

1980 年代後半、MOS (金属酸化物半導体)、1959 年に開発) は VLSI (非常に大規模な統合) より実用的で効率的な人工ニューラル ネットワークを提供しました。この組み合わせはと呼ばれていました 相補型MOS (またはCMOS)。

ディープラーニングは 1989 年に機能的に現実のものとなりました。Yann LeCun と彼のチームは、ニューラル ネットワークによる逆伝播アルゴリズムを使用して手書きの郵便番号を認識しました。

深い学習 アルゴリズムを使用してデータを処理し、人間の思考プロセスを模倣します。データを処理し、物体を視覚的に認識し、人間の音声を理解するように設計されたアルゴリズムの層を採用しています。データは各層を通過し、前の層からの出力が次の層に必要な入力を表します。ディープ ラーニングでは、使用される追加レイヤーにより高レベルの「抽象化」が提供され、より適切な予測とより適切な分類が生成されます。使用するレイヤーが多いほど、より適切な予測が可能になる可能性が高くなります。 

ディープラーニングは、画像認識、音声認識をサポートし、膨大な量のデータを処理する非常に有用なトレーニング プロセスとなっています。

1990 年代と AI 研究の回復

1990 年代に人工知能への資金提供が再び始まったため、トレーニング メカニズムとしての機械学習にも資金提供が行われました。機械学習業界は、AI の第 1990 の冬を通じてニューラル ネットワークの研究を続け、XNUMX 年代に繁栄し始めました。機械学習の継続的な成功の多くは、文字認識と音声認識の使用と、インターネットの圧倒的な成長とパーソナル コンピューターの使用によるものです。

「ブースト」の概念は 1990 年の論文で共有されました。 弱い学習能力の強み、ロバート・シャパイア著。彼は、一連の弱い学習器から 1 つの強い学習器を作成できると説明しました。 ブースティングアルゴリズム 教師あり学習プロセス中のバイアスを軽減し、複数の弱い学習器を少数の強力な学習器に変換できる機械学習アルゴリズムを組み込みます。 (弱い学習者は、わずか 50% の確率で正しい予測を行います。) 

コンピューター ゲーム業界は、生成 AI の進化に貢献したことで多大な評価を受けるに値します。 3Dグラフィックスカードグラフィック プロセッシング ユニット (GPU) の前身である は、ビデオ ゲームにおけるグラフィックスのプレゼンテーションを改善するために 1990 年代初頭に初めて導入されました。 

1997 年、ユルゲン・シュミットフーバーとゼップ・ホッホライターは「長期短期記憶」 (LSTM) はリカレント ニューラル ネットワークで使用されます。現在、音声認識トレーニングの大部分ではこの技術が使用されています。 LSTM は、数千ステップ前の出来事をカバーする記憶が必要で、会話中に重要になることが多い学習タスクをサポートします。

Nvidia (多くのゲーム テクノロジの進歩に貢献) は、1999 年に計算速度が XNUMX 倍向上した高度な GPU を開発しました。彼らの最初の GPU は、 GeForce 256

GPU がビデオ ゲーム以外にも使用できるということは、驚くべき認識でした。新しい GPU は人工ニューラル ネットワークに適用され、驚くほど肯定的な結果が得られました。 GPU 中央処理装置と比較して、チップあたり約 200 倍のプロセッサ数を使用するため、機械学習に非常に役立ちます。 (中央処理装置ただし、CPU はより柔軟で、幅広い計算を実行できますが、GPU は特定の使用例に合わせて調整される傾向があります)。

2000s

顔認識グランドチャレンジ、 改善のためのプロモーション 顔認識技術は、米国政府の資金提供を受け、2004 年から 2006 年にかけて実施されました。その結果、新しい顔認識技術と顔認識性能が生まれました。新しく開発されたアルゴリズムは、2002 年に使用された顔認識アルゴリズムよりも最大 XNUMX 倍正確でした。アルゴリズムの中には、一卵性双生児間の差異を識別することさえできるものもありました。

2010 年代と仮想アシスタントとチャットボット

4 年 2011 月 XNUMX 日、 シリ、機能すると考えられた最初のデジタル仮想アシスタントは、iPhone 4S のサービスとして提供されました。の用法 チャットボット も大幅に増加した。 

2014 年に、敵対的生成ネットワーク (GAN) の概念が発表されました。 GAN は、実際の状況を本物のように記録したような画像、ビデオ、オーディオを作成するために使用されます。          

敵対的生成ネットワークでは、 2つのニューラルネットワーク 同時に敵対的トレーニングを受けた場合、一方のニューラル ネットワークは弁別器として機能し、もう一方はジェネレーターとして機能します。弁別器は、生成されたデータと実際のデータを区別するようにトレーニングされています。ジェネレーターは合成データを作成し、実際のデータを模倣しようとします。練習すると、ジェネレーターは、ディスクリミネーターを騙すために、よりリアルな録音を生成する能力が向上します。 GAN は、人工的であると認識することが不可能ではないにしても、困難な合成データを作成できます。

2020 年代とよりスマートなチャットボット

2022 年 XNUMX 月、OpenAI は、生成 AI である ChatGPT を導入しました。 大規模な言語モデル。 ChatGPT とそのバリエーションは、新しいレベルの人工知能を達成しました。これらの「よりスマートなチャットボット」は、調査を実行し、適切な文章をサポートし、リアルなビデオ、音声、画像を生成できます。

生成 AI トレーニングと大規模な言語モデルを組み合わせることで、思考と推論の能力を備えた人工知能が誕生しました。彼らはまた、「想像する」能力を持っているかもしれません。 ChatGPT は幻覚を起こしていると非難されており、これは想像力の使用と解釈される可能性があります。

スポット画像

最新のインテリジェンス

スポット画像