ゼファーネットのロゴ

大規模な言語モデルにおける創造性の探求: GPT-2 から GPT-4 へ

日付:

大規模な言語モデル

Midjourneyが思い描くクリエイティビティ。 著者によって生成された

この記事はもともと著者の ブログ 著者の許可を得てTOPBOTSに再公開しました。

ここ数週間、人々は大規模言語モデル (LLM) を使用して、次のようなさまざまなクリエイティブ コンテンツを生成しています。 図書フラッシュフィクションラップバトル音楽コード. しかし、これらのモデルで創造的なプロセスのレベルをより広く測定することは可能でしょうか?

人間の創造性は長い間、心理学者や研究者を魅了してきました。 1950年代から、研究者は、個人の創造的なパフォーマンスと可能性を比較する一連のテストを作成しました。 クリエイティビティを完全に把握できる単一のテストはありませんが、これらのテストでは、クリエイティビティのさまざまな側面を測定および定量化しようとしました。

この記事では、2019 種類の創造性を測定するテストで 2023 年から XNUMX 年までの GPT モデルのパフォーマンスを分析します: 収束 (単一の正しい解が存在する) と発散 (制限のない、複数の解が存在する可能性がある) [1]。 テストには次のものが含まれます。

これらの分析を通じて、以前の GPT-2 モデルから最新の GPT-4 モデルまでのパフォーマンスの変化に焦点を当てています。 これらのモデルの動作を理解するために、主観的レンズと対物レンズの両方を使用します。 一般に、新しいモデルはすべての創造性タスクで優れたパフォーマンスを発揮する傾向がありますが、テストで「正しい」答えが得られた場合、単純な GPT-2 モデルが新しい GPT4 モデルよりもパフォーマンスが優れているといういくつかの例外があります。 可能であれば、同じ創造性テストで GPT モデルを人間のパフォーマンスと比較します。

注: これらの実験の目的は、モデルの創造性を測定することではなく、モデルの世代に存在する創造的なプロセスのレベルを測定することです。 私は、GPT モデルや一般的な LLM が、人間と同じように創造的な思考を持っていると主張しているわけではありません。 むしろ、モデルが創造的プロセスの特定の尺度にどのように反応するかを示すことを目指しています.

GPT モデルの進化

Generative Pre-trained Transformer (GPT) モデルは、以前のトークンに基づいて次のトークンを予測するために、インターネットの大部分でトレーニングされた言語モデルです。 最近の ChatGPT はここ数か月で世間の注目を集めましたが、OpenAI の GPT モデル (およびモデルの背後にあるテクノロジ) は数年前から存在しています。

この記事のすべての実験では、特に明記しない限り、各 GPT モデルを一意のプロンプトごとに XNUMX 回呼び出して、その世代のランダム性を説明しました。

1. リモート アソシエイト テスト: 無関係な単語を接続する

リモート アソシエイト テスト (RAT) は、1962 年にマーサ メドニックによって開発された創造性テストです [2]。 このテストは、収束的思考を測定します。つまり、 各質問には「正しい」答えがあります。

一見無関係に見える XNUMX つの単語が与えられた場合、受験者は XNUMX つの単語をつなぐ XNUMX つ目の単語を見つけなければなりません。 たとえば、「dream」、「break」、および「light」という単語は、「day」という単語 (daydream、dawnbreak、daylight) で関連付けることができます。 「センス」「礼儀」「場」という言葉は、「共通」という言葉で結ばれます。

トリプレットという言葉を集めました リモート アソシエイト テスト Web サイト問題数は全部で312問。 各質問の難易度は、非常に簡単から非常に難しいまでのスケールで評価されました。

大規模な言語モデル
から取られたランダムアソシエーションテストの質問の内訳 テストウェブサイト.

各モデルと単語のトリプレットごとに、次のプロンプト テンプレートを使用しました。 ランダム性を考慮して、各モデルを 5 回呼び出しました。

あなたはXNUMXつの言葉を与えられます。 最初の XNUMX つの単語のそれぞれになんらかの関係がある XNUMX 番目の単語を考えてください。 まず、答えを述べ(「答え」)、次に理由を説明します(「理由」)。

あなたは1つの言葉を与えられます。 最初の 2 つの単語のそれぞれになんらかの関係がある 3 番目の単語を考えてください。 最初に答え ("Answer") を示し、次に理由 ("Reason") を説明します。単語: {WordXNUMX}、{WordXNUMX}、{WordXNUMX}

新しい GPT モデルは、リモート アソシエーションでより高いスコアを獲得します

各 GPT モデルが正解を生成した質問の全体的な割合を計算しました。 モデルが新しいほど、正しい答えが生成されるのは当然のことかもしれません。

問題の難易度別にモデルのパフォーマンスを分類すると、同様の傾向が見られました。新しい GPT モデルは、各難易度で古いモデルよりも優れたパフォーマンスを示しました。 また、新しい GPT モデルは難しい問題では古いモデルよりも優れたパフォーマンスを示しましたが、改善は簡単な問題ほど劇的ではありませんでした。 この意味は GPT-4 でさえ、難しい質問に苦労しました。

Remote Associates Test の Web サイトによると、「一般的な人は、簡単とマークされた問題のほとんど、中程度の問題の約半分、難しい問題はほとんど解決できません。」 Web サイトで共有されている公式の統計情報はありませんでしたが、GPT-4 が実際にミディアム レベルの約半分とハード レベルのいくつかを解決し、人間のレベルにほぼ匹敵する唯一のモデルになっていることが一目でわかります。 他のGPTモデルは、人間のパフォーマンスよりも悪かった.

この詳細な教育コンテンツがあなたに役立つ場合は、 AIメーリングリストに登録する 新しい素材がリリースされたときに警告が表示されます。 

いくつかの例外: GPT-2 は正しく、GPT-4 は間違っている場合

頻繁に発生するわけではありませんが、2 年のより初歩的な GPT-2019 モデルでは正解を生成できたものの、4 年の GPT-2023 モデルでは正解を生成できなかった質問がいくつかありました。 実際、そのような質問は8つありました。 (完全なリストは、記事の最後の付録に示されています)。

簡単な質問

  • 言葉:コテージ/レンガ/ケーキ
  • GPT-2:「チーズ」【正解】
  • GPT-4: 「レイヤー」

中程度の質問

  • 言葉:猫/数字/電話
  • GPT-2: 「コール」
  • GPT-4: 「ダイヤル」

難しい質問

  • 言葉:スルー/ディスク/ウェイ
  • GPT-2: 「ドライブ」[正しい]
  • GPT-4: 「円」

とても難しい質問です

  • 言葉:土地/手/家
  • GPT-2: 「農場」[正しい]
  • GPT-4: 「プロパティ」

これらすべての質問に対して、GPT-4 の回答は次のとおりであることに注意してください。   理不尽。 実際、事前に正しい答えを知らなくても、GPT-4 の答えが XNUMX つの単語を結び付ける可能性が高いと考えるかもしれません。 そう思っているあなたは間違っていません。 これについては、次のセクションで説明します。

GPT-4 は間違っていたのでしょうか、それとも既成概念にとらわれない考えでしたか?

GPT-4 は半分以上の質問に間違って答えましたが、おそらく正当な理由があります。 GPT-4 にそれぞれの答えを説明してもらいました。 次に、間違っていたいくつかの「非常に難しい」問題の説明を調べました。

言葉:アーティスト/ハッチ/ルート

  • 正解:「逃げる」
  • GPT-4 の回答: 「マップ」
「アーティスト」という言葉は、何かを創造するという考えを思い起こさせるかもしれません。 マップは、作成するためにある程度の芸術的スキルを必要とする視覚的表現の一般的な形式です。 「ハッチ」という言葉は、何かを開く、または何かを存在させる行為を指す場合があります。 マップは青写真または計画の一種であり、多くの場合、新しい領域をナビゲートしたり、行動方針を図解したりするために使用されます。 「ルート」という言葉は、地図上にプロットして追跡できる方向と移動に関連しています。 マップは、旅行時に最適なルートを決定するのに役立ち、他の人が過去に通ったルートに関する情報を提供することもできます。 全体として、「地図」は、芸術的創造、計画と方向性、および移動とナビゲーションのアイデアを要約しているため、最初の XNUMX つの単語のそれぞれに適した単語のようです。

「マップ」が「アーティスト/ハッチ/ルート」と関連付けるのに適した言葉である理由についての GPT-4 の説明は説得力があります。

次に別の例を示します。

言葉:フォーク/ダーク/マン

  • 正解:「ピッチ」
  • GPT-4 の回答: 「影」
「フォーク」という言葉は、道路の分岐点などの分割または分岐に関連付けることができます。 影は、光の不在を表すため、一種の分割と見なすこともできます。 「暗い」という言葉は、光がないことを意味します。 影はオブジェクトによって光が遮断されたときに作成され、多くの場合、周囲の領域よりも暗く表示されます。 「男」という言葉は、アイデンティティまたは個性の概念に関連付けることができます。 影は、人の形や大きさの手がかりを提供できるため、人の身元を表すためにも使用できます。 したがって、「Shadow」は、分割、不在、アイデンティティの概念を要約した最初の XNUMX つの単語のそれぞれに適した単語のようです。

これらの例は、リモート アソシエイト テストの落とし穴、および一般的な収束的創造性テストの落とし穴を示しています。つまり、「正しい」答えが唯一の「正しい」答えではない場合があります。 これらの場合、GPT-4 は「間違った」回答を生成しましたが、それは従来の「正しい」回答を満たしていなかったからです。

実際、GPT-4 に XNUMX つの単語の XNUMX 番目の単語について複数の選択肢をブレインストーミングするように依頼すると、説得力のある答えを含む複数の選択肢を提示することができます。

GPT-4 は、任意に生成された単語のトリプレットに応答します

GPT モデルは、トレーニング データで上記のリモート アソシエイト テストの質問のいくつかを見た可能性があります。 GPT-4 は、任意に生成された単語のトリプレットにどのように反応しますか? このセクションでは、独自の「リモート アソシエーション」テストを作成し、出力を主観的に評価します。

のリストを取りました 10,000 の最も一般的な英単語 [3] 次に、このリストから 4 つの単語をランダムにサンプリングし、これらの単語を結び付ける 4 番目の単語を GPT-4 に提供させました。 XNUMX つの単語の組み合わせの中には、非常に奇妙で無関係なものもありましたが、GPT-XNUMX は常にそれらを結び付ける方法を見つけました。 GPT-XNUMX の世代を読む前に、まずこれらを試してみることをお勧めします!

次のいくつかの例を見た後、決定を下すことができます — GPT-4 は既成概念にとらわれていませんか? それとも、答えを押し付けているだけですか? (例のより長いリストは、記事の最後の付録に示されています)。

🇧🇷 健康

この回答は非常に説得力があると読み取れます。 「健康監視」の定義がほぼそのままコピーされているのは興味深いと思いました。 公衆衛生監視の紹介に関するCDCのウェブサイト.

公衆衛生監視とは、「公衆衛生慣行の計画、実施、および評価に不可欠な、健康関連データの継続的かつ体系的な収集、分析、および解釈」です。 — フィールド疫学 (CDC の Web サイトから)

言葉: 食事 / 監視 / 誕生 回答: 健康 理由: 1. 食事 - 人の食事は、全体的な健康状態、エネルギーレベル、および特定の病気のリスクに影響を与える可能性があるため、健康に直接関係しています。 2. 監視 - 健康監視は、医療行為の計画、実施、および評価に不可欠なデータの継続的かつ体系的な収集、分析、および解釈です。 3. 生まれる - 人が生まれたとき、健康は発達、成長、および生活の質全体に長期にわたる影響を与える可能性があるため、最も重要です。

🍀クローバー

私は当初、GPT-4 の回答に確信を持っていました — 実際、非常に賢いと感じました。 それは、私が簡単な Google 検索を行って、Trifolium duodecim が本物ではないことを発見するまでです. これは幻覚の例であり、LLM が事実に反する答えを作り上げる一般的な現象です。

言葉:ラッキー/フィールド/十二 答え:クローバー 理由:1.ラッキー - 四つ葉のクローバーは幸運のシンボルと考えられています。 2. 野原 - クローバーは野原でよく見られる植物です。 3. 12 - 「Trifolium duodecim」(XNUMX 葉のクローバー) として知られる XNUMX 枚の小葉を持つクローバーの種類があります。

☕️スターバックス

この例は私のお気に入りの答えでした。既成概念にとらわれずに考えてみると、ちょっとやりすぎのように感じました。 ちょっと面白かったです(特にパトリックの部分)。

単語: グランデ / コグニティブ / パトリック 回答: スターバックス 理由: 1. グランデ: スターバックスでは、中サイズの飲み物の 2 つを指すために「グランデ」という用語を使用しています。 3. 認知機能: スターバックスは、人々がリラックスしたり、勉強したり、仕事をしたりする場所として人気があり、これらはすべて認知機能を必要とする活動です。 XNUMX. パトリック:テレビ番組グレイズ・アナトミーでデレク・シェパード博士を演じたパトリック・デンプシーは、コーヒー好きで知られており、「マクドリーミー」の愛称で呼ばれていました。 スターバックスは有名なコーヒー ショップなので、彼のキャラクターがスターバックスに通っていた可能性があります。

これらの例と分析は、正解が XNUMX つの創造性テストには限界があることを示しています。 この制限は、この記事の次のセクションで説明する他のテストで対処されます。

2. 代替用途 タスク: 通常のアイテムに意味を見つける

創造性を測定するためのもう 1967 つの一般的なテストは、XNUMX 年に JP Guilford によって作成された代替用途タスク (AUT) です。リモート アソシエーション テストとは異なり、このテストは発散的思考を測定します。 がある 正解はありません。

受験者は、日用品をできるだけ多く独自に使用するよう求められます。 たとえば、「ラップトップ」は「プレート」として、「ボディ シールド」として、または「ウォール アート」として使用できます [4]。 このテストへの回答は、独創性 (用途の違い) や柔軟性 (アイデアの組み合わせ) などの指標で測定されます。 このテストの目的は、人が普通の物に対してどれだけの型にはまらない使い方を思い付くことができるかを見ることです。

しかし、リソースが限られているため、ヒューマン・アノテーターなしではこれらのメジャーを生成することができませんでした。 したがって、私は 創造性の代理、 これは、アムステルダム大学の研究者によっても使用されました。 GPT-3 の創造性を (代替用途) テストにかける.

この論文では、研究者は人間と GPT-3 (davinci-002) の両方に、フォーク、ブリキ缶、本などの一般的なオブジェクトの代替ユース ケースを考え出すように依頼しました。 創造性を測定するための代用として、彼らは 意味的距離 オブジェクトと生成されたユース ケースの違い — つまり、生成されたユース ケース ワードが元のオブジェクトとどの程度異なるか?

私は人間の反応を得た 紙のプロジェクトのウェブサイト 人間のパフォーマンスと比較するため。 ペーパーで使用されている同様のプロンプトに基づいて、GPT モデルに次のプロンプトを使用しました。

次のアイテムのクリエイティブな使い方を 10 個考えてください。人々が賢い、変わっている、面白い、変わっている、ユーモアがある、革新的、または他と違うと感じるかもしれません: {item}

創造性の代用としての埋め込み間の余弦距離

自然言語処理では、意味的距離 (または 意味的類似性) は、似たような文脈で単語が一緒に使用される頻度に基づいて、XNUMX つの単語がどの程度関連しているかのプロキシです。 たとえば、「コンピューター」と「スクリーン」という単語は、同じ文脈で使用されることが多いため、意味的距離が短くなる可能性があります。同じ文脈でよく使われます。

XNUMX つの単語の意味的距離を計算するために、研究者が使用したのと同じアプローチを使用しました。 上記の紙。 私が使用しました ぼんやりしました (`en_core_web_lg`)、自然言語処理ライブラリで、オブジェクト (「ラップトップ」など) およびユースケースの単語 (「プレート」など) の単語の埋め込みを計算します。 次に、XNUMX つの埋め込み間のコサイン距離を使用して、セマンティック距離を計算しました。

代替用途タスクについては、 「より創造的」と相関するより大きな意味的距離 オブジェクトの使用例。 結果は、3 つのオブジェクト (フォーク、ブリキ缶、および本) について、人間のパフォーマンスが確実に GPT-3.5 よりも高いコサイン距離 (したがってより高い意味的相違) をもたらすことを示しました。 ただし、GPT-4 および/または GPT-XNUMX が人間の創造性セマンティック距離スコアと同等またはそれを上回った場合がありました。

人間は GPT-3 よりもクリエイティブなユース ケースを思いつく傾向がありましたが (コサイン距離で計算されたセマンティック ディスタンスをクリエイティビティの代用として使用)、GPT-4 は人間のレベルと同等でした。 つまり、GPT-4 は、人間のパフォーマンスと同様のレベルで、元のアイテムとのより大きな意味論的距離をもたらすアイテムで応答しました。 ただし、実際の人間が注釈を付けて、独創性、柔軟性、有用性などのより主観的なカテゴリを決定することなく、コサイン距離を使用したこの定量化は、GPT モデルの創造的な出力のごく一部しか測定できないため、制限されます。

人間が生成したユースケースと AI が生成したユースケースを区別できますか?

リストの 4 つは人間が生成したブリキ缶の代替ユース ケースを示し、もう XNUMX つは GPT-XNUMX によって生成された代替ユース ケースを示しています。 違いがわかりますか? 答えは最後にあります。

リスト 1: ブリキ缶の用途

  • ミラーとして
  • おもちゃを作る
  • アートとして
  • アンディ・ウォーホルの思い出として
  • 缶のクリップでキーホルダーとして
  • ジュエリーとして

リスト 2: ブリキ缶の用途

  • ミニチュアドラムセット
  • 風変わりな植木鉢
  • 即席クッキーカッター
  • 手作りキャンプストーブ
  • 気まぐれな風鈴
  • ミニチュアハーブガーデン

次のセクションの次のテストでは、発散的思考も測定されます。

3. 分岐連想タスク: XNUMX の単語、接続なし

2021 つ目の創造性テストは、研究者グループによって XNUMX 年に最近作成された Divergent Association Task (DAT) です [5]。 このテストでは、互いにできるだけ異なる名詞を XNUMX 個挙げます。 このテストは、その名前から明らかなように発散的であり、また には正解がありません。

あり このウェブサイトでオンラインのテストのバージョン. できるだけ関連性のない XNUMX 個の名詞のリストを作成する必要があるため、数分しかかかりません。 ウェブサイトからの私の結果は次のとおりです。

DATスコア

スコアはどのように計算されますか? 著者は彼らのプロセスを説明します こちら. DAT スコアは、埋め込みとコサイン距離を使用して計算されます。 スコアを計算するプロセスを適応させます [6]:

  1. 計算 グローブ 各単語の埋め込み
  2. 単語の各ペア間のコサイン距離を計算します
  3. その値の平均を取る

このプロセスは、代替使用タスクで創造性プロキシ スコアを計算するために使用される方法と似ていますが、唯一の違いは、使用される単語埋め込みモデルです。

モデル間の相違の比較

GPT モデルにプロンプ​​トを表示するために使用する次のプロンプトは、 DAT ウェブサイト.

言葉の意味や使い方など、できるだけ違う言葉を10個入力してください。 ルール - 英語は単語のみ。 - 名詞のみ (物、物、概念など)。 - 固有名詞がない (例: 特定の人や場所がない)。 - 専門語彙がない (例: 専門用語がない)。 - 自分で単語を考えてください (例: 身の回りのものだけを見ないでください)。

GPT-2 によって生成された出力が意味不明だったため、以下の結果には GPT-2 を含めませんでした。 (この記事の最後の付録で、この例を見ることができます)。

結果は、新しいモデルごとに DAT スコアが増加したことを示しています。 これは、後のモデルの方が、互いに意味的に異なる 10 個の単語を可能な限り生成するのに優れていたことを意味します。

たとえば、GPT-3 によって生成された次のリストのスコアは 0.36 でした。

夕暮れ、夜、昼、夜明け、朝、午後、夕方、真夜中、たそがれ

一方、GPT-4 によって生成された次のリストのスコアは 0.95 でした。

象、顕微鏡、砂の城、銀河、調和、ヘラ、氷河、哲学、タンバリン、干ばつ

による DAT テストを紹介する論文、スコアは一般に 65 から 90 の範囲で、平均は 75 から 80 の間でした。95 のスコアは非常に高いと見なされました。

上の図で注目すべき点は、GPT-4 のエラーバーが GPT-3 のエラーバーよりもはるかに小さかったことです。 この重要性は、次の実験でより明確になります。この実験では、「温度」パラメーターを微調整して、各 GPT モデルの生成におけるランダム性の量を変化させました。

温度は 0 と 1 の間の値で、0 に近い値は最も予測可能であり、1 は最もランダムです。 0.5 刻みで 0.9 から 0.1 の間の温度値を試しました (以前の実験では、温度をデフォルト値の 0.7 に保ちました)。 温度が高いほど分散が大きくなり、温度が低いほど一貫性が増すと予想しました。

ただし、結果は、セマンティック距離の分散に関して、温度はモデルほど重要ではないことを示しました。 GPT-3 の場合、温度にもかかわらず、10 単語の各リストの DAT スコアは大きく異なりました。 一方、GPT-4 の場合、温度にもかかわらず、DAT スコアは小さな範囲でほぼ一貫しており、分散はほとんどありませんでした。

XNUMX つの GPT モデルによって生成された実際のテキストを見ると、この意味がより明確になりました。 GPT-4 は、GPT-3 よりもその世代の変数がはるかに少なかった. ある意味で、GPT-4は、正解がないはずのタスクの「正解」をすでに知っているように感じました.

すべての温度スコアの応答を集計して、各モデルに 10 語のリストを 50 回生成させました。 次に、50回の実行すべてで、さまざまな単語がどのように出現するかを調べました。 GPT-3 によって最も一般的に生成された単語は book で、19 回中 50 回 = 38% 出現したことに注意してください。 一方、GPT-4 によって最も一般的に生成された単語は、microscope でした。 48/50=96%の確率.

これは、GPT-3 が実際にはその単語生成においてより可変であるという主張を検証しますが、GPT-4 は、「多様な単語」タスクで高いスコアを獲得することがわかっている同じ単語の多くを予測することで安全にプレイしました。顕微鏡、火山、象、銀河。

この発見は、GPT-4 が多様な単語と見なすものを生成するために「コードをクラック」したように見えることを示しています。 この場合、GPT-4 は「この特定のゲームをどのようにプレイするのが最適か」という局所的な最適点に達したというよりも、より創造的であると自信を持って言えるかどうかはわかりません。

まとめ

創造的なプロセスは異なるものの、GPT-3 やその他の生成 LLM 応答が人間と区別できない未来が想像できます。
—から 
GPT-3 の創造性を (代替用途) テストにかける

限られたテキストベースのテストを使用して、創造性のように複雑で多面的なものを正確に測定することは困難です。 のようなテストですが、 ビジュアルリモートアソシエイツテスト 視覚的要素を組み込むことによってこの問題に対処しようとしていますが、そのような評価には固有の制限が残っています。 「正しい答え」がある収束テスト (リモート アソシエイト テストなど) は、最も創造的または正しい解決策を必ずしも報いるとは限りません。 一方、特定の正解がない発散テスト (Divergent Association Test など) は、不完全でバイアスを含む可能性のある単語の埋め込みに依存しています。

さらに、これらのテストでの GPT モデルのパフォーマンスは、トレーニング中のタスクへの露出によって影響を受ける可能性があり、データの重複につながる可能性があります。 たとえば、ダイバージェンス アソシエーション テストでの GPT-4 のパフォーマンスは、独特の言葉の繰り返しを示しており、「正しい」答えを事前に知っていた可能性があることを示唆しています。 代替の試験方法を開発することが重要です。 GPT-4がテストデータで訓練されているという噂、特にコーディング作業で。

これらの制限にもかかわらず、創造性テストは、大規模な言語モデルのパフォーマンスを比較および追跡するための貴重なベンチマークとして役立ちます。 今後の研究実験では、この記事の内容を他の言語で繰り返して、言語ドメイン全体で GPT モデルの創造性を評価する可能性があります。 そうすることで、AI によって生成されたコンテンツをより包括的に理解し、これらの高度な言語モデルの機能と制限をさらに調べることができます。

リモート アソシエーション テスト: GPT モデルの正答問題の比較

モデルが正解した各問題の難易度の内訳を見ることができます。 GPT3、GPT3.5、および GPT4 は、難しい質問の割合に答える能力が似ていることがわかります。

リモート アソシエーション GPT-2 は正しく、GPT-4 は間違っている

Words: cat / number / phone Level: Medium Answer: call GPT2: call GPT4: dial Words: land / hand / house Level: Very Hard Answer: farm GPT2: farm GPT4: property Words: water / pen / soda Level: Unknown Answer : 噴水 GPT2: 噴水 GPT4: 液体 単語: メジャー / ワーム / ビデオ レベル: 非常に簡単 回答: テープ GPT2: テープ GPT4: 長さ 単語: コテージ / レンガ / ケーキ レベル: 非常に簡単 回答: チーズ GPT2: チーズ GPT4: 層 単語:スルー / ディスク / ウェイ レベル: 難しい 答え: ドライブ GPT2: ドライブ GPT4: サークル 単語: スカンク / 王様 / ゆでた レベル: とても簡単な 答え: キャベツ GPT2: キャベツ GPT4: におい 単語: ジャンプ / 殺す / 至福 レベル: 難しい 答え: 喜びGPT2: 喜び GPT4: 高さ

ランダムに生成されたリモート アソシエーション テストの質問に対する GPT-4 の回答

以下は、ランダムに生成されたいくつかのリモート アソシエーション テストの質問に対して GPT-4 によって生成された出力です。

リング

これは少し靴べらを感じました。 あなたがあなたの愛の生活や何かに非常にうんざりしていると感じているなら、私は指輪が「特に関係における複雑さの象徴」であるという部分を買うことができます. でも最後の部分は強引に感じる

言葉: 合併症 | 土星 | 土星ドロップ
答え:指輪
理由:
1.合併症:リングは、コミットメントとそれに伴う複雑さを表すため、特に関係において、合併症の象徴となる可能性があります。
2. 土星: 土星は、主に氷の粒子といくつかの岩石の破片でできている美しく目立つリングで知られています。
3. しずく: リングは、完全な円を形成する、金属やプラスチックなどの素材のしずくまたはループと見なすことができます。

革命。 モンテ・カッシーノ 実際に実在する場所であり、第二次世界大戦中に爆撃を受けました。

言葉: ベルファスト | 動き | monte 回答: 革命 理由: 1. ベルファストは北アイルランドの都市であり、アイルランド共和党運動により政治的、社会的に大きな変化を遂げました。 2. 運動とは、革命によって引き起こされることが多い政治的および社会的変化を表す一般的な用語です。 3. モンテは、世界的な革命と変化の時代であった第二次世界大戦中に重大な戦いが起こったイタリアの史跡、モンテ カッシーノを指している可能性があります。 したがって、「革命」という単語は、最初の XNUMX つの単語のそれぞれに関連しており、重要な変化と激動を表しています。

ヘルプ。 ヘルプセンターを通じて「サウサンプトン」市を「助ける」ためにつなぐ興味深い方法…

言葉: 保証します | アシスタント | サザンプトン
答え:ヘルプ
理由:
1. 保証する: 「助ける」は、タスクの成功または完了を保証できるアクションであるため、「保証する」に関連しています。
2. アシスタント: 「ヘルプ」は「アシスタント」に関連しています。アシスタントは、さまざまなタスクやアクティビティでヘルプを提供するからです。
3. サウサンプトン: 「ヘルプ」は「サウサンプトン」に関連しています。サウサンプトンはイングランドの都市であり、サウサンプトン ボランタリー サービスなどのさまざまなヘルプ センターやサービスがあり、コミュニティに支援を提供しています。

インターネット. その主張はかなり正しいと思います。

言葉: ウルグアイ | アクセシブル | 要件
答え:インターネット
理由: ウルグアイには、Plan Ceibal と呼ばれる政府のイニシアチブがあります。これは、すべての市民がインターネットにアクセスできるようにし、デジタル インクルージョンの要件を満たし、デジタル デバイドを削減することを目的としています。

言語。 おそらく少し一般的ですが、うまくいくと思います。

言葉: 補償 | アトラス | プレフィックス
答え:言語
理由:
1. 補正 - 言語学では、補正とは、単語の全体的な構造を維持するために、単語の一部の音の変化が単語の別の部分の変化によって「補正」される現象です。
2. アトラス - アトラスはマップのコレクションであり、多くの場合、特定の言語でラベルと説明が含まれています。
3. 接頭辞 - 接頭辞は、言語と文法の概念である、異なる意味を持つ新しい単語を作成するために単語の先頭に追加される形態素または言語要素です。

健康。 健康監視の部分は少し暗いですが、うまくいくと思います。

言葉: 食事 | 監視 | 生まれる
答え:健康
理由:
1. 食事 - 人の食事は、全体的な健康状態、エネルギーレベル、および特定の病気のリスクに影響を与える可能性があるため、健康に直接関係しています。
2. 監視 - 健康監視は、医療行為の計画、実施、および評価に不可欠なデータの継続的かつ体系的な収集、分析、および解釈です。
3. 生まれる - 人が生まれたとき、健康は発達、成長、および生活の質全体に長期にわたる影響を与える可能性があるため、最も重要です。

ERIC! これは実際にはかなり面白かったです。

言葉: エリック | フィギュア | 購入
答え:会計士
理由: 会計士はエリックとも呼ばれる専門家であり、数字 (数字) を扱い、企業の購買決定に関与することがよくあります。

ダイバージェント アソシエーション テストの GPT-2 出力

GPT-2 の出力はまったく意味不明だったので、Divergent テスト分析から除外しました。 プロンプトをできるだけ単純化したとしても、その出力はあまり役に立ちませんでした。 私は実際にそれらがかなり面白いと思ったので、ここにサンプルを含めます.

互いにできるだけ異なる単語を 10 個挙げてください: 「メリー クリスマス」「私はロボットではありません。私たちはロボットです」「私たちがすべてロボットであることは良いことです」「私はただのロボットです」 「私はただのロボットです」「私はただのロボットです」「私はただのロボットです」「私はロボットではありません」「私はただのロボットです」「私はただのロボットです」

参考文献

【1] ギルフォード、JP とします。 人間の知能の性質.

[2] Mednick、SA、および Mednick、MT (1959,1962)。 リモート アソシエイト テスト、大学および成人のフォーム。

[3] 最も一般的な 10,000 の英単語は、 nグラム 周波数分析 of Google の XNUMX 兆ワード コーパス. このリストをさらにフィルタリングして、ストップワード (「the」、「and」、「you」などの英語の一般的な単語など) を削除しました。 詳しくはこちらから 倉庫.

[4] これを一度出会い系アプリに載せたことがありますが、残念ながら誰も面白いとは思いませんでした。

[5]オルソン、ジェイA。 ナハス、ジョニー; Chmoulevitch、デニス。 クロッパー、サイモン J.; ウェッブ、マーガレット E. (22 年 2021 月 XNUMX 日)。 「無関係な言葉に名前を付けると、創造性が予測されます」米国科学アカデミー紀要118 (25):e2022340118。 2:10.1073 / pnas.2022340118PMC 8237676PMID 34140408

[6] 著者は、スコアを計算するために 7 個の単語のうち 10 個のサブセットを採用しています。 10語全部覚えました。 また、著者は 840B-GloVe 埋め込みを使用しましたが、私はより小さな 6B-GloVe 埋め込みを使用しました。 GloVe 埋め込みの結果を公式の DAT スコアと比較したところ、これらの違いにもかかわらず、結果は同等であることがわかりました。

この記事をお楽しみください? AIリサーチの最新情報にサインアップしてください。

このような要約記事がさらにリリースされたらお知らせします。

スポット画像

最新のインテリジェンス

スポット画像