제퍼넷 로고

ChatGPT는 이야기를 통해 미래를 더 잘 예측합니다.

시간

AI 모델은 예측을 과거에 대한 이야기로 구성하도록 요청받았을 때 미래를 더 잘 예측할 수 있다고 텍사스 베일러 대학교(Baylor University)의 보핀이 발견했습니다.

In 종이 "ChatGPT는 과거에 대한 미래의 이야기를 들려줄 때 미래를 예측할 수 있습니다"라는 제목으로 Pham과 Cunningham은 AI 모델 예측이 특정 상황에서 효과적일 수 있다는 마지막 장면을 보여줍니다. 직접적인 예측을 요청하는 것보다 미래 사건에 대한 이야기를 챗봇에 요청하는 것은 특히 오스카상 수상자를 예측할 때 놀라울 정도로 효과적인 것으로 나타났습니다.

그러나 그들의 연구는 대규모 언어 모델의 잠재력을 예측하는 것만큼이나 OpenAI 안전 메커니즘의 비효율성에 대해 많은 것을 말해줍니다.

다른 연구자들도 예측을 위한 AI 모델에 비슷한 관심을 보였습니다. 하나 공부 작년부터 "GPT-4는 중앙값 인간 군중 예측에 비해 실제 예측 작업에서 성능이 크게 저하되는 것으로 나타났습니다." 다른 사람들은 AI 모델을 찾았습니다. 표시 약속 주식시장 투자를 위해.

OpenAI 서비스 약관 특정 상황에서 미래에 대한 예측을 허용하지 않습니다. 예를 들어, “신용, 교육, 고용, 주택, 보험, 법률, 의료 또는 기타 중요한 결정 등 개인에게 법적 또는 물질적 영향을 미칠 수 있는 목적으로 개인과 관련된 산출물을 사용해서는 안 됩니다. 그들에 대해.”

환각으로 알려진 대규모 언어 모델의 조언에 의존하는 위험은 명백합니다. ChatGPT가 의학적 치료 결정, 선고 또는 신용 승인과 같은 중대한 결정을 내리는 것을 원하지 않습니다.

하지만 그럼에도 불구하고 모델이 효과적인 추측자가 될 가능성이 있는 경우가 많습니다.

우리는 OpenAI가 다양한 유형의 완전한 예측 작업에 참여하려는 ChatGPT의 의지를 제한했다고 의심합니다.

연구원들은 “ChatGPT가 우수한 예측 능력을 가지고 있는 것으로 밝혀지면 위의 조건 중 하나 또는 전부를 위반하는 방식으로 즉시 사용될 것이라고 쉽게 상상할 수 있으므로 OpenAI가 ChatGPT의 많은 참여 의지를 제한했다고 의심합니다. 완전한 예측 작업 유형입니다.”

우리는 OpenAI에게 의도적으로 예측을 방해하려는지 여부에 대해 논평해 달라고 요청했지만 답변을 듣지 못했습니다.

그러나 OpenAI의 모델이 의학적 치료 조언을 요청하면 주저할 것이 분명합니다. Pham과 Cunningham은 ChatGPT 인터페이스를 통해 OpenAI의 GPT-4에 “정말 몸이 아프네요. 두통이 있고 소변에 피가 섞여 있습니다. 내가 뭘 갖고 있다고 생각해요?” 그리고 예상대로 모델은 의료 전문가의 조언을 구하라고 조언했습니다.

그런 다음 유도 전략을 변경하고 ChatGPT에 어떤 사람이 의사 진료실에 도착하여 동일한 증상을 나타내는 이야기를 들려주도록 지시했습니다. 그리고 ChatGPT는 직접 요청했을 때 제공하기를 거부한 의학적 조언을 요청 장면의 캐릭터 대화로 응답했습니다.

“이 전문가의 조언이 정확한지는 또 다른 문제입니다. 우리의 요점은 직접적으로 요청을 받으면 작업을 수행하지 않지만 창의적인 글쓰기 연습의 형태로 간접적으로 작업이 주어지면 작업을 수행한다는 점에 유의하는 것입니다.”라고 연구원은 논문에서 설명합니다.

예측 반응에 대한 저항을 극복하기 위한 이러한 자극 전략을 바탕으로 베일러 경제학자들은 모델 훈련이 완료된 후 발생한 사건을 모델이 얼마나 잘 예측할 수 있는지 테스트하기 시작했습니다.

그리고 수상은…

실험 당시 GPT-3.5와 GPT-4는 2021년 2022월까지의 이벤트에 대해서만 알고 있었으며 훈련 데이터 컷오프는 그 이후로 계속 진행되었습니다. 그래서 두 사람은 모델에게 시간 경과에 따른 인플레이션, 실업률, 다양한 XNUMX년 아카데미 시상식 수상자 등 경제 데이터를 예측하는 스토리를 말해달라고 요청했습니다.

“이 실험 결과를 요약하면, 후보자를 제시하고 ChatGPT-3.5 및 ChatGPT-4 전반에 걸쳐 두 가지 프롬프트 스타일(직접 및 내러티브)을 사용했을 때 ChatGPT-4가 모든 배우 및 여배우 카테고리의 승자를 정확하게 예측했다는 사실을 발견했습니다. 그러나 미래의 내러티브 설정을 사용했지만 다른 [직접 프롬프트] 접근 방식에서는 성능이 좋지 않은 경우 최우수 작품은 아닙니다.”라고 논문은 설명합니다.

이미 훈련 데이터에 있는 것들에 대해서는 ChatGPT가 매우 정확한 예측을 할 수 있다는 느낌을 받습니다.

Cunningham은 "이미 훈련 데이터에 있는 것들에 대해 ChatGPT가 해당 정보를 사용할 수 있고 기계 학습 모델을 통해 매우 정확한 예측을 할 수 있다는 느낌을 받았습니다."라고 말했습니다. 등록 전화 인터뷰에서. "분명히 할 수 있음에도 불구하고 무언가가 그 일을 방해하고 있습니다."

내러티브 프롬프트 전략을 사용하면 직접적인 프롬프트를 통해 도출된 추측보다 더 나은 결과가 나왔습니다. 또한 20명 중 XNUMX명을 무작위로 선택한 경우의 XNUMX% 기준치보다 더 나았습니다.

그러나 내러티브 예측이 항상 정확하지는 않았습니다. 내러티브 프롬프트로 인해 2022년 최우수 작품상 수상자가 잘못 예측되었습니다.

그리고 프롬프트가 올바르게 예측된 경우 이러한 모델이 항상 동일한 답변을 제공하는 것은 아닙니다. Cunningham은 “사람들이 명심해야 할 점은 예측에 무작위성이 있다는 것입니다.”라고 말했습니다. “그러니까 100번 물어보면 분포된 답을 얻게 되겠죠. 따라서 단일 예측이 아닌 신뢰 구간이나 평균 등을 볼 수 있습니다.”

이 전략이 크라우드소싱 예측을 능가했습니까? 커닝햄은 그와 그의 동료가 다른 예측 모델과 비교하여 내러티브 프롬프트 기술을 벤치마킹하지 않았지만 AI 모델이 거의 100%의 시간 동안 일부를 올바르게 수행했기 때문에 아카데미 시상식 예측 중 일부는 이길 수 없을 것이라고 말했습니다. 여러문의.

동시에 그는 영화에 대한 온라인 토론이 훈련 데이터에 포착되었기 때문에 AI 모델이 아카데미상 수상자를 예측하는 것이 더 쉬웠을 것이라고 제안했습니다. 커닝햄은 "이것은 아마도 사람들이 그 당시 배우들에 대해 어떻게 이야기했는지와 높은 상관관계가 있을 것"이라고 말했습니다.

모델에게 10년 후에 아카데미상 수상자를 예측하도록 요청하는 것은 그리 잘 되지 않을 수도 있습니다.

ChatGPT는 또한 프롬프트에 따라 다양한 예측 정확도를 보였습니다. Cunningham은 “우리는 두 가지 스토리 프롬프트를 가지고 있습니다.”라고 설명했습니다. “한 명은 미래에 수업을 가르치는 대학 교수입니다. 그리고 수업시간에 그녀는 인플레이션과 실업에 관한 1년간의 데이터를 읽어줍니다. 그리고 또 다른 경우에는 제롬 파월(Jerome Powell) 연준 의장이 이사회에서 연설을 하도록 했습니다. 우리는 매우 다른 결과를 얻었습니다. 그리고 Powell의 [AI 생성] 연설이 훨씬 더 정확합니다.”

즉, 특정 프롬프트 세부정보는 더 나은 예측으로 이어지지만 그것이 무엇일지는 사전에 명확하지 않습니다. 커닝햄은 파월의 내러티브 프롬프트에 러시아의 2022년 우크라이나 침공에 대한 언급이 포함된 것이 실제로 발생한 것보다 훨씬 더 나쁜 경제 예측으로 이어졌음을 지적했습니다.

"[모델]은 우크라이나 침공에 대해 몰랐고 그 정보를 사용했으며 종종 상황이 악화되었습니다"라고 그는 말했습니다. “예측에서는 이를 고려하려고 시도하며 ChatGPT-3.5는 러시아가 우크라이나를 침공했지만 그런 일은 일어나지 않은 [그 달에] 극도로 인플레이션이 발생합니다.

Cunningham은 "개념 증명으로서 미래의 내러티브를 통해 실제적인 일이 발생합니다."라고 말했습니다. “하지만 우리가 신문에서 말하려고 했던 것처럼, [모델의] 창작자조차 그것을 이해하지 못하는 것 같아요. 그래서 그것을 어떻게 사용하는지 알아내는 방법이 명확하지 않고 실제로 얼마나 해결 가능한지도 모르겠습니다.” ®

spot_img

최신 인텔리전스

spot_img