제퍼넷 로고

대규모 언어 모델은 예상치 못한 기술을 얼마나 빨리 학습합니까? | 콴타 매거진

시간

개요

2년 전, 프로젝트에서 이미테이션 게임 벤치마크를 넘어서또는 BIG-bench에서 450명의 연구원이 ChatGPT와 같은 챗봇을 지원하는 대규모 언어 모델의 기능을 테스트하기 위해 설계된 204개 작업 목록을 편집했습니다. 대부분의 작업에서 모델이 확장됨에 따라 성능은 예측 가능하고 원활하게 향상되었습니다. 모델이 클수록 성능이 향상되었습니다. 하지만 다른 업무에서는 능력의 도약이 원활하지 않았다. 성능은 한동안 XNUMX에 가깝게 유지되다가 성능이 급상승했습니다. 다른 연구에서도 비슷한 능력의 도약이 발견되었습니다.

저자는 이를 "획기적인" 행동으로 묘사했습니다. 다른 연구자들은 이것을 액체 물이 얼음으로 얼 때처럼 물리학의 상전이에 비유했습니다. ~ 안에 종이 2022년 XNUMX월에 출판된 연구원들은 이러한 행동이 놀랍을 뿐만 아니라 예측할 수 없으며 AI 안전, 잠재력 및 위험에 대한 진화하는 대화에 정보를 제공해야 한다고 지적했습니다. 그들은 능력을 "라고 불렀습니다.등장,” 시스템이 높은 수준의 복잡성에 도달한 후에만 나타나는 집단적 행동을 설명하는 단어입니다.

하지만 상황이 그렇게 간단하지 않을 수도 있습니다. 새로운 논문 Stanford University의 세 명의 연구원은 이러한 능력이 갑자기 나타나는 것은 연구원들이 LLM의 성과를 측정하는 방식의 결과일 뿐이라고 가정합니다. 그들은 능력이 예측 불가능하거나 갑작스러운 것이 아니라고 주장합니다. "전환은 사람들이 생각하는 것보다 훨씬 더 예측 가능합니다."라고 말했습니다. 고예조 산미, 스탠포드의 컴퓨터 과학자이자 논문의 수석 저자입니다. "창출에 대한 강력한 주장은 모델이 수행하는 작업만큼이나 우리가 측정하기로 선택한 방식과 관련이 있습니다."

우리는 이러한 모델이 얼마나 커졌는지에 따라 이러한 행동을 보고 연구하고 있습니다. 대규모 언어 모델은 엄청난 양의 분석을 통해 훈련됩니다. 텍스트 데이터세트 — 책, 웹 검색, Wikipedia를 포함한 온라인 소스의 단어 — 자주 함께 나타나는 단어 사이의 링크를 찾는 것입니다. 크기는 단어가 연결될 수 있는 모든 방식과 대략 유사한 매개변수로 측정됩니다. 매개변수가 많을수록 LLM이 찾을 수 있는 연결이 더 많아집니다. GPT-2에는 1.5억 개의 매개변수가 있는 반면, ChatGPT를 지원하는 LLM인 GPT-3.5는 350억 개의 매개변수를 사용합니다. 4년 2023월에 출시되어 현재 Microsoft Copilot의 기반이 되는 GPT-1.75는 XNUMX조 XNUMX억 달러를 사용하는 것으로 알려졌습니다.

이러한 급속한 성장으로 인해 성능과 효율성이 놀라울 정도로 높아졌습니다. 충분히 큰 LLM이 훈련되지 않은 작업을 포함하여 작은 모델이 할 수 없는 작업을 완료할 수 있다는 사실에는 누구도 이의를 제기하지 않습니다. 출현을 "신기루"로 캐스팅한 스탠포드의 세 사람은 LLM이 규모가 커질수록 더욱 효과적이라는 점을 인식하고 있습니다. 사실은, 추가된 복잡성 더 큰 모델을 사용하면 더 어렵고 다양한 문제를 더 잘 처리할 수 있습니다. 그러나 그들은 이러한 개선이 매끄럽고 예측 가능하게 보이는지, 아니면 모델의 내부 작동보다는 측정항목 선택 또는 심지어 소수의 테스트 사례에서 비롯된 결과인지 들쭉날쭉하고 날카로운 결과를 보인다고 주장합니다.

세 자리 덧셈이 그 예입니다. 2022년 BIG-bench 연구에서 연구자들은 더 적은 매개변수를 사용하여 GPT-3와 LAMDA라는 다른 LLM 모두 덧셈 문제를 정확하게 완료하지 못했다고 보고했습니다. 그러나 GPT-3가 13억 개의 매개변수를 사용하여 훈련하자 마치 스위치를 켜는 것처럼 능력이 바뀌었습니다. 갑자기 추가할 수 있게 되었고 LAMDA도 68억 개의 매개변수를 추가할 수 있었습니다. 이는 추가 능력이 특정 임계값에서 나타난다는 것을 의미합니다.

그러나 스탠포드 연구자들은 LLM이 정확성에 의해서만 평가되었다고 지적합니다. 즉, 완벽하게 할 수 있거나 할 수 없습니다. 따라서 LLM이 대부분의 숫자를 올바르게 예측하더라도 실패했습니다. 그건 옳지 않은 것 같았습니다. 100에 278을 더해 계산한다면 376이 −9.34보다 훨씬 더 정확한 답인 것 같습니다.

대신 Koyejo와 그의 공동 작업자는 부분 점수를 부여하는 측정 기준을 사용하여 동일한 작업을 테스트했습니다. “우리는 다음과 같이 질문할 수 있습니다. 첫 번째 숫자를 얼마나 잘 예측합니까? 그럼 두 번째는요? 그럼 세 번째는요?” 그는 말했다.

Koyejo는 새로운 작업에 대한 아이디어를 그의 대학원생인 Rylan Schaeffer에게 돌렸습니다. 그는 LLM의 성과가 능력을 측정하는 방법에 따라 달라지는 것 같다는 점을 발견했다고 말했습니다. 또 다른 스탠포드 대학원생인 Brando Miranda와 함께 그들은 매개변수가 증가함에 따라 LLM이 추가 문제와 점점 더 정확한 숫자 순서를 예측했음을 보여주는 새로운 측정항목을 선택했습니다. 이는 추가 능력이 갑자기 나타나는 것이 아니라(즉, 갑작스럽고 예측할 수 없는 도약을 겪는다는 의미) 점진적이고 예측 가능하다는 것을 의미합니다. 그들은 다른 측정 막대를 사용하면 출현이 사라진다는 것을 발견했습니다.

개요

그러나 다른 과학자들은 이번 연구가 출현의 개념을 완전히 없애지는 못한다고 지적합니다. 예를 들어, 세 사람의 논문에서는 언제 측정 항목이 LLM에서 급격한 개선을 보일지 예측하는 방법을 설명하지 않습니다. 리 티안시, 노스이스턴 대학교의 컴퓨터 과학자. “그런 의미에서 이러한 능력은 여전히 ​​예측할 수 없습니다.”라고 그녀는 말했습니다. 현재 OpenAI의 컴퓨터 과학자이자 새로운 능력 목록을 작성하고 BIG-bench 논문의 저자인 Jason Wei와 같은 다른 사람들은 주장 산술과 같은 능력의 경우 정답이 실제로 중요하기 때문에 출현에 대한 초기 보고서는 타당했습니다.

“분명히 여기서 흥미로운 대화가 있을 것입니다.”라고 말했습니다. 알렉스 탐킨, AI 스타트업 Anthropic의 연구원입니다. 새로운 논문은 개별 구성요소의 기여도를 인식하기 위해 다단계 작업을 능숙하게 분류했다고 그는 말했습니다. “그러나 이것은 전체 이야기가 아닙니다. 이 점프가 모두 신기루라고 말할 수는 없습니다. 나는 여전히 문헌에 따르면 1단계 예측을 하거나 연속적인 측정 기준을 사용하더라도 여전히 불연속성이 있으며 모델의 크기를 늘리면 점프와 같은 방식으로 더 좋아지는 것을 볼 수 있다고 생각합니다."

그리고 오늘날의 LLM의 등장을 다양한 측정 도구로 설명할 수 있더라도 미래의 더 크고 복잡한 LLM에서는 그렇지 않을 가능성이 높습니다. "우리가 LLM을 다음 단계로 성장시키면 필연적으로 다른 작업과 다른 모델에서 지식을 빌릴 것입니다."라고 말했습니다. 시아 "벤" 후, 라이스 대학의 컴퓨터 과학자.

출현에 대한 이러한 진화하는 고려는 연구자들이 고려해야 할 추상적인 질문이 아닙니다. Tamkin의 경우 이는 LLM의 작동 방식을 예측하려는 지속적인 노력을 직접적으로 나타냅니다. “이러한 기술은 매우 광범위하고 적용 가능합니다.”라고 그는 말했습니다. “커뮤니티가 이를 출발점으로 삼아 이러한 것들에 대한 예측 과학을 구축하는 것이 얼마나 중요한지 지속적으로 강조하기를 바랍니다. 차세대 모델에 놀라지 않으려면 어떻게 해야 할까요?”

spot_img

최신 인텔리전스

spot_img