제퍼넷 로고

사고 연쇄 추론이 신경망 계산을 돕는 방법 | 콴타 매거진

시간

개요

아마도 초등학교 선생님이 20자리 숫자를 더하는 방법을 보여주지 않았을 것입니다. 하지만 더 작은 숫자를 더하는 방법을 알고 있다면 종이와 연필, 그리고 약간의 인내심만 있으면 됩니다. 한 곳부터 시작하여 왼쪽으로 단계별로 작업하면 곧 쉽게 XNUMX경을 쌓게 될 것입니다.

이와 같은 문제는 인간에게는 쉽지만 올바른 방식으로 접근하는 경우에만 가능합니다. “우리 인간이 이러한 문제를 해결하는 방법은 ‘눈으로 보고 답을 적는 것’이 아닙니다.” 에란 말라크, 하버드 대학의 기계 학습 연구원. "우리는 실제로 계단을 따라 걸어갑니다."

이러한 통찰력은 ChatGPT와 같은 챗봇을 지원하는 대규모 언어 모델을 연구하는 연구자에게 영감을 주었습니다. 이러한 시스템은 산술의 몇 단계를 포함하는 문제에서는 성공할 수 있지만, 두 개의 큰 숫자의 합을 계산하는 것과 같이 여러 단계를 포함하는 문제에서는 종종 실수를 범할 수 있습니다. 하지만 2022년에 Google 연구진은 보여 언어 모델에 단계별 솔루션을 생성하도록 요청하면 모델이 이전에는 도달할 수 없는 것처럼 보였던 문제를 해결할 수 있었습니다. 일련의 사고 유도라고 불리는 그들의 기술은 연구자들이 그것이 어떻게 작동하는지 이해하려고 애쓰는 동안에도 곧 널리 퍼졌습니다.

이제 여러 팀이 계산 복잡도 이론이라고 불리는 이론적 컴퓨터 과학의 난해한 분야의 기술을 사용하여 사고 연쇄 추론의 힘을 탐구했습니다. 이는 복잡성 이론을 사용하여 언어 모델의 본질적인 기능과 한계를 연구하는 일련의 연구 중 최신 장입니다. 이러한 노력은 모델이 어디에서 실패할 것으로 예상되는지 명확하게 하고 모델 구축에 대한 새로운 접근 방식을 가리킬 수도 있습니다.

"그들은 마법의 일부를 제거합니다."라고 말했습니다. 디미트리스 파파이리오풀로스, 위스콘신 대학교 매디슨 캠퍼스의 기계 학습 연구원입니다. “그거 좋은 일이군요.”

훈련 변압기

대규모 언어 모델은 인공 신경망이라는 수학적 구조를 기반으로 구축됩니다. 이러한 네트워크 내부의 많은 "뉴런"은 개별 단어를 나타내는 긴 숫자열에 대해 간단한 수학적 연산을 수행하여 네트워크를 통과하는 각 단어를 다른 단어로 변환합니다. 이 수학적 연금술의 세부 사항은 뉴런 사이의 연결 강도를 정량화하는 네트워크 매개변수라고 하는 또 다른 숫자 집합에 따라 달라집니다.

일관성 있는 출력을 생성하도록 언어 모델을 훈련하기 위해 연구자는 일반적으로 매개 변수가 모두 임의의 값을 갖는 신경망으로 시작한 다음 인터넷에서 많은 양의 데이터를 제공합니다. 모델은 새로운 텍스트 블록을 볼 때마다 각 단어를 차례로 예측하려고 시도합니다. 즉, 첫 번째 단어를 기반으로 두 번째 단어를 추측하고 처음 두 단어를 기반으로 세 번째 단어를 추측합니다. 각 예측을 실제 텍스트와 비교한 다음 매개변수를 조정하여 차이를 줄입니다. 각 조정은 모델의 예측을 아주 조금만 변경하지만, 어떻게든 이러한 집합적 효과를 통해 모델은 한 번도 본 적이 없는 입력에 일관되게 반응할 수 있습니다.

연구자들은 20년 동안 언어를 처리하기 위해 신경망을 훈련해 왔습니다. 하지만 2017년에 Google의 연구원들이 새로운 종류의 네트워크 변압기라고 합니다.

“이것은 7년 전에 제안되었는데 마치 선사시대처럼 보입니다.”라고 말했습니다. 파블로 바르셀로, 칠레 교황청 가톨릭 대학교의 기계 학습 연구원.

변환기를 그토록 혁신적으로 만든 이유는 훈련에 엄청난 비용을 들이지 않고도 쉽게 확장하여 매개변수 수와 훈련 데이터의 양을 늘릴 수 있다는 것입니다. 변환기 이전에는 신경망의 매개변수가 최대 수억 개였습니다. 오늘날 가장 큰 변압기 기반 모델은 1조 개가 넘습니다. 지난 5년 동안 언어 모델 성능이 개선된 대부분은 단순한 확장에서 비롯되었습니다.

Transformers는 읽고 있는 텍스트에 대한 일종의 조감도를 제공하는 Attention Head라는 특별한 수학적 구조를 사용하여 이를 가능하게 했습니다. 변환기가 새로운 텍스트 블록을 읽으면 주의 머리는 전체 내용을 빠르게 스캔하고 단어 간의 관련 연결을 식별합니다. 아마도 네 번째와 여덟 번째 단어가 10번째 단어를 예측하는 데 가장 유용할 가능성이 높다는 점을 지적할 수 있습니다. 그런 다음 주의 헤드는 학습에 도움이 되는 예측을 생성하는 데 필요한 엄청난 숫자 처리를 수행하는 피드포워드 네트워크라고 불리는 거대한 뉴런 네트워크에 단어를 전달합니다.

실제 변환기에는 피드포워드 네트워크로 분리된 여러 레이어의 주의 헤드가 있으며 마지막 레이어 이후에만 예측을 내보냅니다. 그러나 각 계층에서 주의 헤드는 이미 각 단어에 대해 가장 관련성이 높은 컨텍스트를 식별했으므로 계산 집약적인 피드포워드 단계가 텍스트의 모든 단어에 대해 동시에 발생할 수 있습니다. 이를 통해 훈련 프로세스의 속도가 빨라지고 점점 더 큰 데이터 세트에 대해 변환기를 훈련하는 것이 가능해집니다. 더욱 중요한 점은 연구자들이 동시에 작동하는 여러 프로세서에 걸쳐 대규모 신경망을 훈련하는 엄청난 계산 부하를 분산시킬 수 있다는 것입니다.

방대한 데이터 세트를 최대한 활용하려면 "모델을 정말 크게 만들어야 한다"고 말했습니다. 데이비드 치앙, 노트르담 대학교의 기계 학습 연구원. "병렬화되지 않으면 훈련하는 것이 실용적이지 않을 것입니다."

그러나 변환기 훈련을 쉽게 만드는 병렬 구조는 훈련 후에는 도움이 되지 않습니다. 이 시점에서는 이미 존재하는 단어를 예측할 필요가 없습니다. 일반적인 작업 중에 변환기는 한 번에 한 단어를 출력하고 다음 단어를 생성하기 전에 각 출력을 입력에 다시 연결하지만 여전히 병렬 처리에 최적화된 아키텍처에 갇혀 있습니다.

변환기 기반 모델이 성장하고 특정 작업으로 인해 계속 문제가 발생함에 따라 일부 연구자들은 더 병렬화 가능한 모델을 추진하는 데 비용이 드는지 궁금해하기 시작했습니다. 변압기의 동작을 이론적으로 이해할 수 있는 방법이 있었나요?

변압기의 복잡성

신경망에 대한 이론적 연구는 특히 훈련을 설명하려고 할 때 많은 어려움에 직면합니다. 신경망은 잘 알려진 절차를 사용하여 훈련 프로세스의 각 단계에서 매개변수를 조정합니다. 그러나 이 간단한 절차가 왜 좋은 매개변수 세트로 수렴되는지 이해하기 어려울 수 있습니다.

일부 연구자들은 훈련 중에 어떤 일이 일어나는지 고려하기보다는 매개변수를 임의의 값으로 조정하는 것이 가능하다고 상상하여 변환기의 본질적인 기능을 연구합니다. 이는 변압기를 특별한 유형의 프로그래밍 가능한 컴퓨터로 취급하는 것과 같습니다.

“컴퓨팅 장치가 있는데 '그게 무엇을 할 수 있지?'라고 알고 싶습니다. 어떤 종류의 함수를 계산할 수 있나요?'” Chiang이 말했습니다.

이것은 공식 계산 연구의 핵심 질문입니다. 이 분야는 Alan Turing이 처음으로 상상했던 1936년으로 거슬러 올라갑니다. 환상적인 장치, 현재 Turing 기계라고 불리며 무한한 테이프에서 기호를 읽고 쓰면서 모든 계산을 수행할 수 있습니다. 계산 복잡도 이론가들은 나중에 계산 문제가 자연스럽게 다른 형태로 분류된다는 것을 증명함으로써 Turing의 작업을 기반으로 삼게 됩니다. 복잡성 클래스 문제를 해결하는 데 필요한 리소스로 정의됩니다.

2019년에 Barceló와 다른 두 명의 연구원은 증명 고정된 수의 매개변수를 가진 이상화된 버전의 변환기는 튜링 기계만큼 강력할 수 있습니다. 출력을 반복적으로 입력으로 다시 공급하도록 변환기를 설정하고 해결하려는 특정 문제에 대해 매개변수를 적절한 값으로 설정하면 결국 정답이 나옵니다.

그 결과는 출발점이었지만 변압기의 힘을 과대평가할 가능성이 있는 몇 가지 비현실적인 가정에 의존했습니다. 그 이후로 수년 동안 연구자들은 보다 현실적인 이론적 틀을 개발하기 위해 노력해 왔습니다.

그러한 노력 중 하나가 2021년에 시작되었습니다. 윌리엄 메릴현재 뉴욕 대학교 대학원생인 는 시애틀에 있는 Allen Institute for Artificial Intelligence에서 2년 동안 펠로십을 떠나고 있었습니다. 그곳에서 그는 트랜스포머의 병렬 아키텍처에 적합하지 않은 기술을 사용하여 다른 종류의 신경망을 분석했습니다. 떠나기 직전에 그는 Allen Institute for AI 연구원과 대화를 나눴습니다. 아시시 사바르왈, AI 연구로 전환하기 전에 복잡성 이론을 연구했습니다. 그들은 복잡성 이론이 변환기의 한계를 이해하는 데 도움이 될 수 있다고 의심하기 시작했습니다.

“단순한 모델처럼 보였습니다. 그냥 못 박을 수 있는 몇 가지 제한 사항이 있어야 합니다.”라고 Sabharwal은 말했습니다.

두 사람은 병렬 계산을 연구하는 데 자주 사용되는 회로 복잡도라고 불리는 계산 복잡도 이론의 한 분야를 사용하여 변압기를 분석했으며 다음과 같은 결과를 얻었습니다. 최근에 적용됨 단순화된 버전의 변환기. 다음 해에 그들은 이전 연구에서 비현실적인 몇 가지 가정을 개선했습니다. 변압기의 병렬 구조가 성능을 어떻게 제한할 수 있는지 연구하기 위해 두 사람은 변압기가 출력을 입력으로 다시 공급하지 않는 경우를 고려했습니다. 대신 첫 번째 출력이 최종 답이 되어야 합니다. 그들 증명 이 이론적 프레임워크의 변환기는 특정 복잡도 클래스 외부에 있는 계산 문제를 해결할 수 없습니다. 그리고 선형 방정식 풀이와 같은 상대적으로 간단한 문제를 포함하여 많은 수학 문제가 이 수업 외부에 있는 것으로 생각됩니다.

기본적으로 그들은 병렬 처리에는 대가가 따른다는 것을 보여주었습니다. 적어도 변환기가 즉시 답변을 내뱉어야 하는 경우에는 말입니다. “트랜스포머를 사용하는 방식이 입력을 제공하고 즉각적인 응답을 기대하는 경우 트랜스포머는 매우 약합니다.”라고 Merrill은 말했습니다.

사고 실험

Merrill과 Sabharwal의 결과는 자연스러운 질문을 제기했습니다. 출력을 재활용할 수 있게 되면 변압기가 얼마나 더 강력해질까요? Barceló와 그의 공동 저자는 이상화된 변압기에 대한 2019년 분석에서 이 사례를 연구했지만 보다 현실적인 가정을 통해 문제는 여전히 열려 있었습니다. 그리고 그 사이에 연구자들은 일련의 사고방식을 발견하여 질문에 새로운 타당성을 부여했습니다.

Merrill과 Sabharwal은 그들의 순수한 수학적 접근 방식이 실제 언어 모델에서 사고 연쇄 추론의 모든 측면을 포착할 수 없다는 것을 알고 있었습니다. 매우 중요할 수 있습니다. 그러나 프롬프트가 어떻게 표현되든 언어 모델이 단계별 솔루션을 출력하도록 하는 한 모델은 원칙적으로 변환기를 통한 후속 단계에서 중간 단계의 결과를 재사용할 수 있습니다. 이는 병렬 계산의 한계를 피할 수 있는 방법을 제공할 수 있습니다.

한편 북경대학교의 한 팀도 비슷한 방향으로 생각하고 있었으며 예비 결과는 긍정적이었습니다. 2023년 XNUMX월 논문에서 그들은 Merrill과 Sabharwal의 프레임워크에서 일반 변환기로는 불가능해야 하는 몇 가지 수학 문제를 확인했습니다. 보여 그 중간 단계를 통해 변환기는 이러한 문제를 해결할 수 있었습니다.

10월에 Merrill과 Sabharwal은 이전 연구에 이어 상세한 이론적 연구 생각의 사슬의 계산 능력. 그들은 추가 계산 능력이 변압기가 최종 답을 내놓기 전에 사용할 수 있는 중간 단계 수에 따라 어떻게 달라지는지 정량화했습니다. 일반적으로 연구자들은 문제를 해결하기 위한 적절한 중간 단계 수는 문제에 대한 입력 크기에 따라 달라질 것으로 예상합니다. 예를 들어, 두 개의 20자리 숫자를 추가하는 가장 간단한 전략에는 두 개의 10자리 숫자를 추가하는 동일한 접근 방식보다 두 배의 중간 추가 단계가 필요합니다.

이와 같은 예는 변환기가 몇 가지 중간 단계만 사용하면 많은 이점을 얻을 수 없음을 시사합니다. 실제로 Merrill과 Sabharwal은 입력 크기에 비례하여 중간 단계의 수가 증가할 때만 일련의 사고가 실제로 도움이 되기 시작하며, 많은 문제에서 여전히 훨씬 더 커지려면 중간 단계의 수가 필요하다는 것을 증명했습니다.

연구 결과의 철저함에 깊은 인상을 받았습니다. “그들은 이것을 정말로 확실하게 결정했습니다.”라고 말했습니다. 다니엘 슈, 컬럼비아 대학의 기계 학습 연구원.

Merrill과 Sabharwal의 최근 연구는 사고의 사슬이 만병통치약이 아니라는 것을 보여줍니다. 원칙적으로 이는 변환기가 더 어려운 문제를 해결하는 데 도움이 될 수 있지만 많은 계산 노력이 필요합니다.

“우리는 한 단계로 변압기의 한계를 극복하는 다양한 방법에 관심이 있습니다.”라고 Merrill은 말했습니다. “사고의 연쇄는 하나의 방법이지만, 이 논문은 그것이 가장 경제적인 방법이 아닐 수도 있음을 보여줍니다.”

현실로 돌아가기

그럼에도 불구하고 연구자들은 이러한 종류의 이론적 분석은 실제 언어 모델에 대해서만 많은 것을 밝힐 수 있다고 경고합니다. 긍정적인 결과(변환기가 원칙적으로 특정 문제를 해결할 수 있다는 증거)는 언어 모델이 훈련 중에 실제로 해당 솔루션을 학습한다는 의미는 아닙니다.

그리고 변환기의 한계를 다룬 결과에도 주의 사항이 있습니다. 즉, 어떤 변환기도 모든 경우에 특정 문제를 완벽하게 해결할 수는 없다는 점을 나타냅니다. 물론 꽤 높은 기준이다. Hsu는 “문제가 잘 처리될 수 있는 특별한 경우가 있을 수 있습니다.”라고 말했습니다.

이러한 경고에도 불구하고 새로운 연구는 결국 변환기를 대체할 수 있는 다양한 종류의 신경망 아키텍처를 분석하기 위한 템플릿을 제공합니다. 복잡성 이론 분석을 통해 특정 유형의 네트워크가 다른 네트워크보다 더 강력하다는 사실이 밝혀지면 이는 해당 네트워크가 현실 세계에서도 더 잘 작동할 수 있다는 증거가 될 것입니다.

Chiang은 또한 언어 모델이 광범위한 실제 응용 프로그램에서 점점 더 많이 사용되어 그 능력을 과대평가하기 쉽기 때문에 변환기의 한계에 대한 연구가 더욱 가치 있다고 강조했습니다.

"실제로 그들이 잘 하지 못하는 일이 많이 있습니다. 그리고 우리는 한계가 무엇인지 매우 잘 인식할 필요가 있습니다"라고 Chiang은 말했습니다. "그래서 이런 종류의 작업이 정말 중요합니다."

spot_img

최신 인텔리전스

spot_img