제퍼넷 로고

기계는 어떻게 데이터를 'Grok'합니까? | 콴타 매거진

시간

개요

그 모든 탁월함에도 불구하고 인공 신경망은 그 어느 때보다 불가해한 상태로 남아 있습니다. 이러한 네트워크가 커질수록 그 능력은 폭발적으로 증가하지만 내부 작동 방식을 해독하는 것은 항상 거의 불가능합니다. 연구자들은 이러한 모델에서 찾을 수 있는 통찰력을 지속적으로 찾고 있습니다.

몇 년 전, 그들은 새로운 것을 발견했습니다.

2022년 XNUMX월, ChatGPT를 개발한 OpenAI의 연구원들은 신고 이러한 시스템은 실수로 평소보다 훨씬 오랫동안 데이터를 갉아먹게 되었을 때 문제를 해결하는 독특한 방법을 개발했습니다. 일반적으로 엔지니어가 인공 뉴런이라는 계산 단위로 구성된 신경망에서 기계 학습 모델을 구축할 때 과적합 체계라고 하는 특정 지점에서 훈련을 중단하는 경향이 있습니다. 이는 네트워크가 기본적으로 훈련 데이터를 기억하기 시작하고 종종 보이지 않는 새로운 정보로 일반화되지 않는 경우입니다. 그러나 OpenAI 팀이 실수로 이 지점을 넘어 작은 네트워크를 훈련했을 때 단순히 암기하는 것을 넘어 문제에 대한 이해를 발전시키는 것처럼 보였습니다. 즉, 어떤 테스트 데이터라도 갑자기 얻을 수 있었습니다.

연구자들은 이 현상을 SF 작가 로버트 A. 하인라인(Robert A. Heinlein)이 "관찰자가 관찰되는 과정의 일부가 될 정도로 철저하게 이해한다"는 의미로 만든 용어인 "그로킹(grokking)"이라고 명명했습니다. 특정 수학적 연산을 수행하도록 설계된 과도하게 훈련된 신경망은 숫자의 일반적인 구조를 학습하고 결과를 내부화했습니다. 그것은 괴로워서 해결책이 되었습니다.

“이것은 매우 흥미롭고 생각을 자극했습니다.”라고 말했습니다. 미하일 벨킨 신경망의 이론적, 경험적 특성을 연구하는 캘리포니아 대학교 샌디에고 캠퍼스의 교수입니다. "이로 인해 후속 작업이 많이 이루어졌습니다."

실제로 다른 사람들은 결과를 복제하고 심지어 역설계하기도 했습니다. 가장 최근의 논문은 이러한 신경망이 움츠러들 때 무엇을 하는지 명확히 했을 뿐만 아니라 내부를 조사할 수 있는 새로운 렌즈도 제공했습니다. "그로킹 설정은 딥 러닝의 다양한 측면을 이해하기 위한 좋은 모델 유기체와 같습니다."라고 말했습니다. 에릭 미쇼 매사추세츠 공과 대학의.

이 유기체 내부를 들여다보면 때로는 매우 많은 것을 알 수 있습니다. "아름다운 구조를 찾을 수 있을 뿐만 아니라 그 아름다운 구조는 내부에서 무슨 일이 일어나고 있는지 이해하는 데 중요합니다."라고 말했습니다. 닐 난다, 현재 런던의 Google DeepMind에 있습니다.

한계를 넘어

기본적으로 머신러닝 모델의 작업은 간단해 보입니다. 주어진 입력을 원하는 출력으로 변환하는 것입니다. 이를 수행할 수 있는 최상의 기능을 찾는 것이 학습 알고리즘의 임무입니다. 특정 모델은 제한된 기능 세트에만 액세스할 수 있으며 해당 세트는 모델의 매개변수 수에 따라 결정되는 경우가 많습니다. 신경망의 경우 인공 뉴런 간의 연결 수와 대략 동일합니다.

개요

네트워크가 훈련됨에 따라 더 복잡한 기능을 학습하는 경향이 있으며 예상 출력과 실제 출력 간의 불일치가 훈련 데이터에서 떨어지기 시작합니다. 더 좋은 점은 손실이라고 알려진 이러한 불일치가 훈련에 사용되지 않는 새로운 데이터인 테스트 데이터에서도 감소하기 시작한다는 것입니다. 그러나 어느 시점에서 모델이 과적합되기 시작하고 훈련 데이터의 손실이 계속 감소하는 반면 테스트 데이터의 손실은 증가하기 시작합니다. 따라서 일반적으로 연구원이 네트워크 훈련을 중단하는 시점입니다.

OpenAI 팀이 신경망이 어떻게 수학을 수행할 수 있는지 탐구하기 시작했을 때 널리 퍼진 통념은 바로 이것이었습니다. 그들은 작은 것을 사용하고 있었어요 변압기 — 최근 대규모 언어 모델에 혁명을 일으킨 네트워크 아키텍처 — 스스로 루프백되는 제한된 집합 번호를 사용하여 작업하는 다양한 종류의 모듈식 산술을 수행합니다. 예를 들어, 모듈로 12는 시계 문자판에서 수행될 수 있습니다: 11 + 2 = 1. 팀은 두 개의 숫자를 추가하는 네트워크 예를 보여주었습니다. a b, 출력을 생성하려면, c, 모듈로 97(97개의 숫자가 있는 시계 문자판과 동일) 그런 다음 보이지 않는 조합으로 변압기를 테스트했습니다. a b 정확하게 예측할 수 있는지 확인하기 위해 c.

예상한 대로 네트워크가 과적합 체제에 진입했을 때 훈련 데이터의 손실은 0에 가까워졌고(본 내용을 기억하기 시작했습니다) 테스트 데이터의 손실은 증가하기 시작했습니다. 일반화한 건 아니었어요. 팀 리더인 Alethea Power는 "그러던 어느 날 운이 좋았습니다."라고 말했습니다. 2022년 XNUMX월 연설 샌프란시스코에서 열린 컨퍼런스에서. "그리고 운이 좋다는 건 건망증이 있다는 뜻이에요."

네트워크를 훈련하던 팀원이 휴가를 가서 훈련을 중단하는 것을 잊어버렸습니다. 이 버전의 네트워크는 계속 훈련되면서 보이지 않는 데이터에 대해 갑자기 정확해졌습니다. 자동 테스트를 통해 나머지 팀원들에게 이 예상치 못한 정확성이 드러났고 그들은 곧 네트워크가 숫자를 배열하는 영리한 방법을 찾았다는 것을 깨달았습니다. ab. 내부적으로 네트워크는 일부 고차원 공간의 숫자를 나타내지만, 연구원들이 이 숫자를 2D 공간으로 투영하고 매핑하면 숫자가 원을 형성했습니다.

이것은 놀라운 일이었습니다. 팀은 모듈로 97 수학을 수행하고 있는 모델이나 심지어 모듈로가 무엇을 의미하는지 모델에게 결코 말하지 않았습니다. 단지 산술의 예를 보여줬을 뿐입니다. 모델은 더 심층적이고 분석적인 솔루션, 즉 모든 조합에 일반화된 방정식을 우연히 발견한 것 같습니다. a b, 심지어 훈련 데이터를 넘어서는 것입니다. 네트워크는 망가졌고 테스트 데이터의 정확도는 100%까지 치솟았습니다. Power는 청중에게 “이건 이상해요.”라고 말했습니다.

팀은 다양한 작업과 다양한 네트워크를 사용하여 결과를 검증했습니다. 발견은 계속되었습니다.

시계와 피자

하지만 네트워크가 찾은 방정식은 무엇이었나요? OpenAI 논문은 밝히지 않았지만 그 결과는 Nanda의 관심을 끌었습니다. "신경망에 대한 핵심 미스터리이자 짜증나는 점 중 하나는 그들이 하는 일에 매우 능숙하지만 기본적으로 우리는 그것이 어떻게 작동하는지 전혀 모른다는 것입니다."라고 Nanda는 말했습니다. 어떤 알고리즘을 학습했는지 알아내기 위해 네트워크를 사용합니다.

Nanda는 OpenAI의 발견에 매료되었고, 문제가 있는 신경망을 분해하기로 결정했습니다. 그는 모듈식 산술을 학습하면서 모델의 매개변수를 면밀히 조사할 수 있도록 OpenAI 신경망의 더욱 간단한 버전을 설계했습니다. 그는 동일한 행동을 보았습니다: 일반화에 영향을 미치는 과적합과 테스트 정확도의 급격한 향상. 그의 네트워크도 숫자를 원으로 배열하고 있었습니다. 약간의 노력이 필요했지만 Nanda는 결국 그 이유를 알아냈습니다.

원에 숫자를 표시하는 동안 네트워크는 유치원생이 시계를 보는 것처럼 단순히 숫자를 세는 것이 아니라 정교한 수학적 조작을 수행했습니다. 네트워크 매개변수의 값을 연구함으로써, 난다와 동료들이 공개됐다. "이산 푸리에 변환"을 수행하여 시계 번호를 추가했습니다. 즉, 사인 및 코사인과 같은 삼각 함수를 사용하여 숫자를 변환한 다음 삼각 항등식을 사용하여 이러한 값을 조작하여 솔루션에 도달했습니다. 적어도 이것이 그의 특정 네트워크가 하고 있던 일이었습니다.

MIT 팀이 있을 때 추적 Nanda의 작업에서 그들은 짜증나는 신경망이 항상 이 "시계" 알고리즘을 발견하는 것은 아니라는 것을 보여주었습니다. 때때로 네트워크는 연구원들이 "피자" 알고리즘이라고 부르는 것을 대신 찾습니다. 이 접근 방식은 피자를 조각으로 나누고 순서대로 번호를 매기는 것을 상상합니다. 두 개의 숫자를 더하려면 피자 중앙에서 문제의 숫자까지 화살표를 그린 다음 처음 두 개의 화살표가 이루는 각도를 이등분하는 선을 계산한다고 상상해 보세요. 이 선은 피자 조각의 중앙을 통과합니다. 조각의 숫자는 두 숫자의 합입니다. 이러한 연산은 사인과 코사인의 삼각법 및 대수학 조작 측면에서 기록될 수도 있습니다. a b, 이론적으로는 시계 접근 방식만큼 정확합니다.

개요

"시계와 피자 알고리즘 모두 이러한 순환 표현을 가지고 있습니다."라고 말했습니다. 리우 지밍, MIT 팀의 일원입니다. “하지만… 사인과 코사인을 활용하는 방법은 다릅니다. 이것이 우리가 그것들을 다른 알고리즘이라고 부르는 이유입니다.”

그리고 그게 전부가 아니었습니다. 모듈로 수학을 수행하기 위해 수많은 네트워크를 훈련시킨 후 Liu와 동료들은 이러한 네트워크에서 발견된 알고리즘의 약 40%가 다양한 피자 또는 시계 알고리즘이라는 사실을 발견했습니다. 팀은 나머지 시간 동안 네트워크가 무엇을 하는지 해독할 수 없었습니다. 피자와 시계 알고리즘의 경우 "우리 인간이 해석할 수 있는 것을 발견하는 일이 우연히 발생합니다"라고 Liu는 말했습니다.

그리고 문제가 발생할 때 네트워크가 학습하는 알고리즘이 무엇이든, 연구원들이 예상한 것보다 일반화하는 데 훨씬 더 강력합니다. 메릴랜드 대학의 한 팀이 간단한 신경망에 입력 훈련 데이터에 무작위 오류가 있는 경우 네트워크는 처음에는 예상대로 작동했습니다. 훈련 데이터와 오류 등을 모두 과대적합하고 손상되지 않은 테스트 데이터에서는 제대로 작동하지 않았습니다. 그러나 네트워크가 시험 문제에 올바르게 답하기 시작하면 잘못된 항목에 대해서도 정답을 생성할 수 있고, 기억된 오답을 잊어버리고 훈련 데이터까지 일반화할 수 있습니다. “그로킹 작업은 실제로 이러한 종류의 부패에 매우 강력합니다.”라고 말했습니다. 다르실 도시, 논문의 저자 중 한 명입니다.

통제를 위한 전투

그 결과, 연구자들은 이제 네트워크가 데이터를 수집하는 과정을 이해하기 시작했습니다. Nanda는 신경망 내에서 두 가지 다른 알고리즘을 사용하는 암기에서 일반화로의 점진적인 내부 전환의 결과로 그로킹의 명백한 외면적 갑작스러움을 봅니다. 그는 네트워크가 학습을 시작하면 먼저 기억하기 쉬운 알고리즘을 파악한다고 말했습니다. 그러나 알고리즘이 더 간단하더라도 네트워크가 훈련 데이터의 각 인스턴스를 기억해야 하므로 상당한 리소스가 필요합니다. 그러나 기억하는 동안에도 신경망의 일부는 일반적인 솔루션을 구현하는 회로를 형성하기 시작합니다. 두 알고리즘은 훈련 중에 리소스를 두고 경쟁하지만 정규화라는 추가 요소를 사용하여 네트워크를 훈련하면 결국 일반화가 승리합니다.

Liu는 “정규화는 천천히 일반화 솔루션 쪽으로 솔루션을 이동시킵니다.”라고 말했습니다. 이는 모델의 기능적 용량, 즉 모델이 학습할 수 있는 기능의 복잡성을 줄이는 프로세스입니다. 정규화가 모델의 복잡성을 제거함에 따라 덜 복잡한 일반화 알고리즘이 결국 승리합니다. Nanda는 “동일한 [수준의] 성능에 대해 일반화가 더 간단합니다.”라고 말했습니다. 마지막으로 신경망은 암기 알고리즘을 폐기합니다.

따라서 지연된 일반화 능력이 갑자기 나타나는 것처럼 보이지만 내부적으로는 네트워크의 매개 변수가 일반화 알고리즘을 꾸준히 학습하고 있습니다. 네트워크가 일반화 알고리즘을 학습하고 암기 알고리즘을 완전히 제거한 경우에만 문제가 발생합니다. Nanda는 “갑작스러워 보이는 일이 실제로 표면 아래에서는 점진적일 수 있습니다.”라고 말했습니다. 기타 머신러닝 연구.

이러한 획기적인 발전에도 불구하고 그로킹 연구는 아직 초기 단계에 있다는 점을 기억하는 것이 중요합니다. 지금까지 연구자들은 극히 작은 네트워크만 연구해왔으며 이러한 결과가 더 크고 더 강력한 네트워크에도 적용될지는 확실하지 않습니다. Belkin은 또한 오늘날의 신경망이 수행하는 다양한 작업에 비하면 모듈식 연산은 "바다의 물 한 방울"에 불과하다고 경고합니다. 이러한 수학을 위한 신경망 솔루션을 리버스 엔지니어링하는 것만으로는 이러한 네트워크를 일반화하는 일반 원리를 이해하는 데 충분하지 않을 수 있습니다. Belkin은 “나무를 연구하는 것은 정말 좋은 일입니다.”라고 말했습니다. “하지만 우리는 숲에 대해서도 연구해야 해요.”

그럼에도 불구하고 이러한 네트워크 내부를 들여다보고 분석적으로 이해하는 능력은 큰 의미를 갖습니다. 우리 대부분에게 푸리에 변환과 원호를 이등분하는 것은 모듈로 덧셈을 수행하는 매우 이상한 방법입니다. 인간의 뉴런은 그렇게 생각하지 않습니다. "그러나 선형 대수학으로 구성되어 있다면 실제로 이렇게 하는 것이 많은 의미가 있습니다"라고 Nanda는 말했습니다.

“이 이상한 [인공] 두뇌는 우리 두뇌와 다르게 작동합니다.”라고 그는 말했습니다. “[그들은] 그들만의 규칙과 구조를 가지고 있습니다. 우리는 신경망이 어떻게 생각하는지 생각하는 법을 배워야 합니다.”

spot_img

최신 인텔리전스

spot_img