제퍼넷 로고

선택적 망각이 AI 학습에 어떻게 도움이 됩니까 | 콴타 매거진

시간

개요

컴퓨터 과학자들로 구성된 팀이 더 민첩하고 유연한 유형 머신러닝 모델의 비결: 알고 있는 것을 주기적으로 잊어야 합니다. 이 새로운 접근 방식이 대규모 앱을 뒷받침하는 거대한 모델을 대체하지는 못하지만 이러한 프로그램이 언어를 이해하는 방식에 대해 더 많은 정보를 제공할 수 있습니다.

새로운 연구는 “이 분야에서 상당한 발전”을 의미한다고 말했습니다. 권재기초과학연구원 AI 엔지니어.

오늘날 사용되는 AI 언어 엔진은 대부분 인공 신경망. 네트워크의 각 "뉴런"은 다른 뉴런으로부터 신호를 수신하고 일부 계산을 실행하며 여러 레이어의 뉴런을 통해 신호를 보내는 수학적 함수입니다. 처음에는 정보의 흐름이 다소 무작위이지만 훈련을 통해 네트워크가 훈련 데이터에 적응함에 따라 뉴런 간의 정보 흐름이 향상됩니다. 예를 들어, AI 연구자가 이중 언어 모델을 만들고자 한다면 두 언어의 큰 텍스트 더미로 모델을 훈련할 것입니다. 그러면 한 언어의 텍스트를 동등한 언어와 연관시키는 방식으로 뉴런 간의 연결이 조정됩니다. 다른 말로.

하지만 이 훈련 과정에는 많은 컴퓨팅 성능이 필요합니다. 모델이 잘 작동하지 않거나 나중에 사용자의 요구 사항이 변경되면 적용하기가 어렵습니다. "100개 언어가 포함된 모델이 있는데 원하는 언어 중 하나가 포함되지 않는다고 상상해 보세요."라고 말했습니다. 미켈 아르테체, 새로운 연구의 공동저자이자 AI 스타트업 레카(Reka)의 창업자. "처음부터 다시 시작할 수는 있지만 이상적이지는 않습니다."

Artetxe와 그의 동료들은 이러한 한계를 회피하려고 노력해 왔습니다. 몇 년 전, Artetxe 및 다른 사람들은 하나의 언어로 신경망을 훈련한 다음 토큰이라고 하는 단어의 구성 요소에 대해 알고 있는 내용을 삭제했습니다. 이는 임베딩 레이어라고 불리는 신경망의 첫 번째 레이어에 저장됩니다. 그들은 모델의 다른 모든 레이어를 그대로 두었습니다. 첫 번째 언어의 토큰을 지운 후 두 번째 언어에서 모델을 다시 훈련하여 임베딩 레이어를 해당 언어의 새로운 토큰으로 채웠습니다.

모델에 일치하지 않는 정보가 포함되어 있음에도 불구하고 재교육은 효과가 있었습니다. 모델은 새로운 언어를 학습하고 처리할 수 있었습니다. 연구원들은 임베딩 레이어가 언어에서 사용되는 단어와 관련된 정보를 저장하는 반면, 네트워크의 더 깊은 수준은 인간 언어 뒤에 있는 개념에 대한 보다 추상적인 정보를 저장하여 모델이 제2 언어를 배우는 데 도움이 된다고 추측했습니다.

“우리는 같은 세상에 살고 있어요. 우리는 같은 것을 다른 언어로 다른 단어로 개념화한다”고 말했다. 첸 이홍, 최근 논문의 주요 저자입니다. “이것이 모델에 이와 동일한 높은 수준의 추론이 있는 이유입니다. 사과는 단순한 단어가 아니라 달콤하고 과즙이 풍부한 것입니다.”

개요

이러한 망각 접근 방식은 이미 훈련된 모델에 새로운 언어를 추가하는 효과적인 방법이었지만 재훈련에는 여전히 많은 양의 언어 데이터와 처리 능력이 필요했습니다. Chen은 조정을 제안했습니다. 학습하고 임베딩 레이어를 지운 다음 다시 학습하는 대신 초기 학습 라운드 동안 임베딩 레이어를 주기적으로 재설정해야 합니다. Artetxe는 "이렇게 하면 전체 모델이 재설정에 익숙해집니다."라고 말했습니다. “이는 모델을 다른 언어로 확장하고 싶을 때 더 쉽다는 뜻입니다. 왜냐하면 지금까지 그렇게 해왔기 때문입니다.”

연구자들은 일반적으로 사용되는 언어 모델을 사용했습니다. 로베르타, 주기적 망각 기술을 사용하여 훈련하고 표준 비망각 접근 방식으로 훈련했을 때 동일한 모델의 성능과 비교했습니다. 망각 모델은 언어 정확도에 대한 일반적인 측정에서 85.1점에 비해 86.1점을 받아 기존 모델보다 약간 나빴습니다. 그런 다음 첫 번째 훈련에서 사용한 5억 개가 아닌 70만 개의 토큰으로 구성된 훨씬 작은 데이터 세트를 사용하여 다른 언어로 모델을 재훈련했습니다. 표준모델의 정확도는 평균 53.3으로 감소했지만, 망각모델의 정확도는 62.7로 감소하는 데 그쳤다.

또한 팀이 재훈련 중에 계산 제한을 적용한 경우 망각 모델이 훨씬 더 잘 작동했습니다. 연구원들이 훈련 길이를 125,000단계에서 단 5,000단계로 줄였을 때, 망각 모델의 정확도는 평균 57.8로 감소한 반면, 표준 모델은 무작위 추측보다 나을 것이 없는 37.2로 떨어졌습니다.

개요

팀은 주기적인 망각이 모델의 언어 학습 능력을 전반적으로 향상시키는 것으로 결론지었습니다. "[그들은] 훈련 중에 계속 잊어버리고 다시 배우기 때문에 나중에 네트워크에 새로운 것을 가르치는 것이 더 쉬워집니다."라고 말했습니다. 예브게니 니키신, 퀘벡의 딥러닝 연구 센터인 Mila의 연구원입니다. 이는 언어 모델이 언어를 이해할 때 개별 단어의 의미보다 더 깊은 수준에서 이해한다는 것을 의미합니다.

접근 방식은 우리 자신의 두뇌가 작동하는 방식과 유사합니다. “일반적으로 인간의 기억력은 많은 양의 세부 정보를 정확하게 저장하는 데 그다지 능숙하지 않습니다. 대신 인간은 경험의 핵심을 추상화하고 추정하여 기억하는 경향이 있습니다.”라고 말했습니다. 벤자민 레비, 샌프란시스코 대학의 신경 과학자. "적응형 망각과 같이 보다 인간적인 프로세스로 AI를 활성화하는 것은 AI가 더욱 유연한 성능을 발휘하도록 하는 한 가지 방법입니다."

Artetxe는 이해가 어떻게 작동하는지에 대해 말할 수 있는 것 외에도 더 유연한 망각 언어 모델이 최신 AI 혁신을 더 많은 언어에 적용하는 데 도움이 되기를 바라고 있습니다. AI 모델은 풍부한 교육 자료를 통해 두 언어인 스페인어와 영어를 잘 처리하지만, 스페인 북동부 지역의 현지 언어인 모국어인 바스크어에는 그다지 능숙하지 않습니다. “대형 기술 회사의 대부분의 모델은 제대로 작동하지 않습니다.”라고 그는 말했습니다. "기존 모델을 바스크어에 적용하는 것이 좋은 방법입니다."

첸 역시 AI 꽃이 더 많이 피어나는 세상을 기대하고 있다. “저는 세상에 하나의 큰 언어 모델이 필요하지 않은 상황을 생각하고 있습니다. 우리에겐 너무 많은 것이 있다”고 그녀는 말했다. “언어 모델을 만드는 공장이 있다면 이런 기술이 필요해요. 새로운 도메인에 빠르게 적응할 수 있는 하나의 기본 모델이 있습니다.”

spot_img

최신 인텔리전스

spot_img