제퍼넷 로고

장거리 메모리를위한 새로운 모델과 데이터 세트

시간

트랜스포머는 원래 기계 번역에서 반복적 인 신경망보다 월등히 우수한 것으로 나타났습니다. 그러나 질문 응답, 문서 요약, 감정 분류 및 자연어 모델링 등 지난해 자연스럽게 처리 된 작업에서 자연어 처리의 다양한 응용 프로그램에 적용되었습니다.

자연어 모델링

더 나은 메모리 아키텍처의 개발을 주도하고 인공 일반 지능으로 나아가는 기계 학습 과제를 찾는 것은 어려운 일입니다. 통계 언어 모델링 우리는 두 가지 목적에 모두 가치가 있다고 생각하는 그러한 과제 중 하나입니다. 언어 모델은 텍스트 스트림에서 다음 단어를 순차적으로 예측하여 작동합니다. 기존 텍스트를 모델링하고 새로운 텍스트를 생성하는 데 사용할 수 있습니다. 과거를 더 잘 모델링할수록 예측이 더 정확 해지며 생성 된 텍스트가 더욱 현실감있게됩니다.

Claude Shannon의 주요 기사 "의사 소통의 수학적 이론" 정보 이론 분야를 창시한 1948년에 출판된 그는 원시 언어 모델에 대해 논의하고 더 많은 컨텍스트를 추가하여 생성된 텍스트의 품질과 사실성을 향상시키는 방법을 설명했습니다. 그는 컨텍스트 모델링이 전혀 없는 가장 단순한 영어 텍스트 모델, 즉 각 문자를 독립적으로 취급하는 문자 수준 모델을 도입하여 이를 수행합니다. 상대 빈도('a'의 경우 시간의 8%, 'b'의 경우 1.5% 등)로 문자를 샘플링하여 무의미한 문자열을 얻습니다.

XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD QPAAMKBZAACIBZLHJQD.

그러나 그는 단어의 확률을 독립적으로 모델링 할 경우 샘플 품질의 개선에 대해 언급합니다. 이제 모델링 된 컨텍스트는 대략 7 배 더 큽니다 (단어의 평균 문자 수). 

대표적으로, 적절하게 표현하는 것은 좋은 APT 또는 COME이며, 그에 따라 선 메시지를 완성하기 위해 회색을 표현할 수있는 이유가 있기 때문에 자연스럽게 다를 수 있습니다.

문맥 길이가 2 배 더 늘어난 단어 ​​쌍의 확률을 모델링하여 더욱 현실적인 텍스트가 나타납니다.

이 시점의 문자가 더 이상 문제가없는 사람에게 문제를 제기 한 시간 동안 문자의 다른 방법이 없다는 영어 글에 대한 머리와 전면의 공격

다시 말해서, 문맥 길이의 증가는 생성 된 텍스트 품질의 향상으로 이어진다. Shannon은 제작 한 샘플의 품질과 자연 텍스트 샘플이 충분히 복잡한 통계 모델에서 나올 수 있다고 추측합니다. “특별한 XNUMX 개의 단어 순서는“이 글의 성격에 대한 영어 작가의 공격”은 전혀 부당한 것이 아닙니다. 충분히 복잡한 확률 론적 과정이 불연속적인 소스를 만족스럽게 표현할 것으로 보인다”고 말했다.

장거리 추론을위한 과제로 언어 모델링에 대한 비판 중 하나는 모델이 로컬 컨텍스트에서 예측의 많은 부분을 캡처 할 수 있다는 것입니다. 신경 언어 모델은 전통적으로 넓은 맥락을 무시하고 주로 단기에 중점을 둡니다. 예를 들어 2017 년 Dailuket al. 그들의 신경 언어 모델이 앞의 XNUMX 개 단어 이상으로 거의 참석하지 않는다는 것을 발견했습니다. 그러나 작년에 대형 트랜스포머 모델은 수백 단어의 문맥을 사용하여 더 긴 범위의 일관성으로 더욱 사실적인 텍스트를 생성하는 것으로 나타났습니다. 의 데모 OpenAI의 GPT-2, 1.5B 매개 변수 Transformer는 모델이 실제 텍스트를 생성하고 여러 단락에서 핵심 엔티티 (예 : Jorge Pérez 및 unicorns)를 보유 할 수 있음을 나타냅니다. 

과학자는 독특한 뿔을 가진 오비드의 유니콘을 따라 인구를 명명했습니다. 이 네 뿔의 은백색 유니콘은 이전에 과학에 알려지지 않았습니다.
이제 거의 XNUMX 세기 후에이 이상한 현상을 일으킨 신비가 마침내 해결되었습니다.
호르헤 페레즈 박사La Paz 대학교의 진화 생물 학자이자 몇몇 동료들은 안데스 ​​산맥을 탐험 할 때 다른 동물이나 인간이없는 작은 계곡을 찾았습니다. 페레즈 계곡에는 바위와 은빛 눈의 두 봉우리로 둘러싸인 자연적인 분수처럼 보였습니다.
페레즈 그리고 다른 사람들은 계곡으로 더 모험을했습니다. "우리가 한 피크의 정상에 도달 할 때까지 물은 파란색으로 보였고, 일부 결정이 위에있었습니다." 페레즈.
페레즈 그의 친구들은 유니콘 무리를보고 놀랐습니다. 이 생물들은 너무 많이 움직일 필요없이 공중에서 볼 수있었습니다. 그들은 너무 가까워서 뿔에 닿을 수있었습니다.
이 기괴한 생물들을 조사하면서 과학자들은 그 생물이 상당히 규칙적인 영어를 구사한다는 것을 발견했습니다. 페레즈 예를 들어, 방언이나 방언과 같은 공통된 '언어'가 있음을 알 수 있습니다.”
페레즈 박사 이 유니콘은 아르헨티나에서 유래 한 것으로 생각되는데, 이곳에서 동물은 남아메리카의 일부 지역에 도착하기 전에 그곳에서 살았던 사람들의 잃어버린 인종의 후손으로 여겨졌습니다.
그들의 기원은 아직 확실하지 않지만, 일부는 인간 문명이 인간과 유니콘이 만나기 전에 서로 만났을 때 창조되었을 것이라고 생각합니다. 에 따르면 페레즈,“남아메리카에서는 이러한 사건이 흔하게 발생하는 것 같습니다.”
그러나, 페레즈 또한 유니콘이 실제로 잃어버린 외계인 종족의 후손인지를 아는 유일한 방법은 DNA를 통해서 일 가능성이 있다고 지적했다. “하지만 그들은 영어로 의사 소통을 잘 할 수있는 것 같습니다. 이것은 진화의 징조이거나 적어도 사회 조직의 변화라고 생각합니다.

지식 전달

이러한 샘플은 초기 언어 모델 실험에서 70 년이 지난 Shannon을 놀라게 할 것입니다. 그러나 강력한 신경 언어 모델과 AGI의 목표와의 관련성의 진정한 이점은 지식을 일련의 작업으로 이전하는 능력입니다. 텍스트를 모델링하는 방법을 학습하는 과정에서 신경 언어 모델은 지식 기반의 연결 및 많은 기술을 구축하는 것으로 보입니다. 

예를 들어 OpenAI의 연구원들은 GPT-2가 놀랍게도 우수한 성능으로 질문 응답, 구문 분석 또는 감정 분석과 같은 자연어 처리 작업, 특히 이러한 작업을 수행하도록 명시 적으로 훈련 된 적이없는 모델에 적용될 수 있음을 보여주었습니다. 대형 트랜스포머 언어 모델이 질문 응답과 같은 특정 작업에서 미세 조정되면 결과 응답은 질문 응답 전용으로 설계되고 훈련 된 모델보다 훨씬 우수합니다. Google의 유명한 자연 언어 모델 BERT다양한 NLP 벤치 마크에서 최첨단 성능을 달성했으며 현재는 Google 검색의 일부. 그리고 최근에는 GPT-2가 기초 체스를 훈련하여 초보 체스를 배우는 법을 배울 수 있음을 보여주었습니다. 게임 이동

벤치마킹 언어 모델

널리 사용되는 장거리 언어 모델 벤치 마크는 위키 텍스트 -103, 영어 위키 백과 기사로 구성되어 있으며 세일즈 포스 AI. 기사는 평균 약 3,600 단어로 작성 당시에는 최신 모델의 메모리 창을 훨씬 뛰어 넘었습니다. 

그러나 구글의 연구원들은 최근 과거 네트워크 활성화의 메모리를 유지하고 최근 WikiText-103에서 최첨단 결과를 얻은 TransformerXL이라는 Transformer 변형이 다양한 컨텍스트를 활용할 수 있음을 보여주었습니다. 천 단어. 모델이 곧이 벤치 마크를 포화시킬 것인가? 따라서 책을 기반으로 한 새로운 장거리 언어 모델 벤치 마크를 컴파일하고 릴리스했습니다.

장기 기억 연구를위한 새로운 데이터 세트

장거리 시퀀스 모델에 대한 관심 증가를 지원하기 위해 새로운 언어 모델링 벤치 마크를 발표합니다. PG-19의 책에서 파생 된 프로젝트 구텐베르크 온라인 라이브러리

책은 장기 기억 모델 개발을 위한 풍부한 맥락을 제공합니다. 우리는 28,000년 이전에 출판된 Project Gutenberg에서 약 1919권의 책 중 일부를 선택했습니다. 이전 언어 모델링 데이터 세트 릴리스와 달리 텍스트에 전처리를 거의 적용하지 않습니다. 예를 들어 유용한 정보의 필터링을 피하기 위해 데이터의 어휘 크기나 검열 번호를 제한하지 않습니다. 

PG-19는 다음과 같은 이전 언어 모델링 벤치 마크의 두 배 크기입니다. 십억 단어 벤치 마크, 이전의 장거리 언어 모델 벤치 마크인 WikiText-10보다 103 배 이상 긴 텍스트를 포함합니다. 다음은 기존 언어 모델링 벤치 마크 비교표입니다.

출처: https://deepmind.com/blog/article/A_new_model_and_dataset_for_long-range_memory

spot_img

최신 인텔리전스

spot_img