제퍼넷 로고

10 년 NLP를위한 2022 가지 주요 언어 모델

시간

전학 학습 소개 및 사전 훈련 된 언어 모델 자연어 처리 (NLP)에서 언어 이해와 생성의 한계를 뛰어 넘었습니다. 전학 학습 및 지원 변압기 다른 다운 스트림 NLP 작업에 최신 연구 발전의 주요 트렌드가되었습니다.

동시에 NLP 커뮤니티에는 리더 보드를 차지하는 사전 훈련 된 거대한 언어 모델의 연구 가치에 관한 논란이 있습니다. 많은 AI 전문가들이 동의하지만 안나 로저스의 진술 더 많은 데이터와 컴퓨팅 파워를 사용하여 최첨단 결과를 얻는 것이 리서치 뉴스가 아니라는 점에서 다른 NLP 의견 리더들은 현재 트렌드에서 가능성과 같은 긍정적 인 순간을 지적합니다. 근본적인 한계를보고 현재 패러다임의

어쨌든 NLP 언어 모델의 최신 개선은 컴퓨팅 용량의 막대한 향상뿐만 아니라 고성능을 유지하면서 모델을 밝게하는 독창적 인 방법의 발견에 의해 주도 된 것으로 보입니다.

언어 모델링의 최신 혁신에 대한 최신 정보를 얻을 수 있도록 지난 몇 년 동안 소개 된 주요 언어 모델을 특징으로하는 연구 논문을 요약했습니다.

AI Research 메일 링리스트 구독 새로운 요약을 발표할 때 알림을 받으려면 이 문서의 맨 아래에 있습니다.

건너 뛰려면 다음과 같은 논문이 있습니다.

  1. BERT : 언어 이해를위한 딥 양방향 트랜스포머의 사전 교육
  2. GPT2 : 언어 모델은 감독되지 않은 멀티 태스킹 학습자
  3. XLNet : 언어 이해를위한 일반화 된 자동 회귀 사전 훈련
  4. RoBERTa : 강력하게 최적화 된 BERT 사전 훈련 접근법
  5. ALBERT : 언어 표현에 대한 자율 학습을위한 Lite BERT
  6. T5 : 통합 텍스트-텍스트 변환기를 통한 전송 학습의 한계 탐구
  7. GPT3 : 언어 모델은 몇 안되는 학습자입니다
  8. ELECTRA : 제너레이터가 아닌 판별 기로서 텍스트 인코더 사전 훈련
  9. DeBERTa : 얽 히지 않은주의를 기울이는 디코딩 강화 BERT
  10. PaLM: Pathways로 언어 모델링 확장

사전 훈련 된 중요한 언어 모델

1. BERT : 언어 이해를위한 딥 양방향 트랜스포머의 사전 교육, Jacob Devlin, Chang Ming-Wei Chang, Kenton Lee 및 Kristina Toutanova

원본 초록

트랜스포머의 양방향 엔코더 표현을 나타내는 BERT라는 새로운 언어 표현 모델을 소개합니다. 최근의 언어 표현 모델과 달리 BERT는 모든 계층에서 왼쪽과 오른쪽 컨텍스트를 함께 조정하여 깊은 양방향 표현을 사전 훈련하도록 설계되었습니다. 결과적으로 사전 훈련 된 BERT 표현은 단 하나의 추가 출력 레이어로 미세 조정되어 실질적인 작업없이 질문 응답 및 언어 유추와 같은 광범위한 작업에 대한 최신 모델을 생성 할 수 있습니다. 특정 아키텍처 수정.

BERT는 개념적으로 간단하고 경험적으로 강력합니다. GLUE 벤치 마크를 80.4 % (7.6 % 절대 개선)로, MultiNLI 정확도를 86.7 (절대 절대 개선)로 5.6, SQuAD v1.1 질문으로 1 가지 자연 언어 처리 작업에 대한 새로운 최신 결과를 얻습니다. 테스트 F93.2 ~ 1.5 (2.0 % 절대 개선)에 응답하여 인간 성능을 XNUMX % 능가합니다.

우리의 요약

Google AI 팀은 자연 언어 처리 (NLP)를위한 새로운 최첨단 모델을 제시합니다. BERTBi방향 E엔코더 R의 표현 Transformers. 그것의 디자인은 모델이 각 단어의 왼쪽과 오른쪽에서 컨텍스트를 고려할 수있게합니다. 개념적으로 단순하지만 BERT는 질문 답변, 지명 된 엔티티 인식 및 일반 언어 이해와 관련된 기타 작업을 포함하여 XNUMX 개의 NLP 작업에 대한 새로운 최신 결과를 얻습니다.

Mariya Yao TOPBOTS로 요약 한 2018 년의 최고 NLP 연구 논문

이 백서의 핵심 아이디어는 무엇입니까?

  • 일정 비율의 입력 토큰을 무작위로 마스킹하여 심층적 인 양방향 모델 교육 – 단어는 간접적으로“자기 자신을 볼”수 있습니다.
  • 또한 문장 B가 문장 A를 바로 따르는 지 여부를 예측하는 간단한 이진 분류 작업을 구축하여 문장 관계 모델을 사전 훈련함으로써 문장 사이의 관계를 더 잘 이해할 수 있습니다.
  • 많은 데이터 (24 억 단어 코퍼스)로 매우 큰 모델 (1024 개의 트랜스포머 블록, 340- 숨김, 3.3M 매개 변수)을 훈련시킵니다.

주요 성과는 무엇입니까?

  • 다음을 포함하여 11 가지 NLP 작업을위한 최첨단 기술 향상 :
    • 이전 최고 결과에서 절대 개선의 80.4 % 인 7.6 %의 GLUE 점수를 얻음;
    • SQuAD 93.2에서 1.1 %의 정확도를 달성하고 인간의 성능을 2 % 능가합니다.
  • 사전 훈련 된 모델을 제안합니다. 특정 NLP 작업에 실질적인 아키텍처 수정을 적용 할 필요가 없습니다.

AI 커뮤니티는 어떻게 생각합니까?

미래의 연구 분야는 무엇입니까?

  • 더 넓은 범위의 작업에서 방법을 테스트합니다.
  • BERT에 의해 포착되거나 포착되지 않을 수있는 언어 현상 조사.

가능한 비즈니스 응용 프로그램은 무엇입니까?

  • BERT는 다음을 포함하여 광범위한 NLP 문제가있는 비즈니스를 지원할 수 있습니다.
    • 더 나은 고객 경험을위한 챗봇;
    • 고객 리뷰 분석;
    • 관련 정보 검색 등

구현 코드는 어디서 구할 수 있습니까?

2. 언어 모델은 감독되지 않은 멀티 태스킹 학습자, Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever

원본 초록

q와 같은 자연어 처리 작업
질문 응답, 기계 번역, 독해 및 요약은 일반적으로 작업별 데이터 세트에 대한 감독 학습으로 접근합니다. 우리는 언어 모델이 WebText라고 하는 수백만 개의 웹 페이지로 구성된 새로운 데이터 세트에서 교육을 받을 때 명시적인 감독 없이 이러한 작업을 학습하기 시작한다는 것을 보여줍니다. 문서와 질문을 조건으로 할 때 언어 모델에 의해 생성된 답변은 CoQA 데이터 세트에서 55 F1에 도달합니다. 이는 3개 이상의 교육 예제를 사용하지 않고 4개의 기본 시스템 중 127,000개의 성능과 일치하거나 초과합니다. 언어 모델의 용량은 제로샷 작업 전송의 성공에 필수적이며 이를 늘리면 작업 간에 로그 선형 방식으로 성능이 향상됩니다. 우리의 가장 큰 모델인 GPT-2는 제로 샷 설정에서 테스트된 1.5개의 언어 모델링 데이터 세트 중 7개에서 최첨단 결과를 달성하지만 여전히 WebText에 적합하지 않은 8B 매개변수 Transformer입니다. 모델의 샘플은 이러한 개선 사항을 반영하고 일관된 텍스트 단락을 포함합니다. 이러한 발견은 자연스럽게 발생하는 데모에서 작업을 수행하는 방법을 배우는 언어 처리 시스템을 구축하는 유망한 경로를 제안합니다.

우리의 요약

이 백서에서 OpenAI 팀은 사전 훈련 된 언어 모델을 사용하여 매개 변수 또는 아키텍처 수정없이 다운 스트림 작업을 해결할 수 있음을 보여줍니다. 그들은 1.5 만 웹 페이지에서 스크랩 된 텍스트를 포함하는 크고 다양한 데이터 세트에서 45B 매개 변수 변환기 인 매우 큰 모델을 훈련했습니다. 이 모델은 일관된 텍스트 단락을 생성하고 다양한 작업에서 유망하고 경쟁적이거나 최첨단의 결과를 달성합니다.

이 백서의 핵심 아이디어는 무엇입니까?

  • 크고 다양한 데이터 세트에 대한 언어 모델 교육 :
    • 인간에 의해 큐 레이트 / 필터링 된 웹 페이지를 선택하는 단계;
    • 교육 및 테스트 세트의 중복을 최소화하기 위해 텍스트를 정리 및 복제하고 모든 Wikipedia 문서를 제거합니다.
    • 결과를 사용하여 웹 텍스트 총 8GB의 텍스트에 대해 40 백만 개가 넘는 문서가있는 데이터 세트.
  • 입력 표현을 위해 바이트 레벨 인코딩의 바이트 쌍 인코딩 (BPE) 사용.
  • 매우 큰 트랜스포머 기반 모델 구축 GPT-2:
    • 가장 큰 모델은 1542M 매개 변수와 48 개의 레이어를 포함합니다.
    • 이 모델은 주로 오픈AI GPT 수정이 거의없는 모델 (예 : 어휘 및 컨텍스트 크기 확장, 초기화 수정 등)

주요 성과는 무엇입니까?

  • 7 개의 테스트 된 언어 모델링 데이터 세트 중 8 개에서 최신 결과를 얻습니다.
  • 상식적인 추론, 질문에 대한 답변, 독해 및 번역에서 매우 유망한 결과를 보여줍니다.
  • 일관된 텍스트 (예 : 뉴스 기사) 유니콘 이야기의 발견.

AI 커뮤니티는 어떻게 생각합니까?

  • "연구자들은 현재 표준 도구를 적용하고 인상적인 모델을 만들어내는 흥미로운 데이터 세트를 구축했습니다." – 재커리 C. 립튼Carnegie Mellon University의 조교수입니다.

미래의 연구 분야는 무엇입니까?

  • 다음과 같은 벤치 마크에서 미세 조정 조사 데카NLPGLUE GPT-2의 거대한 데이터 세트와 용량이 BERT의 단방향 표현의 비 효율성을 극복 할 수 있는지 확인합니다.

가능한 비즈니스 응용 프로그램은 무엇입니까?

  • 실제 응용 분야에서 미세 조정이없는 GPT-2 모델의 성능은 사용 가능하지 않지만 매우 유망한 연구 방향을 보여줍니다.

구현 코드는 어디서 구할 수 있습니까?

  • 처음에 OpenAI는 2M 매개 변수로 더 작은 버전의 GPT-117 만 출시하기로 결정했습니다. 그만큼 더 큰 모델을 출시하지 않기로 결정 "거대한 언어 모델이 기만적이거나 편견적이거나 모욕적 인 언어를 생성하는 데 사용되는 것에 대한 우려 때문에"
  • XNUMX 월에 OpenAI가 마침내 출시 가장 큰 1.5B- 파라미터 모델. 코드를 사용할 수 있습니다 여기에서 지금 확인해 보세요..
  • 포옹하는 얼굴 도입했다 PyTorch 구현 처음에 출시 된 GPT-2 모델 중

3. XLNet : 언어 이해를위한 일반화 된 자동 회귀 사전 훈련Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le

원본 초록

양방향 컨텍스트를 모델링하는 기능을 통해 BERT와 같은 자동 인코딩 기반 프리 트레이닝을 제거하면 자동 회귀 언어 모델링을 기반으로하는 프리 트레이닝 방식보다 성능이 향상됩니다. 그러나 마스크를 사용하여 입력을 손상시키는 것에 의존하여 BERT는 마스크 된 위치 간의 종속성을 무시하고 사전 훈련-미세 불일치로 인해 어려움을 겪습니다. 이러한 장단점을 고려하여, 우리는 (1) 인수 분해 순서의 모든 순열에 대해 예상되는 가능성을 최대화하여 양방향 컨텍스트를 학습 할 수있게하고 (2) 자동 회귀 덕분에 BERT의 한계를 극복하는 일반화 된 자동 회귀 사전 훈련 방법 인 XLNet을 제안합니다. 공식화. 또한 XLNet은 최신 자동 회귀 모델 인 Transformer-XL의 아이디어를 사전 훈련에 통합합니다. 경험적으로, XLNet은 20 개 작업에서 BERT보다 성능이 뛰어나며, 종종 질문 답변, 자연어 추론, 정서 분석 및 문서 순위 등 18 개 작업에 대한 최첨단 결과를 달성합니다.

우리의 요약

Carnegie Mellon University와 Google의 연구원들은 독해, 텍스트 분류, 감정 분석 등과 같은 자연어 처리 (NLP) 작업을위한 새로운 모델 인 XLNet을 개발했습니다. XLNet은 자동 회귀 언어 모델링 (예 : Transformer-XL)과 자동 인코딩 (예 : BERT)을 최대한 활용하면서 한계를 피하는 일반화 된 자동 회귀 사전 훈련 방법입니다. 실험은 새로운 모델이 BERT와 Transformer-XL을 능가하며 18 개의 NLP 작업에서 최첨단 성능을 달성한다는 것을 보여줍니다.

TOP NLP 2019-XLNet

이 백서의 핵심 아이디어는 무엇입니까?

  • XLNet은 BERT의 양방향 기능 와 더불어 Transformer-XL의 자기 회귀 기술:
    • BERT와 마찬가지로 XLNet은 양방향 컨텍스트를 사용합니다. 즉, 주어진 토큰 전후에있는 단어를보고 무엇이 필요한지 예측합니다. 이를 위해 XLNet은 다음과 관련하여 시퀀스의 예상 로그 가능성을 최대화합니다. 가능한 모든 순열 분해 순서의.
    • 자동 회귀 언어 모델 인 XLNet은 데이터 손상에 의존하지 않으므로 마스킹으로 인한 BERT의 한계, 즉 사전 훈련-미세 조정 불일치 및 마스크되지 않은 토큰이 서로 독립적이라는 가정을 피합니다.
  • 사전 훈련을위한 아키텍처 설계를 더욱 향상시키기 위해 XLNet은 세그먼트 반복 메커니즘과 Transformer-XL의 상대적 인코딩 체계를 통합합니다.

주요 성과는 무엇입니까?

  • XLnet은 20 개 작업에서 BERT보다 성능이 뛰어납니다.
  • 새로운 모델은 질문 답변, 자연어 추론, 감정 분석 및 문서 순위를 포함하여 18 개의 NLP 작업에서 최첨단 성능을 달성합니다.

AI 커뮤니티는 어떻게 생각합니까?

  • 이 논문은 인공 지능 분야의 주요 컨퍼런스 인 NeurIPS 2019에서 구두로 발표되었습니다.
  • “왕은 죽었다. 폐하, 만수 무 강하 시옵소서. BERT의 통치가 끝나고 있습니다. CMU와 Google 직원들의 새로운 모델 인 XLNet은 20 개 작업에서 BERT보다 성능이 뛰어납니다.” – Deepmind의 연구 과학자 Sebastian Ruder.
  • "XLNet은 아마도 NLP 실무자에게 중요한 도구 일 것입니다. 그것은 NLP의 최신 기술입니다." – 카네기 멜론 대학교 케이타 쿠 리타.

미래의 연구 분야는 무엇입니까?

  • 컴퓨터 비전 및 강화 학습과 같은 새로운 영역으로 XLNet 확장

가능한 비즈니스 응용 프로그램은 무엇입니까?

  • XLNet은 다음을 포함하여 광범위한 NLP 문제가있는 비즈니스를 지원할 수 있습니다.
    • XNUMX 차 고객 지원 또는 응답 제품 문의를위한 챗봇;
    • 고객 리뷰 및 소셜 미디어를 기반으로 브랜드 인지도 및 인식을 측정하기위한 감정 분석;
    • 문서 기반 또는 온라인 등에서 관련 정보 검색

구현 코드는 어디서 구할 수 있습니까?

4. RoBERTa : 강력하게 최적화 된 BERT 사전 훈련 접근법, Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov

원본 초록

언어 모델 프리 트레이닝은 상당한 성능 향상을 가져 왔지만 서로 다른 접근 방식 간의 신중한 비교는 쉽지 않습니다. 훈련은 계산 비용이 많이 들고, 종종 다른 크기의 개인 데이터 세트에 대해 수행되며, 앞으로 살펴 보 겠지만 하이퍼 파라미터 선택은 최종 결과에 큰 영향을 미칩니다. 우리는 많은 주요 하이퍼 파라미터와 훈련 데이터 크기의 영향을 신중하게 측정하는 BERT 사전 훈련 (Devlin et al., 2019)의 복제 연구를 제시합니다. 우리는 BERT가 상당히 훈련되지 않았으며 그 이후에 출판 된 모든 모델의 성능과 일치하거나 초과 할 수 있음을 발견했습니다. 당사의 최고의 모델은 GLUE, RACE 및 SQuAD에서 최첨단 결과를 달성합니다. 이러한 결과는 이전에 간과되었던 디자인 선택의 중요성을 강조하고 최근보고 된 개선의 원인에 대한 의문을 제기합니다. 모델과 코드를 공개합니다.

우리의 요약

자연어 처리 모델은 사전 훈련 방법의 도입 덕분에 상당한 발전을 이뤘지만, 훈련의 계산 비용으로 인해 복제 및 미세 조정 매개 변수가 어려워졌습니다. 이 연구에서 Facebook AI와 University of Washington 연구원은 Google의 BERT (Bidirectional Encoder Representations from Transformers) 모델의 교육을 분석하고 성능을 향상시키는 교육 절차의 몇 가지 변경 사항을 확인했습니다. 구체적으로, 연구원들은 훈련을 위해 새롭고 더 큰 데이터 세트를 사용했으며, 더 많은 반복에 걸쳐 모델을 훈련 시켰으며, 다음 시퀀스 예측 훈련 목표를 제거했습니다. 결과적으로 최적화 된 모델 인 RoBERTa (Robustly Optimized BERT Approach)는 GLUE 벤치 마크에서 최근에 소개 된 XLNet 모델의 점수와 일치했습니다.

이 백서의 핵심 아이디어는 무엇입니까?

  • 페이스 북 AI 리서치 팀은 BERT가 상당히 훈련을받지 않았으며 RoBERTa라는 훈련을위한 개선 된 레시피를 제안했습니다.
    • 더 많은 데이터 : 원래 BERT 교육에 사용 된 160GB 데이터 세트 대신 16GB의 텍스트
    • 더 긴 교육 : 반복 횟수를 100K에서 300K로, 그 다음으로 500K로 늘립니다.
    • 더 큰 배치 : 원래 BERT 기본 모델에서 8 대신 256K.
    • 크기가 50K 인 문자 레벨 BPE 어휘 대신 30K 서브 워드 단위를 사용하는 더 큰 바이트 레벨 BPE 어휘.
    • 훈련 절차에서 다음 순서 예측 목표를 제거합니다.
    • 학습 데이터에 적용된 마스킹 패턴을 동적으로 변경합니다.

주요 성과는 무엇입니까?

  • RoBERTa는 GLUE (General Language Understanding Evaluation) 벤치 마크에서 모든 개별 작업에서 BERT를 능가합니다.
  • 새로운 모델은 GLUE 벤치 마크에서 최근에 소개 된 XLNet 모델과 일치하며 XNUMX 개의 개별 작업 중 XNUMX 개에서 새로운 최첨단 기술을 설정합니다.

미래의 연구 분야는 무엇입니까?

  • 보다 복잡한 다중 작업 미세 조정 절차를 통합합니다.

가능한 비즈니스 응용 프로그램은 무엇입니까?

  • RoBERTa와 같은 사전 훈련 된 대규모 언어 프레임 워크는 비즈니스 환경에서 대화 시스템, 질문 응답, 문서 분류 등을 포함한 광범위한 다운 스트림 작업에 활용할 수 있습니다.

구현 코드는 어디서 구할 수 있습니까?

  • 이 연구에 사용 된 모델과 코드는 GitHub의.

5. ALBERT : 언어 표현에 대한 자율 학습을위한 Lite BERTZhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut

원본 초록

자연어 표현을 사전 학습 할 때 모델 크기를 늘리면 종종 다운 스트림 작업에서 성능이 향상됩니다. 그러나 어떤 시점에서 GPU / TPU 메모리 제한, 훈련 시간 연장 및 예기치 않은 모델 저하로 인해 추가 모델 증가가 어려워집니다. 이러한 문제를 해결하기 위해 메모리 소비를 줄이고 BERT의 훈련 속도를 높이는 두 가지 매개 변수 감소 기술을 제시합니다. 포괄적 인 경험적 증거에 따르면 제안 된 방법이 원래의 BERT에 비해 훨씬 더 나은 모델로 이어집니다. 또한 문장 간 일관성을 모델링하는 데 중점을 두는 자체 감독 손실을 사용하고 다중 문장 입력을 통해 다운 스트림 작업에 지속적으로 도움이된다는 것을 보여줍니다. 그 결과, 최상의 모델은 GLERT, RACE 및 SQuAD 벤치 마크에서 새로운 최첨단 결과를 확립하는 동시에 BERT- 대형에 비해 매개 변수가 적습니다.

우리의 요약

Google Research 팀은 사전 훈련 된 언어 모델의 크기가 지속적으로 커지는 문제를 해결하여 메모리 제한, 교육 시간 연장 및 때로는 예기치 않은 성능 저하를 초래합니다. 구체적으로 소개합니다 라이트 버트 (ALBERT) 두 가지 매개 변수 감소 기술을 통합 한 아키텍처 : 인수 분해 임베딩 매개 변수화크로스 레이어 파라미터 공유. 또한 제안 된 접근 방식에는 다음에 대한 자체 감독 손실이 포함됩니다. 문장 순서 예측 문장 간 일관성을 향상시킵니다. 실험은 ALBERT의 최고 버전이 GLERT, RACE 및 SQuAD 벤치 마크에서 BERT-large보다 적은 매개 변수를 가지면서 새로운 최첨단 결과를 설정 함을 보여줍니다.

이 백서의 핵심 아이디어는 무엇입니까?

  • 사용 가능한 하드웨어의 메모리 제한, 더 긴 학습 시간 및 증가 된 매개 변수 수로 인해 예상치 못한 모델 성능 저하로 인해 언어 모델을 더 크게 향상시키는 것은 합리적이지 않습니다.
  • 이 문제를 해결하기 위해 연구원들은 ALBERT 두 가지 매개 변수 감소 기술을 통합 한 아키텍처 :
    • 인수 분해 임베딩 매개 변수화, 숨겨진 레이어의 크기는 deco에 의해 어휘 임베딩의 크기와 분리됩니다.
      큰 어휘 임베딩 행렬을 두 개의 작은 행렬로 병합합니다.
    • 크로스 레이어 파라미터 공유 네트워크의 깊이에 따라 매개 변수 수가 증가하지 않도록합니다.
  • 자체 감독 손실을 도입하여 ALBERT의 성능을 더욱 향상시킵니다. 문장 순서 예측 문장 간 일관성에 관한 BERT의 한계를 해결합니다.

주요 성과는 무엇입니까?

  • 소개 된 매개 변수 감소 기술을 사용하면 원래 BERT-large 모델에 비해 18 배 적은 매개 변수와 1.7 배 빠른 훈련을 제공하는 ALBERT 구성은 성능이 약간 떨어집니다.
  • BERT-large보다 여전히 적은 수의 매개 변수를 가진 훨씬 더 큰 ALBERT 구성은 다음을 통해 현재의 모든 최신 언어 모드보다 성능이 뛰어납니다.
    • RACE 벤치 마크에서 89.4 % 정확도;
    • GLUE 벤치 마크에서 89.4 점; 과
    • SQuAD 1 벤치 마크에서 92.2의 F2.0 점수.

AI 커뮤니티는 어떻게 생각합니까?

  • 이 논문은 ICLR 2020에 제출되었으며 OpenReview 포럼NLP 전문가의 리뷰 및 의견을 확인할 수 있습니다. 검토 자들은 주로 제시된 논문을 매우 높이 평가합니다.

미래의 연구 분야는 무엇입니까?

  • 희소 한주의 및 차단주의와 같은 방법을 통해 훈련 및 추론 속도를 높입니다.
  • 어려운 예제 마이닝,보다 효율적인 모델 교육 및 기타 접근 방식을 통해 모델 성능을 더욱 향상시킵니다.

가능한 비즈니스 응용 프로그램은 무엇입니까?

  • ALBERT 언어 모델을 비즈니스 환경에서 활용하여 챗봇 성능, 감정 분석, 문서 마이닝 및 텍스트 분류를 포함한 광범위한 다운 스트림 작업의 성능을 향상시킬 수 있습니다.

구현 코드는 어디서 구할 수 있습니까?

6. 통합 텍스트-텍스트 변환기를 통한 전송 학습의 한계 탐구Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu

원본 초록

다운 스트림 작업에서 미세 조정되기 전에 모델이 데이터가 풍부한 작업에 대해 사전 훈련 된 전송 학습은 자연 언어 처리 (NLP)의 강력한 기술로 등장했습니다. 전이 학습의 효과로 인해 다양한 접근 방식, 방법론 및 실습이 이루어졌습니다. 본 논문에서는 모든 언어 문제를 텍스트-텍스트 형식으로 변환하는 통합 프레임 워크를 도입하여 NLP를위한 전송 학습 기술의 조경을 탐구합니다. 우리의 체계적인 연구는 사전 훈련 목표, 아키텍처, 레이블이 지정되지 않은 데이터 세트, 전송 접근법 및 수십 가지 언어 이해 과제에 대한 기타 요소를 비교합니다. 우리는 탐사에서 얻은 통찰력과 규모 및 새로운“Colossal Clean Crawled Corpus”를 결합하여 요약, 질문 답변, 텍스트 분류 등을 포함한 많은 벤치 마크에서 최첨단 결과를 얻습니다. NLP의 전이 학습에 대한 향후 작업을 용이하게하기 위해 데이터 세트, 사전 훈련 된 모델 및 코드를 출시합니다.

우리의 요약

Google 연구팀은 현장에서 새로운 최첨단을 설정하려는 목표로 NLP에서 학습을 이전하는 통일 된 접근법을 제안합니다. 이를 위해 각 NLP 문제를 "텍스트-텍스트"문제로 취급 할 것을 제안합니다. 이러한 프레임 워크를 사용하면 요약, 감정 분석, 질문 응답 및 기계 번역을 포함하여 다양한 작업에 동일한 모델, 객관적, 교육 절차 및 디코딩 프로세스를 사용할 수 있습니다. 연구원들은 그들의 모델을 TTL (텍스트-텍스트 전송 트랜스포머) 수많은 NLP 작업에 대한 최첨단 결과를 얻기 위해 웹 스크랩 된 대량의 데이터에 대해 교육합니다.

T5 언어 모델

이 백서의 핵심 아이디어는 무엇입니까?

  • 이 논문에는 몇 가지 중요한 공헌이 있습니다.
    • 기존 기술을 탐색하고 비교하여 NLP 필드의 위치에 대한 포괄적 인 관점을 제공합니다.
    • 모든 NLP 문제를 다음과 같이 처리하여 NLP에서 학습을 이전하는 새로운 접근법을 소개합니다. 텍스트에서 텍스트로 직무:
      • 이 모델은 원래 입력 문장에 추가 된 작업 별 접두사 (예 : "영어를 독일어로 번역 :", "요약 :")로 인해 수행 할 작업을 이해합니다.
    • 수백 기가 바이트의 깨끗한 웹 스크랩 영어 텍스트로 구성된 새로운 데이터 세트를 발표 및 공개 거대 크롤링 코퍼스 (C4).
    • 라는 큰 (최대 11B 매개 변수) 모델 학습 TTL (텍스트-텍스트 전송 트랜스포머) C4 데이터 세트에서.

주요 성과는 무엇입니까?

  • 5 억 개의 매개 변수가있는 T11 모델은 다음을 포함하여 17 개 작업 중 24 개 작업에서 최첨단 성능을 달성했습니다.
    • a GLUE CoLA, RTE 및 WNLI 작업에서 성능이 크게 개선 된 89.7 점;
    • 에 정확한 일치 점수 90.06 분대 데이터 세트;
    • a 초강력 접착제 점수 88.9는 이전의 최신 결과 (84.6)에 비해 매우 개선되었으며 인간의 성과에 매우 근접합니다 (89.8).
    • 에 ROUGE-2-F 점수 21.55 CNN / 일일 우편 추상적 요약 작업.

미래의 연구 분야는 무엇입니까?

  • 저렴한 모델로 더 강력한 성능을 달성하는 방법을 연구합니다.
  • 보다 효율적인 지식 추출 기술 탐색
  • 언어에 구애받지 않는 모델에 대한 추가 조사.

가능한 비즈니스 응용 프로그램은 무엇입니까?

  • 소개 된 모델에는 수십억 개의 매개 변수가 있으며 비즈니스 환경에 적용하기에는 너무 무거울 수 있지만 제시된 아이디어는 요약, 질문 응답 및 감정 분석을 포함한 다양한 NLP 작업의 성능을 개선하는 데 사용될 수 있습니다.

구현 코드는 어디서 구할 수 있습니까?

  • 데이터 세트 및 코드와 함께 사전 훈련 된 모델이 GitHub의.

7. 언어 모델은 몇 번의 학습자입니다, 작성자: Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child , Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu,
클레멘스 윈터, 크리스토퍼 헤세, 마크 첸, 에릭 시글러, 마테우스 리트윈, 스콧 그레이, 벤자민 체스, 잭 클락, 크리스토퍼 버너, 샘 맥캔들리시, 알렉 래드포드, 일리야 수츠케버, 다리오 아모데이

원본 초록

최근 작업은 많은 양의 텍스트에 대한 사전 교육과 특정 작업에 대한 미세 조정을 통해 많은 NLP 작업과 벤치 마크에서 상당한 이득을 얻었습니다. 일반적으로 아키텍처에서는 작업에 구애받지 않지만이 방법에는 수천 또는 수만 개의 예제로 구성된 작업 별 미세 조정 데이터 세트가 여전히 필요합니다. 대조적으로, 인간은 일반적으로 몇 가지 예 또는 간단한 지침을 통해 새로운 언어 작업을 수행 할 수 있습니다. 현재 NLP 시스템은 여전히 ​​수행하기 어려운 작업입니다. 여기서 우리는 언어 모델을 확장하면 작업에 구애받지 않는 몇 번의 성능이 크게 향상되고 때로는 이전의 최첨단 미세 조정 접근 방식으로 경쟁력에 도달한다는 것을 보여줍니다. 특히, 우리는 이전의 비 희소 언어 모델보다 3 배 더 많은 175 억 개의 매개 변수가있는 자기 회귀 언어 모델 인 GPT-10을 훈련하고 몇 번의 설정에서 성능을 테스트합니다. 모든 작업에 대해 GPT-3은 그라데이션 업데이트 나 미세 조정없이 적용되며, 순수하게 모델과의 텍스트 상호 작용을 통해 지정된 작업 및 몇 번의 시연이 있습니다. GPT-3은 번역, 질문 응답 및 클로즈 작업을 포함한 많은 NLP 데이터 세트에서 강력한 성능을 달성 할뿐만 아니라 단어를 풀기 같은 즉석 추론 또는 도메인 적응이 필요한 여러 작업에서 새로운 단어를 사용하여 문장 또는 3 자리 산술 수행. 동시에 GPT-3의 몇 번의 학습이 여전히 어려움을 겪고있는 일부 데이터 세트와 GPT-3가 대규모 웹 말뭉치에 대한 훈련과 관련된 방법 론적 문제에 직면 한 일부 데이터 세트도 식별합니다. 마지막으로 GPT-3는 인간 평가자가 인간이 작성한 기사와 구별하기 어려운 뉴스 기사 샘플을 생성 할 수 있음을 발견했습니다. 이 발견과 GPT-3의 전반적인 사회적 영향에 대해 논의합니다.

우리의 요약

OpenAI 연구팀은 모든 새로운 언어 작업에 대해 레이블이 지정된 데이터 세트의 필요성이 언어 모델의 적용 가능성을 제한한다는 사실에 주목합니다. 가능한 작업의 범위가 넓고 레이블이 지정된 대규모 교육 데이터 세트를 수집하는 것이 어려운 경우가 많다는 점을 고려하여 연구원들은 언어 모델을 확장하여 작업에 구애받지 않는 몇 번의 성능을 향상시키는 대체 솔루션을 제안합니다. 그들은 175B 매개 변수 자기 회귀 언어 모델을 학습하여 솔루션을 테스트합니다. GPT-3, 3 개 이상의 NLP 작업에 대한 성능 평가. 소수 학습, 원샷 학습 및 제로 샷 학습에 대한 평가는 GPT-XNUMX가 유망한 결과를 달성하고 때로는 미세 조정 된 모델로 달성 한 최첨단 기술을 능가한다는 것을 보여줍니다.

GPT-3

이 백서의 핵심 아이디어는 무엇입니까?

  •   GPT-3 모델은 수정 된 초기화, 사전 정규화 및 가역적 토큰 화를 포함하여 GPT-2와 동일한 모델 및 아키텍처를 사용합니다.
  • 그러나 GPT-2와는 달리 변압기의 레이어에서 밀도가 높고 국부적으로 줄무늬가있는 희소주의 패턴을 교대로 사용합니다. 스파 스 트랜스포머.
  • 모델은 세 가지 다른 설정으로 평가됩니다.
    • 몇 번의 학습, 모델에 추론 시간에 작업에 대한 몇 가지 데모 (일반적으로 10 ~ 100 개)가 제공되지만 가중치 업데이트는 허용되지 않습니다.
    • 원샷 학습, 작업에 대한 자연어 설명과 함께 하나의 데모 만 허용되는 경우.
    • 제로 샷 학습, 데모가 허용되지 않고 모델이 작업의 자연어 설명에만 액세스 할 수있는 경우.

주요 성과는 무엇입니까?

  • 미세 조정이없는 GPT-3 모델은 여러 NLP 작업에서 유망한 결과를 달성하고 때로는 특정 작업에 대해 미세 조정 된 최신 모델을 능가합니다.
    • 코QA 벤치 마크, 제로 샷 설정에서 81.5 F1, 원샷 설정에서 84.0 F1, 그리고 미세 조정 된 SOTA로 달성 된 85.0 F1 점수와 비교하여 몇 번 설정에서 90.7 F1.
    • 트리 비아 QA 벤치 마크, 제로 샷 설정에서 64.3 % 정확도, 원샷 설정에서 68.0 %, 몇 샷 설정에서 71.2 %로 최신 (68 %)을 3.2 % 능가했습니다.
    • 람바다 데이터 세트, 제로 샷 설정에서 76.2 % 정확도, 원샷 설정에서 72.5 %, 그리고 몇 샷 설정에서 86.4 %로 최첨단 (68 %)을 18 % 능가했습니다.
  • 인간의 평가에 따르면 175B 매개 변수 GPT-3 모델로 생성 된 뉴스 기사는 실제 기사와 구별하기 어렵습니다 (정확도는 ~ 52 %의 확률 수준보다 거의 높음).

미래의 연구 분야는 무엇입니까?

  • 사전 훈련 샘플 효율성 향상.
  • 몇 번의 학습이 어떻게 작동하는지 탐구합니다.
  • 실제 응용 프로그램을 위해 관리 가능한 크기로 큰 모델을 증류합니다.

AI 커뮤니티는 어떻게 생각합니까?

  • “GPT-3 과대 광고는 너무 많습니다. 인상적이지만 (좋은 칭찬에 감사드립니다!) 여전히 심각한 약점이 있고 때로는 매우 어리석은 실수를합니다. AI는 세상을 바꿀 것이지만 GPT-3는 아주 초기 단계에 불과합니다. 우리는 아직 알아낼 ​​것이 많습니다.” – OpenAI의 CEO 겸 공동 설립자 Sam Altman.
  • “폭력이나 살해와는 무관 한 GPT-3에서 무슬림에 대한 텍스트를 생성하는 것이 얼마나 힘든지 놀랐습니다…”– Gradio의 CEO이자 설립자 인 Abubakar Abid.
  • "아니. GPT-3은 근본적으로 그것이 말하는 세상을 이해하지 못합니다. 말뭉치를 더 늘리면 더 신뢰할 수있는 파스 티슈를 생성 할 수 있지만 근본적인 세계 이해 부족을 고칠 수는 없습니다. GPT-4 데모에는 여전히 인간 체리 따기가 필요합니다. " – Robust.ai의 CEO 겸 설립자 Gary Marcus.
  • "GPT3의 놀라운 성능을 미래로 외삽하면 생명, 우주 및 모든 것에 대한 답이 4.398 조 매개 변수에 불과하다는 것을 알 수 있습니다." – Geoffrey Hinton, Turing Award 수상자.

가능한 비즈니스 응용 프로그램은 무엇입니까?

  • 175B 매개 변수가있는 모델은 비실용적 인 리소스 요구 사항으로 인해 실제 비즈니스 문제에 적용하기 어렵지만 연구원이이 모델을 실행 가능한 크기로 축소하면 질문 답변을 비롯한 다양한 언어 작업에 적용 할 수 있습니다. 및 광고 카피 생성.

구현 코드는 어디서 구할 수 있습니까?

  • 코드 자체는 사용할 수 없지만 GPT-2048의 무조건 필터링되지 않은 3 개 토큰 샘플과 함께 일부 데이터 세트 통계는 GitHub의.

8. ELECTRA : 제너레이터가 아닌 판별 기로서 텍스트 인코더 사전 훈련, Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning

원본 초록

BERT와 같은 마스킹된 언어 모델링(MLM) 사전 훈련 방법은 일부 토큰을 [MASK]로 대체하여 입력을 손상시킨 다음 모델을 훈련시켜 원래 토큰을 재구성합니다. 여
다운스트림 NLP 작업으로 전송될 때 좋은 결과를 생성하지만 일반적으로 효과적이려면 많은 양의 컴퓨팅이 필요합니다. 대안으로 대체 토큰 감지라는 보다 샘플 효율적인 사전 훈련 작업을 제안합니다. 입력을 마스킹하는 대신 우리의 접근 방식은 일부 토큰을 소규모 생성기 네트워크에서 샘플링된 그럴듯한 대안으로 대체하여 입력을 손상시킵니다. 그런 다음 손상된 토큰의 원래 ID를 예측하는 모델을 교육하는 대신 손상된 입력의 각 토큰이 생성기 샘플로 대체되었는지 여부를 예측하는 식별 모델을 교육합니다. 철저한 실험은 이 새로운 사전 훈련 작업이 마스킹된 작은 하위 집합이 아니라 모든 입력 토큰에 대해 정의되기 때문에 MLM보다 더 효율적임을 보여줍니다. 결과적으로, 우리의 접근 방식으로 학습한 상황별 표현은 동일한 모델 크기, 데이터 및 컴퓨팅이 주어진 BERT로 학습한 것보다 훨씬 뛰어납니다. 이득은 특히 소형 모델에서 강력합니다. 예를 들어, 우리는 GLUE 자연어 이해 벤치마크에서 GPT(4배 더 많은 컴퓨팅을 사용하여 훈련)를 능가하는 모델을 30일 동안 하나의 GPU에서 훈련합니다. 우리의 접근 방식은 또한 대규모로 잘 작동하여 RoBERTa 및 XLNet과 비교할 때 컴퓨팅의 1/4 미만을 사용하고 동일한 양의 컴퓨팅을 사용할 때 성능을 능가합니다.

우리의 요약

BERT 및 XLNet과 같은 널리 사용되는 언어 모델에 대한 사전 교육 작업에는 레이블이없는 입력의 작은 하위 집합을 마스킹 한 다음 네트워크를 교육하여이 원래 입력을 복구하는 작업이 포함됩니다. 비록 잘 작동하더라도,이 접근법은 적은 양의 토큰 (일반적으로 ~ 15 %)에서만 배울 수 있기 때문에 특히 데이터 효율적이지 않습니다. 대안으로, 스탠포드 대학과 구글 브레인의 연구원들은 새로운 사전 훈련 과제를 제안합니다 교체 된 토큰 감지. 마스킹 대신 일부 언어 토큰을 작은 언어 모델로 생성 된 적절한 대안으로 대체 할 것을 제안합니다. 그런 다음 사전 훈련 된 판별기를 사용하여 각 토큰이 원래인지 또는 대체인지를 예측합니다. 결과적으로이 모델은 작은 마스크 분수 대신 모든 입력 토큰에서 학습하므로 계산 효율이 훨씬 높아집니다. 실험 결과 도입 된 접근 방식으로 다운 스트림 NLP 작업에 대한 교육이 훨씬 빨라지고 정확도가 높아짐을 확인했습니다.

전자-NLP

이 백서의 핵심 아이디어는 무엇입니까?

  • 마스크 언어 모델링을 기반으로하는 사전 훈련 방법은 학습을 위해 적은 양의 토큰 만 사용하므로 계산이 비효율적입니다.
  • 연구원들은라는 새로운 사전 훈련 과제를 제안합니다 교체 된 토큰 감지, 어디:
    • 일부 토큰은 소량의 샘플로 대체됩니다 발전기 회로망;
    • 모델은 판별 자 원래 토큰과 교체 된 토큰을 구별합니다.
  • 도입 된 접근 방식 일렉트라 (E효율적으로 L적립 Encoder CLassifies T오켄 R배치 A정확하게) :
    • 모델이 작은 마스크 아웃 서브 세트 대신 모든 입력 토큰에서 학습 할 수 있도록합니다.
    • 교체 용 토큰을 생성하는 발전기가 최대한의 가능성으로 훈련 되었기 때문에 GAN과 유사 함에도 불구하고 적대적이지는 않습니다.

주요 성과는 무엇입니까?

  • 실제 데이터와 음성 샘플을 구별하는 차별적 인 작업이 언어 표현 학습을위한 기존의 생성 방법보다 효율적이라는 것을 증명합니다.
  • 사전 훈련 계산을 적게 요구하면서 최첨단 접근 방식을 능가하는 모델을 소개합니다.
    • ELECTRA-Small은 79.9 점의 GLUE 점수를 획득하고 75.1 점으로 비교적 작은 BERT 모델을 능가하며 78.8 점으로 훨씬 큰 GPT 모델을 능가합니다.
    • XLNet 및 RoBERTa에 필적하는 ELECTRA 모델은 사전 훈련 계산의 25 % 만 사용합니다.
    • ELECTRA-Large는 GLUE 및 SQuAD 벤치 마크에서 대안적인 최첨단 모델을 능가하면서도 사전 훈련 계산은 적게 요구합니다.

AI 커뮤니티는 어떻게 생각합니까?

  • 종이가 선택되었습니다 프레젠테이션 ICLR 2020에서 딥 러닝을 주도하는 컨퍼런스입니다.

가능한 비즈니스 응용 프로그램은 무엇입니까?

  • ELECTRA 방식은 계산 효율성으로 인해 사전 훈련 된 텍스트 엔코더를 비즈니스 실무자가보다 쉽게 ​​이용할 수 있습니다.

구현 코드는 어디서 구할 수 있습니까?

  • 원래 TensorFlow 구현 및 사전 훈련 된 가중치는 GitHub의.

9. DeBERTa : 얽 히지 않은주의를 기울이는 디코딩 강화 BERT, Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen

원본 초록 

사전 훈련 된 신경 언어 모델의 최근 발전으로 많은 자연어 처리 (NLP) 작업의 성능이 크게 향상되었습니다. 이 논문에서 우리는 두 가지 새로운 기술을 사용하여 BERT 및 RoBERTa 모델을 개선하는 새로운 모델 아키텍처 DeBERTa (Decoding-enhanced BERT)를 제안합니다. 첫 번째는 각 단어가 내용과 위치를 각각 인코딩하는 두 개의 벡터를 사용하여 표현되고 단어 간의주의 가중치가 각각 내용 및 상대 위치에 대한 분리 된 행렬을 사용하여 계산되는 분리 된주의 메커니즘입니다. 둘째, 모델 사전 훈련에서 마스킹 된 토큰을 예측하기 위해 디코딩 계층에 절대 위치를 통합하는 데 향상된 마스크 디코더가 사용됩니다. 또한 모델의 일반화를 개선하기 위해 미세 조정을 위해 새로운 가상 적대적 훈련 방법이 사용됩니다. 우리는 이러한 기술이 모델 사전 훈련의 효율성과 자연어 이해 (NLU) 및 자연어 생성 (NLG) 다운 스트림 작업의 성능을 크게 향상 시킨다는 것을 보여줍니다. RoBERTa-Large와 비교하여 훈련 데이터의 절반에 대해 훈련 된 DeBERTa 모델은 광범위한 NLP 작업에서 일관되게 더 나은 성능을 발휘하여 SQuAD v0.9에서 MNLI를 + 90.2 % (91.1 % 대 2.0 %) 개선했습니다. + 2.3 % (88.4 % vs. 90.7 %) 및 RACE + 3.6 % (83.2 % vs. 86.8 %). 특히 48 억 개의 매개 변수가있는 1.5 개의 Transform 레이어로 구성된 더 큰 버전을 학습하여 DeBERTa를 확장합니다. 상당한 성능 향상으로 인해 단일 DeBERTa 모델은 처음으로 SuperGLUE 벤치 마크 (Wang et al., 2019a)에서 매크로 평균 점수 (89.9 대 89.8) 측면에서 인간 성능을 능가하고 앙상블 DeBERTa 모델이 SuperGLUE 리더 보드는 6 년 2021 월 90.3 일 기준으로 인간 기준선보다 상당한 마진 (89.8 대 XNUMX)을 능가했습니다.

우리의 요약 

Microsoft Research의 저자는 BERT에 비해 두 가지 주요 개선 사항을 포함하여 DeBERTa를 제안합니다. 얽매이지 않은주의향상된 마스크 디코더. DeBERTa에는 콘텐츠와 상대 위치를 각각 인코딩하여 토큰/단어를 나타내는 두 개의 벡터가 있습니다. DeBERTa의 self-attention 메커니즘은 content-to-content, content-to-position 및 position-to-content의 self-attention을 처리하는 반면 BERT의 self-attention은 처음 두 구성 요소만 갖는 것과 같습니다. 저자는 일련의 토큰에서 상대적인 위치를 포괄적으로 모델링하기 위해 위치 대 콘텐츠 셀프 어텐션이 필요하다는 가설을 세웁니다. 또한 DeBERTa에는 향상된 마스크 디코더가 장착되어 있어 토큰/단어의 절대 위치가
상대 정보와 함께 디코더에도 제공됩니다. DeBERTa의 단일 확장 변종은 처음으로 SuperGLUE 벤치마크에서 인간 기준선을 능가합니다. 앙상블 DeBERTa는 이 발행 당시 SuperGLUE에서 가장 성능이 좋은 방법입니다.

이 백서의 핵심 아이디어는 무엇입니까?

  • 얽매이지 않은주의: 오리지널 BERT에서는 컨텐츠 임베딩과 위치 임베딩이 자기주의 이전에 추가되고 자기주의는 컨텐츠의 출력과 위치 벡터에만 적용됩니다. 저자는 이것이 내용 대 내용 자기주의 및 내용 대 위치 자기주의만을 설명하고 위치 정보를 완전히 모델링하기 위해 위치 대 내용 자기주의가 필요하다고 가정합니다. DeBERTa는 콘텐츠와 위치를 나타내는 두 개의 개별 벡터를 가지고 있으며 가능한 모든 쌍, 즉 콘텐츠 대 콘텐츠, 콘텐츠 대 콘텐츠, 위치 대 콘텐츠 및 위치 대 위치 사이에서 자기주의가 계산됩니다. 위치 간 자기주의는 항상 사소한 1이고 정보가 없으므로 계산되지 않습니다. 
  • 향상된 마스크 디코더: 저자는 모델이 주체-객체 특성화와 같은 구문 적 뉘앙스를 이해하기 위해 절대 위치 정보가 필요하다고 가정합니다. 따라서 DeBERTa에는 상대 위치 정보와 함께 절대 위치 정보가 제공됩니다. 절대 위치 임베딩은 출력을 제공하는 소프트 맥스 계층 바로 앞의 마지막 디코더 계층에 제공됩니다.
데베르타
  • 스케일 불변 미세 조정: 가상 적대 훈련 알고리즘 스케일 불변 미세 조정 일반화를 증가시키는 정규화 방법으로 사용됩니다. 단어 임베딩은 약간 교란되며 교란되지 않은 단어 임베딩에서와 동일한 출력을 생성하도록 훈련됩니다. 단어 임베딩 벡터는 모델의 매개 변수 수에 불변하는 확률 적 벡터 (벡터의 요소 합계가 1 인 경우)로 정규화됩니다. 

주요 성과는 무엇입니까?

  • 현재의 최첨단 방법 인 RoBERTa-Large와 비교할 때 훈련 데이터의 절반에 대해 훈련 된 DeBERTA 모델은 다음을 달성합니다.
    • MNLI에서 정확도 + 0.9 % 향상 (91.1 % 대 90.2 %),
    • SQuAD v2.3에서 정확도 2.0 % 향상 (90.7 % 대 88.4 %)
    • RACE에서 정확도 + 3.6 % 향상 (86.8 % 대 83.2 %)
  • DeBERTa의 단일 확장 변형이 SuperGLUE 벤치 마크에서 처음으로 인간 기준을 능가합니다 (89.9 대 89.8). 앙상블 DeBERTa는이 출판 당시 SuperGLUE에서 최고 성능을 발휘하는 방법으로 인간 기준선보다 상당한 마진 (90.3 대 89.8)을 능가했습니다.

AI 커뮤니티는 어떻게 생각합니까?

  • 이 논문은 딥 러닝의 핵심 컨퍼런스 중 하나 인 ICLR 2021에 채택되었습니다.

미래의 연구 분야는 무엇입니까?

  • EMD (Enhanced Mask Decoder) 프레임 워크로 위치 외에도 다른 유용한 정보를 도입하여 사전 훈련을 개선합니다.
  • 스케일 불변 미세 조정 (SiFT)에 대한보다 포괄적 인 연구.

가능한 비즈니스 응용 프로그램은 무엇입니까?

  • 사전 훈련 된 언어 모델링의 컨텍스트 표현은 다른 작업 중에서도 검색, 질문 답변, 요약, 가상 비서 및 챗봇에 사용될 수 있습니다.

구현 코드는 어디서 구할 수 있습니까?

10. PaLM: Pathways로 언어 모델링 확장, Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, 정형원, Charles Sutton, Sebastian Gehrmann, Parker Schuh, Kensen Shi, Sasha Tsvyashchenko, Joshua Maynez, Abhishek Rao, Parker Barnes , Yi Tay, Noam Shazeer, Vinodkumar Prabhakaran, Emily Reif, Nan Du, Ben Hutchinson, Reiner Pope, James Bradbury, Jacob Austin, Michael Isard, Guy Gur-Ari, Pengcheng Yin, Toju Duke, Anselm Levskaya, Sanjay Ghemawat, Sunipa Dev , Henryk Michalewski, Xavier Garcia, Vedant Misra, Kevin Robinson, Liam Fedus, Denny Zhou, Daphne Ippolito, David Luan, 임현택, Barret Zoph, Alexander Spiridonov, Ryan Sepassi, David Dohan, Shivani Agrawal, Mark Omernick, Andrew M. Dai , Thanumalayan Sankaranarayana Pillai, Marie Pellat, Aitor Lewkowycz, Erica Moreira, Rewon Child, Oleksandr Polozov, Katherine Lee, Zongwei Zhou, Xuezhi Wang, Brennan Saeta, Mark Diaz, Orhan Firat, Michele Catasta, Jason Weils, 에크, 제프 딘, 슬라브 P 에트로프, 노아 피델

원본 초록

대규모 언어 모델은 몇 번의 학습을 사용하여 다양한 자연어 작업에서 놀라운 성능을 달성하는 것으로 나타났으며, 이는 특정 애플리케이션에 모델을 적용하는 데 필요한 작업별 교육 예제의 수를 크게 줄입니다. 소수의 학습에 대한 규모의 영향에 대한 더 깊은 이해를 위해 우리는 Pathways Language Model PaLM이라고 부르는 540억 개의 매개변수, 조밀하게 활성화된 Transformer 언어 모델을 훈련했습니다. 여러 TPU Pod에서 매우 효율적인 교육을 가능하게 하는 새로운 ML 시스템인 Pathways를 사용하여 6144 TPU v4 칩에서 PaLM을 교육했습니다. 우리는 수백 가지 언어 이해 및 생성 벤치마크에서 최첨단 몇 번의 학습 결과를 달성함으로써 확장의 지속적인 이점을 보여줍니다. 이러한 여러 작업에서 PaLM 540B는 다단계 추론 작업 모음에서 미세 조정된 최첨단 성능을 능가하는 획기적인 성능을 달성하고 최근에 출시된 BIG 벤치 벤치마크에서 평균적인 인간 성능을 능가합니다. 상당한 수의 BIG-벤치 작업이 모델 규모에서 비연속적으로 개선된 것으로 나타났습니다. 즉, 가장 큰 모델로 확장함에 따라 성능이 가파르게 증가했습니다. PaLM은 또한 다양한 벤치마크에서 시연하는 다국어 작업 및 소스 코드 생성에 대한 강력한 기능을 갖추고 있습니다. 우리는 또한 편향과 독성에 대한 포괄적인 분석을 제공하고 모델 규모와 관련하여 훈련 데이터 암기의 정도를 연구합니다. 마지막으로, 우리는 큰 언어 모델과 관련된 윤리적 고려 사항에 대해 논의하고 잠재적인 완화 전략에 대해 논의합니다.

우리의 요약

Google Research 팀은 BERT, ALBERT 및 T5 모델을 사용하여 사전 훈련된 언어 모델 영역에서 많은 기여를 했습니다. 그들의 최근 공헌 중 하나는 Pathways 언어 모델(PaLM), 540억 매개변수, Pathways 시스템으로 훈련된 조밀한 디코더 전용 Transformer 모델. Pathways 시스템의 목표는 가속기를 위한 분산 계산을 조정하는 것입니다. 팀은 도움을 받아 여러 TPU v4 Pod에서 단일 모델을 효율적으로 훈련할 수 있었습니다. 수백 가지의 언어 이해 및 생성 작업에 대한 실험은 PaLM이 언어 이해, 언어 생성, 추론 및 코드 관련 작업에서 입증된 획기적인 기능을 통해 대부분의 작업에서 최첨단 소수의 성능을 달성한다는 것을 보여주었습니다.

이 백서의 핵심 아이디어는 무엇입니까?

  • 이 문서의 주요 아이디어는 Pathways 시스템을 사용하여 540억 개의 매개변수 언어 모델 교육을 확장하는 것입니다.
    • 팀은 표준 데이터 및 모델 병렬을 사용하면서 두 개의 Cloud TPU v4 포드에 걸쳐 포드 수준에서 데이터 병렬 처리를 사용하고 있었습니다.
      ism 각 포드 내에서.
    • 그들은 훈련을 지금까지 훈련에 사용된 가장 큰 TPU 기반 시스템 구성인 6144 TPU v4 칩으로 확장할 수 있었습니다.
    • 이 모델은 57.8% 하드웨어 FLOP 사용률의 교육 효율성을 달성했으며, 이는 저자가 주장하는 바와 같이 이 규모에서 대규모 언어 모델에 대해 달성한 가장 높은 교육 효율성입니다. 
  • PaLM 모델에 대한 교육 데이터에는 고품질 웹 문서, 책, Wikipedia, 대화 및 GitHub 코드가 포함된 영어 및 다국어 데이터 세트의 조합이 포함되었습니다.

주요 성과는 무엇입니까?

  • 수많은 실험을 통해 팀이 가장 큰 모델로 확장함에 따라 모델 성능이 급격히 증가했음을 보여줍니다.
  • PaLM 540B는 매우 어려운 여러 작업에서 획기적인 성능을 달성했습니다.
    • 언어 이해 및 생성. 도입된 모델은 질의응답, 클로즈 및 문장완성, 상황별 독해, 상식추론, SuperGLUE 등 총 28개 과제 중 29개 과제에서 기존 대형 모델에 비해 성능이 뛰어났다. 더. BIG-bench 작업에 대한 PaLM의 성능은 원인과 결과를 구별할 수 있을 뿐만 아니라 적절한 컨텍스트에서 개념적 조합을 이해할 수 있음을 보여주었습니다.
    • 추리. PaLM은 8-shot 프롬프팅을 통해 수천 개의 까다로운 초등학교 수준 수학 문제의 벤치마크인 GSM58K 문제의 8%를 해결하여 GPT-55 3B 모델을 미세 조정하여 달성한 이전 최고 점수인 175%를 능가합니다. PaLM은 또한 다단계 논리적 추론, 세계 지식 및 깊은 언어 이해의 복잡한 조합이 필요한 상황에서 명시적인 설명을 생성하는 능력을 보여줍니다.
    • 코드 생성. PaLM은 미세 조정된 Codex 12B와 동등하게 수행하면서 교육에 50배 적은 Python 코드를 사용하여 대규모 언어 모델이 다른 프로그래밍 언어와 자연어 데이터의 학습을 더 효과적으로 전달함을 확인합니다.

미래의 연구 분야는 무엇입니까?

  • Pathways 시스템의 확장 기능을 새로운 아키텍처 선택 및 교육 계획과 결합합니다.

가능한 비즈니스 응용 프로그램은 무엇입니까?

  • 최근에 도입된 다른 사전 훈련된 언어 모델과 마찬가지로 PaLM은 대화형 AI, 질문 답변, 기계 번역, 문서 분류, 광고 카피 생성, 코드 버그 수정 등을 포함한 광범위한 다운스트림 작업에 적용될 수 있습니다.

구현 코드는 어디서 구할 수 있습니까?

  • 지금까지 PaLM에 대한 공식 코드 구현 릴리스는 없었지만 실제로는 일부 사용자 정의와 함께 표준 Transformer 모델 아키텍처를 사용합니다. 
  • PaLM의 특정 Transformer 아키텍처의 Pytorch 구현은 다음에서 액세스할 수 있습니다. GitHub의.

이러한 연구 요약이 마음에 들면 다음 기사에도 관심이있을 수 있습니다.

이 기사를 즐기십니까? 더 많은 AI 연구 업데이트에 가입하십시오.

이와 같은 더 많은 요약 기사를 발표하면 알려 드리겠습니다.

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?