AI Weekly: OpenAI의 GPT-3 복제 및 오픈 소스를 시도하는 사람들 만나기

XNUMX 월 OpenAI는 논문을 발표했습니다. 자세히 여러 자연어 벤치 마크에서 강력한 결과를 달성하는 기계 학습 모델 인 GPT-3. 175 억 개의 매개 변수 (역사적 학습 데이터에서 학습 한 모델의 일부)는 동종 중 가장 큰 매개 변수 중 하나입니다. 또한 원시적 인 비유를 할 수있는 능력이있는 가장 정교한 것 중 하나입니다. 초서 스타일로 쓰다, 심지어 완전한 기본 코드.

GPT-3의 이전 모델 인 GPT-2 및 GPT-1과 달리 OpenAI는 모델 또는 학습 데이터 세트를 오픈 소스하지 않고 대신 상용 API를 통해 전자를 사용할 수 있도록 선택했습니다. 이 회사는 OpenAI와 비즈니스 관계를 맺고있는 Microsoft에 GPT-3 독점 라이선스를 선택하여 액세스를 더욱 줄였습니다. Microsoft는 OpenAI에 1 억 달러를 투자했습니다. OpenAI의 연구를 더욱 강화하기 위해 설계된 Azure 호스팅 슈퍼 컴퓨터를 구축했습니다.

오픈 소스에서 GPT-3을 재현하려는 몇 가지 노력이 나타 났지만 아마도 가장 먼 곳은 GPT-Neo가 주도하는 프로젝트입니다. Eleuther AI. 오픈 소스 기계 학습 연구를 위해 일하는 풀뿌리 연구자 모음 인 EleutherAI와 창립 멤버 인 Connor Leahy, Leo Gao 및 Sid Black은 GPT와 동일하지는 않지만 유사한 모델을 실행하는 데 필요한 코드와 가중치를 제공하는 것을 목표로합니다. -3 월 XNUMX 월. (가중치는 입력 데이터를 변환하는 신경망 내의 매개 변수입니다.)

Eleuther AI

Leahy에 따르면 EleutherAI는 TPU 팟 캐스트, 기계 학습 Discord 서버에서 그는 누군가가 GPT-3 복제를 시도해야한다고 장난스럽게 제안했습니다. Leahy, Gao 및 Black은이를 논리적으로 극한까지 가져와 EleutherAI Discord 서버를 설립했으며, 이는 조직 운영의 기반이되었습니다.

Leahy는 인터뷰에서 VentureBeat와의 인터뷰에서 "저는 GPT-3 및 기타 유사한 결과를 현재 기술 만 사용하여 [강력한 모델]을 만드는 것이 실제로 가능할 수 있다는 강력한 증거라고 생각합니다."라고 말했습니다. "EleutherAI가 보여준 것처럼 실제로는 매우, 매우 어렵지만, 똑똑한 사람들 그룹에게는 불가능하지 않은 것으로 밝혀졌습니다. 물론 비합리적인 양의 컴퓨터 하드웨어에 액세스 할 수 있습니다."

개인 프로젝트의 일환으로 Leahy는 이전에 Google의 Tensorflow Research Cloud (TFRC) 프로그램을 통한 컴퓨팅 액세스를 활용하여 GPT-2를 복제하려고 시도했습니다. GPT-Neo가 된 원래 코드베이스는 Google의 맞춤형 AI 가속기 칩인 텐서 처리 장치 (TPU)에서 실행되도록 구축되었습니다. 그러나 EleutherAI 팀은 TFRC를 통해 제공되는 충분한 양의 TPU조차도 3 년 이내에 GPT-Neo의 GPT-XNUMX 유사 버전을 교육하기에 충분하지 않을 것이라고 결론지었습니다.

EleutherAI의 재산은 CGI 렌더링 및 기계 학습 워크로드를위한 클라우드 서비스를 제공하는 미국 기반 암호 화폐 채굴 자 CoreWeave가 회사에 접근했을 때 바뀌 었습니다. 지난달 CoreWeave는 EleutherAI 팀에게 고객이 사용하고 제공 할 수있는 오픈 소스 GPT-3와 유사한 모델의 대가로 하드웨어에 대한 액세스를 제공했습니다.

Leahy는 크리스마스 무렵에 시작된 작업이 어느 방향 으로든 돈이나 다른 보상을 포함하지 않을 것이라고 주장합니다. "CoreWeave는 우리에게 그들의 하드웨어에 대한 액세스를 제공하고 모든 사람이 사용할 수있는 오픈 소스 GPT-3를 만듭니다 (그리고 그들에게 매우 감사함). 그게 전부입니다."라고 그는 말했습니다.

훈련 데이터 세트

EleutherAI는 OpenAI가 GPT-3 아키텍처의 일부 주요 세부 사항을 공개하지 않기로 결정했기 때문에 GPT-Neo가 적어도 그런 방식으로 벗어날 것이라고 인정합니다. Leahy, Gao 및 Black을 포함하여 EleutherAI의 10 명으로 구성된 팀이 큐레이팅 한 EleutherAI가 사용할 교육 데이터 세트에서 다른 차이점이 발생할 수 있습니다.

GPT-3과 같은 언어 모델은 종종 데이터에 인코딩 된 편향을 증폭시킵니다. 훈련 데이터의 일부는 드물게 퍼지는 성별, 인종 및 종교적 편견. OpenAI는 이로 인해 여성 대명사 근처에 "naughty"또는 "sucked"와 같은 단어를 배치하고 "terrorism"과 같은 단어 근처에 "Islam"을 배치 할 수 있다고 지적합니다. Intel, MIT 및 CIFAR (Canadian Institute for Advanced Research) 연구원이 XNUMX 월에 발표 한 것과 같은 다른 연구에서는 다음과 같은 가장 인기있는 일부 모델에서 높은 수준의 고정 관념적 편견을 발견했습니다. Google의 BERT 과 XLNet, OpenAI의 GPT-2및 페이스 북의 로버타. Middlebury Institute of International Studies에 따르면 악의적 인 행위자는 잘못된 정보, 허위 정보 및 "개인을 폭력적인 극우 극단주의 이데올로기와 행동으로 급 진화"하는 노골적인 거짓말을 퍼뜨려 이러한 편견을 활용하여 불화를 조장 할 수 있습니다.

EleutherAI 팀은 GPT-Neo 교육 데이터 세트에 대해 "광범위한 편향 분석"을 수행했으며 특정 그룹이나 뷰에 대해 "용납 할 수 없을 정도로 부정적으로 편향된"일부 데이터 세트를 제외하기 위해 "엄격한 편집 결정"을 내 렸습니다. Pile은 광범위한 일반화 능력을 보장하기 위해 결합 된 835 개의 더 작은 데이터 세트로 구성된 22GB 코퍼스입니다.

Leahy는“우리는 모델이 다양한 상황에서 어떻게 작동하는지, 그리고 어떻게 더 안전하게 만들 수 있는지 계속해서주의 깊게 연구하고 있습니다.

Leahy는 GPT-3과 같은 모델을 출시하면 양극화에 직접적인 부정적인 영향을 미칠 것이라는 생각에 개인적으로 동의하지 않습니다. 극단 주의적 견해를 생성하려는 적들은 독재 정부가 이미 해왔 듯이 트롤 농장을 고용하는 것이 훨씬 저렴하고 더 쉽다는 것을 알게 될 것이라고 그는 주장합니다. 또한 Leahy는 차별과 편견에 대한 논의가 실제 문제를 지적하지만 완전한 해결책을 제공하지는 않는다고 주장합니다. 그는 모델의 입력 데이터를 검열하는 대신 AI 연구 커뮤니티가 "악에 대해 배울 수있는 모든 것을 학습 한 다음 그 지식을 사용하여 악과 싸우고 선이되는"시스템을 지향해야한다고 말합니다.

"GPT-3 유형 모델의 상품화는 모델 출시 여부에 관계없이 의미있는 탈선이되지 않을 설득력있는 디지털 콘텐츠 제작 가격 하락의 불가피한 추세의 일부라고 생각합니다."라고 Leahy는 계속 말했습니다. “여기에서 우리가 가질 수있는 가장 큰 영향은 더 많은 리소스가 부족한 사용자, 특히 학계가 이러한 기술에 액세스하여 더 잘 연구 할 수 있도록 허용하고 모든 것을 갖지 않고 자체적으로 안전에 중점을 둔 연구를 수행 할 수 있도록하는 것입니다. 산업 연구소에 잠겨 있습니다. 결국 이것은 여전히 진행중인 최첨단 연구입니다. 더 나은 모델 가용성 덕분에 학계에서 더 많은 조사를받지 않고 이러한 모델을 그대로 사용하면 편향 재현과 같은 문제가 자연스럽게 발생합니다.”

최근 구글 해고 AI 윤리 학자 Timnit Gebru은 소외된 지역 사회에 대한 탄소 발자국의 영향과 같은 위험을 논의한 대규모 언어 모델에 대한 연구 논문을 부분적으로 검토 한 것으로 알려졌습니다. GPT-Neo 교육이 환경에 미치는 영향에 대해 질문을받은 Leahy는이 주장을 '적 청어'로 규정하고 목적이 수단을 정당화하는지, 즉 교육의 결과가 에너지를 투자 할 가치가 있는지 여부의 문제라고 믿습니다. 그것에.

“이러한 모델을 훈련하는 데 사용되는 에너지의 양은 중간 규모 웹 사이트에 제공하는 에너지 또는 AI 모델의 탄소 배출량에 대한 논문을 발표하기 위해 대서양 횡단 비행을 한 번하는 것보다 훨씬 적습니다. 회의, 또는 신은 비트 코인 채굴을 금지합니다.”라고 Leahy는 말했습니다. "CERN (유럽 원자력 연구기구)의 에너지 법안에 대해 불평하는 사람은 아무도 없으며, 그들도 그렇게해야한다고 생각하지 않습니다."

미래의 일

EleutherAI는 GPT-Neo를 훈련하는 데 유용하다고 팀이 발견 한 아키텍처 조정을 사용할 계획이며,이를 통해 모델이 거의 동일한 크기 (약 3GB ~ 350GB의 가중치)에서 GPT-700과 "유사한"성능을 달성 할 수있을 것으로 기대합니다. 미래에는 더 쉬운 추론을 위해 최종 모델을 "약 XNUMX 배 정도"축소 할 계획입니다. 그리고 어떤 종류의 상용 API도 제공 할 계획은 없지만 CoreWeave 및 기타 업체가 사용자가 GPT-Neo에 액세스 할 수 있도록 서비스를 설정하기를 기대합니다.

GPT의 다음 반복 및 Google의 XNUMX 조 매개 변수와 같이 유사하게 크고 복잡한 모델 스위치 -C, Leahy는 복제하기가 더 어려울 것이라고 생각합니다. 그러나 효율성 향상이 증가하는 컴퓨팅 요구 사항을 상쇄 할 수 있다는 증거가 있습니다. OpenAI 측량 2012 년 이후 인기 벤치 마크 (ImageNet)에서 이미지를 분류하는 동일한 성능으로 AI 모델을 훈련시키는 데 필요한 컴퓨팅 양이 16 개월마다 XNUMX 배씩 감소하고 있음을 발견했습니다. 그러나 새로운 알고리즘 접근 방식과 비교하여 컴퓨팅이 성능에 어느 정도 기여하는지는 여전히 미결입니다.

"성능이 증가하는 한 모델의 크기가 계속 증가하는 것은 불가피한 것 같습니다."라고 Leahy는 말했습니다. “물론 충분히 큰 모델은 작은 배우에게는 손이 닿지 않을 것이지만, 이것은 단지 삶의 사실 인 것 같습니다. 나에게는 실행 가능한 대안이없는 것 같습니다. 더 큰 모델이 더 나은 성능과 같다면, 가장 큰 컴퓨터를 가진 사람은 가장 큰 모델을 만들고 따라서 최고의 성능을 갖게됩니다. 그렇게되지 않았 으면 좋겠지 만, 실제로 할 수있는 일이 없습니다.”

AI 커버리지의 경우 뉴스 팁을 카리 존슨 과 카일 위 거스 및 AI 편집기 세스 콜러 — 그리고 반드시 구독하십시오 AI 주간 뉴스 레터 AI 채널을 북마크하고 기계.

읽어 주셔서 감사합니다,

카일 위 거스

AI 스태프 라이터

VentureBeat

VentureBeat의 사명은 기술 의사 결정권자가 혁신적인 기술과 거래에 대한 지식을 습득 할 수있는 디지털 타운 스퀘어가되는 것입니다. 당사 사이트는 데이터 기술 및 전략에 대한 필수 정보를 제공하여 조직을 이끌 때 안내합니다. 다음에 액세스 할 수 있도록 커뮤니티의 일원이되도록 귀하를 초대합니다.

관심있는 주제에 대한 최신 정보
뉴스 레터
통제 된 사고 리더 콘텐츠 및 Transform과 같은 소중한 이벤트에 대한 할인 된 액세스
네트워킹 기능 등

회원 가입

생성 데이터 인텔리전스

AI Weekly : OpenAI의 GPT-3을 복제하고 오픈 소스하려는 사람들을 만나십시오.

Eleuther AI

훈련 데이터 세트

미래의 일

VentureBeat

국립 가상 기후 연구소는 기후 과학에 대한 가이드입니다 – CleanTechnica

이 반폐쇄형 전기 세발 자전거는 통근을 훨씬 더 즐겁게 만들어 줄 것입니다 – CleanTechnica

최신 인텔리전스

메탄 상쇄 제공업체 Zefiro Mthan, Cboe Canada에 상장

마리화나가 수영복을 입는 데 도움이 될까요?

사람들이 암호화폐 프로젝트에 참여하도록 유도하는 최고의 마케팅 전략은 무엇입니까? – 코인밴드

벨 마비와 마리화나

비디오 게임이 도박 산업에 미치는 영향: 협력의 특징

육군 관계자, 향후 공격 정찰 계획에 의문 제기