제퍼넷 로고

우리가 기계에게 기본 사항을 가르치면 기계가 더 잘 배웁니다.

시간

개요

이웃이 전화를 걸어 부탁을 한다고 상상해 보십시오. 애완용 토끼에게 당근 조각을 먹일 수 있습니까? 충분히 쉽다고 생각할 것입니다. 한 번도 가본 적이 없더라도 그들의 부엌을 상상할 수 있습니다. 냉장고에는 당근, 다양한 칼이 들어 있는 서랍이 있습니다. 추상적인 지식입니다. 이웃의 당근과 칼이 정확히 어떻게 생겼는지 모르지만 오이에 숟가락을 대지는 않을 것입니다.

인공 지능 프로그램은 경쟁할 수 없습니다. 당신이 보기에 쉬운 작업처럼 보이는 것이 현재 알고리즘에 있어서는 엄청난 작업입니다.

AI로 훈련된 로봇은 익숙한 주방에 숨어 있는 지정된 칼과 당근을 찾을 수 있지만 다른 주방에서는 성공하기 위한 추상적인 기술이 부족합니다. "그들은 새로운 환경에 일반화하지 않습니다."라고 말했습니다. 빅터 종, 워싱턴 대학에서 컴퓨터 공학을 전공하는 대학원생. 기계는 배울 것이 너무 많고 탐색할 공간이 너무 방대하기 때문에 실패합니다.

문제는 이러한 로봇과 일반적으로 AI 에이전트가 구축할 개념의 기반이 없다는 것입니다. 그들은 칼이나 당근이 실제로 무엇인지 모르고, 서랍을 여는 방법, 하나를 선택하고 조각을 자르는 방법은 훨씬 더 모릅니다. 이러한 제한은 부분적으로 많은 고급 AI 시스템이 시행 착오를 통해 본질적으로 자기 교육인 강화 학습이라는 방법으로 훈련된다는 사실에 기인합니다. 강화 학습으로 훈련된 AI 에이전트는 훈련받은 환경에서 수행하도록 훈련받은 작업을 매우 잘 수행할 수 있습니다. 그러나 작업이나 환경을 변경하면 이러한 시스템은 종종 실패합니다.

이 한계를 극복하기 위해 컴퓨터 과학자들은 기계에게 중요한 개념을 풀기 전에 가르치기 시작했습니다. 새 소프트웨어를 사용하기 전에 설명서를 읽는 것과 같습니다. 소프트웨어 없이도 탐색할 수 있지만 함께 있으면 훨씬 빨리 배울 수 있습니다. "인간은 행동과 독서의 조합을 통해 배웁니다."라고 말했습니다. 카르티크 나라심한, Princeton University의 컴퓨터 과학자. "우리는 기계가 똑같이 하기를 원합니다."

새 직장 Zhong과 다른 사람들은 이러한 방식으로 학습 모델을 프라이밍하면 온라인과 실제 세계 모두에서 로봇이 있는 시뮬레이션 환경에서 학습을 강화할 수 있음을 보여줍니다. 그리고 알고리즘이 더 빨리 학습하게 할 뿐만 아니라, 그렇지 않으면 절대 배우지 않을 기술로 알고리즘을 안내합니다. 연구자들은 이 요원들이 체스에서 쇼핑, 청소에 이르기까지 무엇이든 배울 수 있는 제너럴리스트가 되기를 원합니다. 그리고 시연이 더욱 실용적이 됨에 따라 과학자들은 이 접근 방식이 인간이 로봇과 상호 작용하는 방식을 바꿀 수도 있다고 생각합니다.

구글의 로봇 공학 연구 과학자인 브라이언 이터(Brian Ichter)는 "이것은 꽤 큰 돌파구였습니다."라고 말했습니다. "XNUMX년 반 만에 얼마나 멀리 왔는지 상상조차 할 수 없습니다."

드문 보상

언뜻 보기에 기계 학습은 이미 눈에 띄게 성공적이었습니다. 대부분의 모델은 일반적으로 강화 학습, 여기서 알고리즘은 보상을 받아 학습합니다. 그들은 완전히 무지하게 시작하지만 시행 착오가 결국 시행 착오가됩니다. 강화 학습 에이전트는 간단한 게임을 쉽게 마스터할 수 있습니다.

플레이어가 디지털 사과를 먹으면서 자라는 뱀을 조종하는 비디오 게임 Snake를 생각해 보십시오. 당신은 당신의 뱀이 가장 많은 사과를 먹고, 경계 내에 머물며 점점 더 부피가 커지는 뱀과 부딪히지 않기를 원합니다. 이러한 명확한 옳고 그름 결과는 보상이 좋은 기계 에이전트에게 긍정적인 피드백을 제공하므로 충분한 시도를 통해 "noob"에서 High Score로 전환할 수 있습니다.

그러나 규칙이 변경되었다고 가정합니다. 아마도 같은 에이전트가 더 큰 그리드와 XNUMX차원에서 플레이해야 할 것입니다. 인간 플레이어는 빠르게 적응할 수 있지만 기계는 두 가지 중요한 약점 때문에 적응할 수 없습니다. 첫째, 더 큰 공간은 뱀이 사과를 우연히 발견하는 데 더 오래 걸리고 보상이 희박해지면 학습이 기하급수적으로 느려진다는 것을 의미합니다. 둘째, 새로운 차원은 완전히 새로운 경험을 제공하고 강화 학습은 새로운 도전에 일반화하는 데 어려움을 겪습니다.

Zhong은 우리가 이러한 장애물을 받아들일 필요가 없다고 말합니다. 강화 학습이 마스터한 또 다른 게임인 "체스를 하고 싶을 때 처음부터 강화 학습 에이전트를 훈련시키는 이유는 무엇입니까?" 이러한 접근 방식은 비효율적입니다. 에이전트는 장군과 같은 좋은 상황을 우연히 발견할 때까지 목적 없이 돌아다니며, Zhong은 에이전트가 상황이 좋다는 것이 무엇을 의미하는지 알 수 있도록 신중한 인간 설계가 필요하다고 말합니다. "체스 두는 방법에 대한 책이 이미 많은데 왜 이렇게 해야 합니까?"

부분적으로는 기계가 처음부터 인간의 언어를 이해하고 이미지를 해독하는 데 어려움을 겪었기 때문입니다. 예를 들어, 로봇이 당근을 찾고 자르는 것과 같은 비전 기반 작업을 완료하려면 당근이 무엇인지 알아야 합니다. 사물의 이미지는 그것이 무엇인지에 대한 보다 근본적인 이해에 "근거"가 있어야 합니다. 최근까지 이를 수행하는 좋은 방법이 없었지만 언어 및 이미지 처리의 속도와 규모의 붐이 새로운 성공을 가능하게 했습니다.

신제품 자연어 처리 모델을 통해 기계는 디지털 사전처럼 단순하고 제한된 의미를 저장하는 대신 단어와 문장 뒤에 있는 의미를 기본적으로 학습하여 세상의 사물에 기반을 둘 수 있습니다.

컴퓨터 비전은 유사한 디지털 폭발을 목격했습니다. 2009년경 ImageNet은 컴퓨터 비전 연구를 위한 주석이 달린 이미지 데이터베이스로 데뷔했습니다. 현재 14만 개 이상의 사물과 장소 이미지를 호스팅하고 있습니다. 그리고 OpenAI와 같은 프로그램 ·E 그릴 정확한 비교가 없음에도 불구하고 인간이 만든 것처럼 보이는 새로운 이미지를 명령에 따라 생성합니다.

기계가 세상에 대해 실제로 배우기에 충분한 온라인 데이터에 액세스할 수 있는 방법을 보여줍니다. 아니마 아난드 쿠마르, California Institute of Technology 및 Nvidia의 컴퓨터 과학자. 그리고 그것은 우리가 하는 것처럼 그들이 개념에서 배우고 그것을 세대를 위해 사용할 수 있다는 신호입니다. "우리는 지금 아주 좋은 순간에 있습니다."라고 그녀는 말했습니다. "일단 세대를 확보할 수 있게 되면 할 수 있는 일이 훨씬 더 많아지기 때문입니다."

시스템 게이밍

Zhong과 같은 연구자들은 기계가 더 이상 정보가 전혀 없는 상태에서 탐색을 시작할 필요가 없다고 결정했습니다. 정교한 언어 모델로 무장한 연구자들은 프로그램이 시행착오를 겪기 전에 온라인 정보에서 학습하는 사전 훈련 단계를 추가할 수 있습니다.

아이디어를 테스트하기 위해 그와 그의 동료들은 사전 훈련을 전통적인 강화 학습과 비교했습니다. 다섯 가지 게임과 같은 설정 여기서 기계 에이전트는 문제를 해결하기 위해 언어 명령을 해석했습니다. 시뮬레이션된 각 환경은 기계 에이전트에 고유하게 도전했습니다. 한 사람은 에이전트에게 3D 주방에서 항목을 조작하도록 요청했습니다. 괴물과 싸우기 위한 정확한 행동 순서를 배우기 위해 또 다른 필수 읽기 텍스트입니다. 그러나 가장 복잡한 설정은 부적을 회수하기 위해 정교한 던전을 탐색하는 것이 목표인 실제 게임인 35년 된 NetHack이었습니다.

간단한 설정의 경우 자동화된 사전 훈련은 단순히 중요한 개념을 접지하는 것을 의미했습니다. 이것은 당근이고 괴물입니다. NetHack의 경우 에이전트는 인간 플레이어가 인터넷에 업로드한 플레이 스루를 사용하여 인간의 플레이를 관찰하여 훈련했습니다. 이러한 플레이 스루는 그렇게 좋을 필요조차 없었습니다. 에이전트는 인간이 어떻게 행동하는지에 대한 직관을 구축하기만 하면 되었습니다. 에이전트는 전문가가 아니라 일반 플레이어가 되어야 했습니다. 그것은 관찰함으로써 직관을 구축할 것입니다. 주어진 시나리오에서 인간은 무엇을 할 것입니까? 에이전트는 자신의 당근과 채찍을 공식화하여 어떤 동작이 성공했는지 결정합니다.

Zhong은 "사전 교육을 통해 언어 설명을 세계에서 일어나는 일과 연결하는 방법에 대한 좋은 사전 정보를 형성합니다."라고 말했습니다. 에이전트는 처음부터 더 잘 플레이하고 후속 강화 학습 중에 더 빨리 학습합니다.

그 결과 사전 훈련된 에이전트가 전통적으로 훈련된 에이전트보다 성능이 뛰어났습니다. Zhong은 “이러한 10가지 환경 모두에서 전반적으로 이점을 얻었습니다. 더 간단한 설정은 약간의 우위만 보여주었지만 NetHack의 복잡한 던전에서 에이전트는 몇 배 더 빨리 배우고 고전적인 접근 방식으로는 할 수 없는 기술 수준에 도달했습니다. "이 작업을 수행하지 않으면 좋은 정책을 배우지 못하기 때문에 XNUMX배의 성능을 얻을 수 있습니다."라고 그는 말했습니다.

"이 일반 에이전트는 표준 강화 학습이 수행하는 것에서 크게 도약합니다."라고 Anandkumar는 말했습니다.

그녀의 팀은 또한 상담원이 더 빨리 배울 수 있도록 사전 교육하여 세계에서 가장 많이 팔린 비디오 게임인 Minecraft에서 상당한 진전을 이루었습니다. 이는 "샌드박스" 게임으로 알려져 있으며, 이는 플레이어가 상호 작용하고 새로운 세계를 생성할 수 있는 사실상 무한한 공간을 제공한다는 의미입니다. 수천 개의 작업에 대한 보상 기능을 개별적으로 프로그래밍하는 것은 소용이 없으므로 대신 팀의 모델("마인도조”) 캡션 플레이 스루 비디오를 시청하여 게임에 대한 이해도를 높였습니다. 좋은 행동을 성문화할 필요가 없습니다.

Anandkumar는 "우리는 자동화된 보상 기능을 사용하고 있습니다."라고 말했습니다. "이것은 수천 개의 작업과 텍스트 프롬프트를 통해 지정된 개방형 작업으로 강화 학습을 수행할 수 있는 능력이 있는 최초의 벤치마크입니다."

게임 너머

게임은 사전 교육 모델이 작동할 수 있음을 보여주는 좋은 방법이었지만 여전히 단순화된 세계입니다. 가능성이 사실상 무한한 현실 세계를 다루도록 로봇을 훈련시키는 것은 훨씬 더 어렵습니다. "우리는 다음과 같은 질문을 했습니다. 중간에 무언가가 있나요?" 나라심한이 말했다. 그래서 그는 온라인 쇼핑을 하기로 결정했습니다.

그의 팀이 만든 웹샵. Narasimhan은 “기본적으로 쇼핑 집사와 같습니다. 사용자는 "100달러 미만의 흰색 Nike 신발을 주세요. 유아에게 매우 편안하다고 리뷰에 명시하고 싶습니다."라고 말하면 프로그램에서 신발을 찾아 구매합니다.

Zhong과 Anandkumar의 게임과 마찬가지로 WebShop은 이번에는 Amazon 페이지에서 이미지와 텍스트로 훈련하여 직관을 개발했습니다. "시간이 지남에 따라 언어를 이해하고 웹 사이트에서 수행해야 하는 작업에 매핑하는 방법을 배웁니다."

언뜻보기에 쇼핑 집사는 그렇게 미래적이지 않을 수 있습니다. 그러나 최첨단 챗봇이 원하는 운동화에 연결해 줄 수 있지만 주문과 같은 상호 작용에는 완전히 다른 기술이 필요합니다. 그리고 머리맡의 Alexa 또는 Google Home 스피커가 주문을 할 수 있지만 미리 정해진 작업을 수행하는 독점 소프트웨어에 의존합니다. WebShop은 사람들이 읽고, 입력하고, 클릭하는 방식으로 웹을 탐색합니다.

Narasimhan은 "이것은 일반 지능에 한 걸음 더 가까워졌습니다."라고 말했습니다.

개요

물론 로봇이 현실 세계와 상호 작용하도록 하는 데는 나름대로의 어려움이 있습니다. 예를 들어 병을 생각해 보십시오. 모양으로 식별할 수 있고 액체를 저장하기 위한 것임을 알 수 있으며 손으로 조작하는 방법을 이해할 수 있습니다. 실제 기계가 단어와 이미지를 복잡한 움직임 지능으로 바꿀 수 있을까요?

나라심한이 함께한 아니루다 마줌다르, Princeton의 로봇 공학자, 알아내기 위해. 그들은 이전에 본 적이 없는 도구를 조작하도록 로봇 팔을 가르쳤고 성공적인 언어 모델에서 가져온 설명 언어를 사용하여 사전 훈련했습니다. 이 프로그램은 기존의 탐색을 통해 학습하는 프로그램에 비해 거의 모든 도구와 작업에서 더 빠르게 학습하고 더 나은 성능을 발휘한다고 합니다. 결과 지난 XNUMX월 사전 인쇄 서버 arxiv.org에 게시되었습니다.

엔지니어들은 Google의 로봇 연구소에서 훨씬 더 복잡한 명령의 라이브러리를 구축했으며 역시 컨텍스트 구축 사전 교육에 기반을 두고 있습니다. "당신이 고려해야 할 가능성의 세계는 거대합니다."라고 말했습니다. 카롤 하우스만, Google 로봇 팀의 연구원입니다. "그래서 우리는 언어 모델에 우리를 위해 분해하도록 요청합니다."

팀은 언어 기술을 사용하여 훈련한 700개의 관절 팔이 있는 모바일 도우미 로봇과 함께 작업했습니다. "흘린 음료수 청소를 도와주세요"와 같은 주어진 명령에 대해 프로그램은 언어 모델을 사용하여 종이 타월 "잡기", 캔 "집기" 또는 " 캔을 버리십시오. 그리고 Hausman은 “실제로 그것을 지울 능력이 없습니다. 하지만 스펀지는 가져다 드릴 수 있습니다.” 팀은 최근에 이 프로젝트의 결과를 보고했습니다. 세이캔.

언어 모델로 로봇에 권한을 부여하는 또 다른 이점은 동의어와 단어를 다른 언어로 번역하는 것이 사소해진다는 것입니다. 한 사람은 "비틀기"라고 말하고 다른 사람은 "회전"이라고 말하면 로봇은 둘 다 이해합니다. "우리가 시도한 것 중 가장 미친 것은 이모티콘도 이해한다는 것입니다."라고 말했습니다. 페이 샤, Google의 연구원입니다.

봇은 배우고 있다        

SayCan은 아마도 현재까지 로봇 공학에서 언어 기반 학습의 가장 발전된 시연일 것입니다. 그리고 언어 및 이미지 모델은 지속적으로 개선되어 더 우수하고 복잡한 사전 학습 기술을 만들어내고 있습니다.

그러나 Xia는 흥분을 가라앉히기 위해 조심합니다. "누군가 우리가 '로봇 GPT' 순간에 도달했다고 농담 반 농담으로 말했습니다."라고 그는 광범위한 인간 명령을 이해하는 획기적인 언어 모델을 언급하며 말했습니다. "우리는 아직 거기에 도달하지 못했고 탐험해야 할 더 많은 것이 있습니다."

예를 들어, 이러한 모델은 연구자가 이해하려고 하는 잘못된 답변을 제공하거나 잘못된 조치를 취할 수 있습니다. 로봇도 아직 "구체화”: 인간은 장난감을 가지고 노는 어린 시절에 기반한 물리적 직관을 가지고 있지만 로봇은 이러한 유형의 직관을 개발하기 위해 여전히 실제 상호 작용이 필요합니다. "일부 설정의 경우 레이블이 지정되지 않은 데모가 많이 있습니다."라고 Zhong은 말했습니다. Minecraft 및 NetHack과 같은 비디오 게임 상호 작용 데이터베이스를 생각해 보십시오. 어떤 데이터베이스도 로봇에게 지능형 동작을 신속하게 가르칠 수 없습니다.

그래도 진전은 빠르게 일어나고 있습니다. 그리고 더 많은 연구자들은 더 스마트한 로봇 공학이 최종 결과가 될 것이라고 믿고 있습니다. Narasimhan은 천공 카드에서 차세대 기술로의 인간-로봇 진화를 추적합니다. "우리는 키보드와 마우스를 사용했고 그 다음에는 터치 스크린을 사용했습니다."라고 그는 말했습니다. 다음은 기초 언어입니다. 당신은 대답과 심부름을 위해 당신의 컴퓨터에 말할 것입니다. "조수가 실제로 유능해지는 꿈은 아직 이루어지지 않았습니다."라고 그는 말했습니다. "하지만 곧 그렇게 될 것이라고 생각합니다."

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?