제퍼넷 로고

Google AI가 30,000시간 동안 비디오 게임을 시청했는데 이제 자체 AI가 되었습니다.

시간

AI는 계속해서 많은 빛과 열을 생성합니다. 현재 구독을 늘리고 소비자 제품에 접목되고 있는 텍스트와 이미지 분야의 최고의 모델이 인치를 놓고 경쟁하고 있습니다. OpenAI, Google 및 Anthropic은 모두 어느 정도 목과 목입니다.

AI 연구자들이 생성 모델을 새로운 영역으로 확장하려는 것은 놀라운 일이 아닙니다. AI에는 엄청난 양의 데이터가 필요하므로 앞으로 상황이 어떻게 진행될지 예측하는 한 가지 방법은 온라인에서 널리 사용 가능하지만 아직 대부분 활용되지 않은 데이터가 무엇인지 살펴보는 것입니다.

그 중 많은 수가 있는 비디오는 분명한 다음 단계입니다. 실제로 지난 달 OpenAI가 미리 선보인 바 있습니다. Sora라는 새로운 텍스트-비디오 AI 보는 이들을 경악하게 만들었다.

하지만 비디오… 게임은 어떻습니까?

묻고 받기

온라인에는 꽤 많은 게이머 비디오가 있는 것으로 나타났습니다. Google DeepMind는 게이머들이 간단한 플랫폼 게임(초기 Nintendo 게임을 생각해 보세요)을 플레이하는 모습을 보여주는 30,000시간의 엄선된 비디오 영상을 통해 새로운 AI Genie를 훈련했다고 밝혔습니다. 이제 자체 예제를 만들 수 있습니다..

Genie는 간단한 이미지, 사진, 스케치를 대화형 비디오 게임으로 바꿔줍니다.

캐릭터와 그 주변 환경의 그림과 같은 프롬프트가 주어지면 AI는 플레이어로부터 입력을 받아 캐릭터를 세계에서 움직일 수 있습니다. 블로그 게시물에서 DeepMind는 Genie의 창작물이 2D 풍경을 탐색하고 플랫폼 사이를 돌아다니거나 점프하는 모습을 보여주었습니다. 뱀이 꼬리를 물고 있는 것처럼 이러한 세계 중 일부는 AI가 생성한 이미지에서 가져온 것이기도 합니다.

기존 비디오 게임과 달리 Genie는 이러한 대화형 세계를 프레임별로 생성합니다. 이동하라는 프롬프트와 명령이 주어지면 가능성이 가장 높은 다음 프레임을 예측하고 즉시 생성합니다. 전경이 배경보다 빠르게 움직이는 플랫폼 게임의 일반적인 특징인 시차 감각을 포함하는 방법도 배웠습니다.

특히 AI의 훈련에는 라벨이 포함되지 않았습니다. 오히려 Genie는 훈련 중 예시를 관찰함으로써 왼쪽, 오른쪽, 점프 등의 입력 명령을 게임 내 움직임과 연관시키는 방법을 배웠습니다. 즉, 영상 속 캐릭터가 왼쪽으로 움직일 때 명령과 모션을 연결하는 라벨이 없었습니다. 그 부분은 지니가 스스로 알아냈습니다. 이는 잠재적으로 향후 버전이 온라인에 있는 만큼 적용 가능한 비디오로 교육을 받을 수 있음을 의미합니다.

AI는 인상적인 개념 증명이지만 아직 개발 초기 단계이며 DeepMind는 아직 모델을 공개할 계획이 없습니다.

게임 자체는 초당 한 프레임씩 빠르게 스트리밍되는 픽셀화된 세계입니다. 이에 비해 현대 비디오 게임은 초당 60~120프레임을 기록할 수 있습니다. 또한 모든 생성 알고리즘과 마찬가지로 Genie는 이상하거나 일관성이 없는 시각적 아티팩트를 생성합니다. 또한 "비현실적인 미래"에 대한 환각을 느끼기 쉽습니다. 팀은 AI를 설명하는 논문에 썼습니다..

즉, Genie가 여기에서 개선될 것이라고 믿을 만한 몇 가지 이유가 있습니다.

세계를 휘젓다

AI는 레이블이 지정되지 않은 온라인 비디오에서 학습할 수 있고 여전히 적당한 크기(11억 개의 매개변수)이므로 확장할 수 있는 충분한 기회가 있습니다. 더 많은 정보에 대해 훈련된 더 큰 모델이 극적으로 향상되는 경향이 있습니다. 그리고 추론에 중점을 두고 성장하는 산업— 훈련된 AI가 이미지나 텍스트 생성과 같은 작업을 수행하는 프로세스 — 속도가 더 빨라질 가능성이 높습니다.

DeepMind는 Genie가 전문 개발자와 같은 사람들이 비디오 게임을 만드는 데 도움을 줄 수 있다고 말합니다. 그러나 Sora가 비디오 그 이상이라고 믿는 OpenAI처럼 팀은 더 큰 생각을 하고 있습니다. 이러한 접근 방식은 비디오 게임을 훨씬 뛰어넘을 수 있습니다.

한 가지 예 : 로봇을 조종할 수 있는 AI. 팀은 다양한 작업을 완료하는 로봇 팔의 비디오를 통해 별도의 모델을 훈련했습니다. 모델은 로봇을 조작하고 다양한 물체를 다루는 방법을 학습했습니다.

DeepMind는 또한 Genie가 생성한 비디오 게임 환경이 AI 에이전트를 훈련하는 데 사용될 수 있다고 말했습니다. 새로운 전략은 아닙니다. 2021년 논문에서는 또 다른 DeepMind 팀은 XLand라는 비디오 게임을 소개했습니다. AI 에이전트와 AI 대군주가 생성하는 작업과 게임으로 채워졌습니다. AI의 다음 큰 단계에는 서로를 훈련하거나 합성 훈련 데이터를 생성할 수 있는 알고리즘이 필요하다는 생각은 다음과 같습니다. 견인력을 얻다.

이 모든 것은 AI의 발전을 보여주기 위한 OpenAI와 Google 간의 치열한 경쟁의 최신 일격입니다. 다른 사람들이 현장에 있는 동안, 인류학 같은, GPT-4와 유사한 다중 모드 모델을 발전시키고 있으며 Google과 OpenAI도 세계를 시뮬레이션하는 알고리즘에 초점을 맞춘 것으로 보입니다. 이러한 알고리즘은 계획 및 상호 작용에 더 나을 수 있습니다. 두 조직 모두 AI 에이전트를 위한 중요한 기술이 될 것입니다.

"Genie는 실제 사진이나 스케치 등 이전에 본 적이 없는 이미지로 자극을 받을 수 있으며, 이를 통해 사람들은 상상의 가상 세계와 상호 작용할 수 있습니다. 이는 본질적으로 기초 세계 모델 역할을 합니다."라고 연구진은 썼습니다. 지니 블로그 게시물. “우리는 집중한다 2D 플랫폼 게임 및 로봇 공학에 대한 비디오 하지만 우리의 방법은 일반적이며 모든 유형의 도메인에 작동해야 하며 더 큰 인터넷 데이터 세트로 확장 가능합니다."

마찬가지로 OpenAI가 지난 달 Sora를 미리 선보였을 때 연구원들은 이것이 좀 더 근본적인 것, 즉 월드 시뮬레이터를 예고할 수 있다고 제안했습니다. 즉, 두 팀 모두 온라인 비디오의 막대한 캐시를 AI가 자체 비디오를 생성하도록 훈련하는 방법으로 보는 것 같지만, 온라인이든 오프라인이든 전 세계를 보다 효과적으로 이해하고 운영하는 방법이기도 합니다.

이것이 배당금을 지불하는지, 아니면 장기적으로 지속 가능한지는 공개 질문입니다. 인간의 두뇌는 전구의 전력으로 작동합니다. 생성 AI는 전체 데이터 센터를 사용합니다. 그러나 AI를 개선할 뿐만 아니라 더욱 효율적으로 만드는 것을 목표로 하는 재능, 기술, 두뇌, 현금 측면에서 현재 작용하고 있는 힘을 과소평가하지 않는 것이 가장 좋습니다.

우리는 텍스트, 이미지, 오디오, 그리고 이 세 가지 모두에서 인상적인 진전을 보았습니다. 비디오는 냄비에 던져지는 다음 재료이며 훨씬 더 강력한 맥주를 만들 수 있습니다.

이미지 신용 : Google DeepMind

spot_img

최신 인텔리전스

spot_img