제퍼넷 로고

OpenAI, 강력하고 소름 끼치는 새로운 텍스트-비디오 모델 공개

시간

ChatGPT와 DALL-E를 지원하는 생성 AI 회사는 새로운 장난감을 가지고 있습니다. Sora는 "세련된 여성이 도쿄 거리를 걷고 있습니다..."와 같은 프롬프트에서 (때때로) 매우 설득력 있는 60초 클립을 생성할 수 있는 텍스트-비디오 모델입니다. 그리고 “빨간색 울 니트 오토바이 헬멧을 쓴 30세 우주인의 모험을 담은 영화 예고편…”

지금까지 우리가 본 많은 AI 비디오 세대는 일관된 현실을 유지하지 못하고 한 프레임에서 다음 프레임으로 얼굴, 의복, 개체를 다시 디자인합니다. 그러나 Sora는 "사용자가 프롬프트에서 요청한 내용뿐만 아니라 그러한 것들이 실제 세계에 어떻게 존재하는지 이해합니다"라고 OpenAI는 말합니다. 발표 게시물 (느슨하게 "이해하다"라는 단어를 사용함)

imgur.com에서 게시물 보기”

소라 클립이 인상적이네요. 자세히 살펴보지 않았다면(예를 들어 소셜 미디어에서 스크롤을 내리며 지나쳤다면) 아마도 그 중 많은 부분이 실제라고 생각할 것입니다. '중국 용과 함께하는 중국 설날 축하 영상'이라는 메시지는 얼핏 전형적인 퍼레이드 다큐멘터리 영상처럼 보인다. 그러나 당신은 사람들의 비율이 이상하고 비틀거리는 것 같다는 것을 깨닫게 됩니다. 마치 꿈속의 순간처럼 갑자기 모든 것이 조금씩 잘못되었음을 알아차리는 것과 같습니다. 소름끼친다.

OpenAI는 “현재 모델에는 약점이 있습니다.”라고 썼습니다. “복잡한 장면의 물리학을 정확하게 시뮬레이션하는 데 어려움을 겪을 수 있으며 원인과 결과의 구체적인 사례를 이해하지 못할 수도 있습니다. 예를 들어, 어떤 사람이 쿠키를 한 입 베어물었지만 나중에 쿠키에 물린 자국이 없을 수도 있습니다. 또한 모델은 왼쪽과 오른쪽을 혼합하는 등 프롬프트의 공간적 세부 사항을 혼동할 수 있으며 특정 카메라 궤적을 따르는 것과 같이 시간이 지남에 따라 발생하는 이벤트에 대한 정확한 설명에 어려움을 겪을 수 있습니다."

Sora의 약점에 대한 제가 가장 좋아하는 시연은 플라스틱 의자가 Cronenberg 생명체로 변형되기 시작하는 비디오입니다. 보다:

imgur.com에서 게시물 보기”

Sora는 현재 대중에게 제공되지 않으며 OpenAI는 "Sora가 비디오를 생성한 시기를 알 수 있는 감지 분류기" 등을 사용하여 모델의 사회적 위험을 평가하고 이를 완화하기 위해 노력하고 있다고 밝혔습니다.

연구 프로젝트로서는 흥미롭지만 OpenAI는 멋진 컴퓨터 과학에만 관심이 있는 것이 아닙니다. 저작권 비평가와 입법자들을 능가할 수 있다면 돈을 벌 수 있습니다. 회사는 현재 "[Sora]에게 창의적인 전문가에게 가장 도움이 되는 모델을 발전시키는 방법에 대한 피드백을 얻기 위해 다수의 시각 예술가, 디자이너 및 영화 제작자에게 액세스 권한을 부여하고 있습니다"라고 밝혔습니다. 

X에 대한 댓글 작성자 Sora와 같은 모델이 언젠가 대중이 순전히 프롬프트만으로 영화를 만들어 헐리우드에서 영화 제작에 대한 통제권을 빼앗을 수 있도록 허용할지 낙관적으로 궁금했습니다. 하지만 생성된 모든 비디오의 소스 자료가 어디에서 나올 것이라고 생각하는지 궁금합니다. 영화 제작자? 헐리우드 영화는 이미 꽤 동질적으로 보일 수 있지만, 자동 재생되는 Marvel Cinematic Universe 스타일의 CGI 및 자동차 상업용 드론 장면은 대중에게 창의적인 표현을 정확하게 전달하지 못합니다. (블로그 게시물에는 특히 Sora의 교육 자료에 대한 언급이 없습니다.)

imgur.com에서 게시물 보기”

생성적 AI의 서투른 결과와 그것이 제시하는 법적, 윤리적 수렁에도 불구하고 우리는 이미 그것이 전문적이고 창의적인 미디어에서 사용되는 것을 보고 있습니다. 여기에는 아트와 음성, 즉석 대화를 생성하는 등 우리에게 직접적으로 보이는 방식과 코드 조각이나 초기 컨셉 아트 생성과 같이 덜 명확한 방식의 비디오 게임이 포함됩니다. ㅏ 최근 조사에 따르면 게임 개발 전문가의 31%는 어느 정도 생성 AI를 사용합니다. 다른 소프트웨어와 결합하면 이런 종류의 머신러닝 기반 비디오 시뮬레이션이 CG와 약간 다른 클립을 생성하는 것 외에 어떤 역할을 할 수 있을지 궁금합니다.

제너레이티브 AI가 5년이나 10년 후에 어떻게 사용될지, 지속적인 개발의 결과가 어떻게 될지 아는 사람은 아무도 없을 것 같지만, 속도가 느려지지는 않으므로 우리가 알아낼 것으로 보입니다. OpenAI와 다른 회사들은 더 나은 이미지, 비디오, 텍스트 생성기뿐만 아니라 AI가 무엇인지에 대한 공상 과학 아이디어인 "인공 일반 지능"(AGI)을 향해 명시적으로 노력하고 있습니다.

OpenAI는 “Sora는 실제 세계를 이해하고 시뮬레이션할 수 있는 모델의 기반 역할을 하며, 이 기능은 AGI 달성을 위한 중요한 이정표가 될 것이라고 믿습니다.”라고 말합니다.

spot_img

최신 인텔리전스

spot_img