제퍼넷 로고

OpenAI는 말이 Midjourney 등으로 몰린 후 DALL-E의 문을 엽니다.

시간

OpenAI는 수요일에 텍스트 프롬프트에서 이미지를 생성하는 클라우드 서비스인 DALL-E를 대기자 명단 없이 대중에게 공개했습니다. 그러나 성문 밖에 모인 군중은 이미 옮겨갔을지도 모릅니다.

XNUMXD덴탈의 오리지널 DALL-E 2021년 XNUMX월에 데뷔했고 달-이 2 이번 XNUMX월. 훨씬 개선된 텍스트를 이미지로 변환하는 기능을 제공하는 최신 릴리스는 사람들이 서비스를 사용하기 위해 등록할 수 있게 했지만 인공지능 아티스트 지망생을 대기자 명단에 올렸습니다. 등록 보고자. 그만큼 새로운 공공 서비스 DALL-E라고 불리지만 여전히 기술의 버전 2입니다.

OpenAI는 신중할 필요가 있다고 언급하여 비공개 목록을 정당화했습니다. 조직은 사용자가 폭력적이거나 혐오스럽거나 음란한 이미지를 생성하는 것을 방지하고 공인의 사실적 이미지가 생성되는 것을 방지하기를 원했습니다. 그리고 그것은 창조했다 정책 그 이유는 남용과 잘못된 정보가 머신 러닝 이미지 생성 기술의 진정한 관심사이기 때문입니다.

OpenAI는 XNUMX월에 이메일을 통해 베타 등록자에게 "책임 있는 사용과 훌륭한 경험을 보장하기 위해 시간이 지남에 따라 점진적으로 초대장을 보낼 것입니다."라고 말했습니다. "준비가 되면 알려드리겠습니다."

OpenAI가 주당 1,000명의 사용자에게 액세스 권한을 배포하는 동안(XNUMX월 기준), 중도 - 라이벌 AI 기반 텍스트-이미지 서비스 - XNUMX월에 공개 베타에 들어갔다. 사용자들이 서비스와 상호작용하는 미드저니의 디스코드 서버는 XNUMX월 말까지 약 XNUMX만 명의 사용자를 달성한 것으로 알려졌다.

이는 전환 이후 OpenAI가 연장한 초대 수에 관한 것입니다. 베타 테스트에. Midjourney의 Discord 서버는 현재 2.7만 명의 회원을 보유하고 있으며 OpenAI는 현재 1.5만 명의 사용자를 보유하고 있다고 주장합니다.

XNUMX월에 Stability.ai라는 또 다른 AI 이미지 생성 회사는 안정적인 확산, 아래에 관대한 CreativeML Open RAIL-M 라이선스.

그 결과 급증했다. 안정확산에 대한 관심 사람들이 수수료 걱정 없이 로컬 컴퓨터에서 코드를 실행할 수 있기 때문에 OpenAI와 Midjouney는 사용자가 프리 티어 허용량을 초과했을 때 지불을 요구합니다.

또한, 안정적인 확산은 노골적인 이미지 만들기 검열적인 클라우드 게이트키퍼에 대한 걱정 없이 – 해당 이미지가 Stable Diffusion 라이선스의 제한된(그리고 시행될 가능성이 없는) 제한을 준수하는지 여부.

오픈 소스 소프트웨어 개발자인 사이먼 윌리슨(Simon Willison)은 "단 며칠 만에 이를 둘러싼 혁신이 폭발적으로 일어났다"고 말했다. 블로그 게시물 Stable Diffusion의 공개 출시 후 약 일주일. “사람들이 만들고 있는 것은 정말 놀랍습니다.”

파티에 늦다

불과 한 달 만에 OpenAI가 출발점에서 늦게 나온 것 같습니다.

“DALL-E는 모든 사람에게 개방되었습니다(대기자 없음)!” NYU Tandon의 컴퓨터 과학 및 공학과 조교수인 Brendan Dolan-Gavitt는 다음과 같이 말했습니다. 트위터를 통해. “오픈 소스와의 몇 주간의 경쟁이 할 수 있는 것은 놀랍습니다 ;)”

"OpenAI가 직면한 도전은 Stable Diffusion 뒤에 있는 팀과만 경쟁하는 것이 아니라 Stable Diffusion 위에 새로운 도구를 구축하는 수천 명의 연구원 및 엔지니어와 경쟁하고 있다는 것입니다."라고 Willison은 말했습니다. 등록.

“지난 XNUMX주 동안의 혁신 속도는 놀라웠습니다. DALL-E는 강력한 소프트웨어이지만 OpenAI 자체에 의해서만 개선되고 있습니다. 그들이 어떻게 따라잡을 수 있을지 보기 어렵다”고 말했다.

아티스트 라이언 머독(@advadnounOpenAI의 CLIP 프롬프트 평가 모델을 뒤집고 VQGAN에 연결하여 텍스트-이미지 AI를 활성화하는 데 도움을 준 )도 비슷한 감정을 표현했습니다.

“OpenAI는 여전히 관련성이 있다고 생각하지만 DALL-E는 그렇지 않습니다. 등록. "비용이 많이 들고 생산할 수 있거나 생산할 대상이 정해져 있고 흥미로운 새로운 연구에 사용할 수 없기 때문에 현장에서 DALL-E를 사용하는 사람은 거의 없습니다."

Murdock은 또한 DALL-E 이미지의 질감이 "초해상도가 텍스트에 따라 결정되지 않기 때문에 정말 나빠 보입니다"라고 관찰했습니다.

그것이 오픈 소스 혁신이 도움이 된 한 영역입니다. Stable Diffusion 이미지 생성 프로세스에 처음 추가된 것 중 두 개의 코드 라이브러리가 있었습니다. GFPGAN 및 Real-ESRGAN, AI 얼굴 렌더링 오류 및 이미지 업스케일링의 복구를 각각 처리합니다.

이미지 소유권에 대한 진행중인 논쟁을 인용하면서 – 많은 예술가들이 그들의 작업이 이 모델을 훈련시키는 동의 없이 사용되었다는 사실에 기뻐하지 않습니다 – Murdock은 Stable Diffusion의 모델이 이제 사람들의 컴퓨터에서 작동하기 때문에 배가 항해한 것 같다고 말했습니다. 그는 이러한 AI 모델이 비디오를 생성하도록 진화함에 따라 더 많은 반발을 예상합니다.

AI 이미지 생성을 상품화한 외부 개발과 이미지 안전을 보장하기 위해 보다 강력한 필터링을 선전하는 OpenAI는 비즈니스 기회를 보고 있습니다.

회사는 "현재 여러 고객과 DALL-E API를 테스트하고 있으며 개발자와 기업이 이 강력한 시스템에서 앱을 구축할 수 있도록 곧 더 광범위하게 제공하게 되어 기쁩니다."라고 말했습니다. ®

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?