OpenAI öppnar dörrar till DALL-E efter att hästen har slagit till Midjourney och andra

OpenAI gjorde på onsdagen DALL-E, dess molntjänst för att generera bilder från textmeddelanden, tillgänglig för allmänheten utan någon väntelista. Men folkmassan som hade samlats utanför dess port kan ha gått vidare.

Smakämnen original DALL-E debuterade i januari 2021 och ersattes av DALL-E2 nu i april. Den senaste utgåvan, som erbjuder mycket förbättrade text-till-bild-funktioner, gjorde det möjligt för människor att registrera sig för att använda tjänsten men placerade blivande AI-artister på en väntelista – en som inte flyttat under de senaste fem månaderna för detta Reg reporter. De nyligen public service kallas DALL-E, även om det fortfarande är version 2 av tekniken.

OpenAI motiverade den stängda listan med att citera behovet av att vara försiktig. Organisationen ville hindra användare från att skapa våldsamma, hatiska eller pornografiska bilder och förhindra skapandet av fotorealistiska bilder av offentliga personer. Och det skapade Strategier till det, eftersom missbruk och desinformation är genuina problem med maskininlärande bildskapande teknologi.

"För att säkerställa en ansvarsfull användning och en fantastisk upplevelse kommer vi att skicka inbjudningar gradvis över tiden," meddelade OpenAI betaregistranter i april via e-post. "Vi meddelar dig när vi är redo för dig."

Medan OpenAI delade ut åtkomst till 1,000 XNUMX användare per vecka (i maj), midjourney – en rivaliserande AI-baserad text-till-bild-tjänst – gick in i offentlig beta i juli. Midjourneys Discord-server, genom vilken användare interagerar med tjänsten, uppges ha nått omkring en miljon användare i slutet av juli.

Det var ungefär det antal inbjudningar som OpenAI skickade ut vid den tiden, efter en övergång till betatestning. Midjourneys Discord-server listar för närvarande 2.7 miljoner medlemmar, medan OpenAI för närvarande säger sig ha 1.5 miljoner användare.

I augusti släppte ett annat AI-bildgenereringsföretag vid namn Stability.ai sin egen text-till-bild-modell som heter Stabil diffusion, under en tillåtande CreativeML Open RAIL-M-licens.

Resultatet blev en ökning med intresse för Stable Diffusion eftersom människor kan köra koden på en lokal dator, utan oro för avgifter – OpenAI och Midjouney kräver betalning när användarna har överskridit sina fria nivåer.

Dessutom ses Stabil Diffusion som ett sätt att skapa tydliga bilder utan oro för censurerade molnportvakter – oavsett om dessa bilder överensstämmer med de begränsade (och sannolikt inte kommer att upprätthållas) restriktionerna i Stable Diffusion-licensen.

"På bara några dagar har det skett en explosion av innovation kring det", skrev Simon Willison, en mjukvaruutvecklare med öppen källkod, i en blogginlägg ungefär en vecka efter Stable Diffusions offentliga release. "De saker som folk bygger är helt häpnadsväckande."

Sen till festen

Bara en månad senare ser det ut som att OpenAI är sent ute från startporten.

"DALL-E har öppnats för alla (ingen väntelista)!" skämtade Brendan Dolan-Gavitt, biträdande professor vid datavetenskap och ingenjörsavdelningen vid NYU Tandon, via Twitter. "Det är fantastiskt vad några veckors konkurrens från öppen källkod kan göra ;)"

"Utmaningen OpenAI står inför är att de inte bara tävlar mot teamet bakom Stable Diffusion, de tävlar mot tusentals forskare och ingenjörer som bygger nya verktyg ovanpå Stable Diffusion," sa Willison till Registret.

"Innovationstakten där under bara de senaste fem veckorna har varit extraordinär. DALL-E är en kraftfull mjukvara men den förbättras bara av OpenAI själva. Det är svårt att se hur de ska kunna hänga med.”

Artist Ryan Murdock (@advadnoun), som hjälpte till att starta text-till-bild AI genom att vända OpenAI:s CLIP-prompt-utvärderingsmodell och koppla den till VQGAN, uttryckte liknande känslor.

"Jag tror att OpenAI fortfarande är relevant men DALL-E är det inte," sa han i en diskussion med Registret. "Jag ser väldigt få människor som använder DALL-E i scenen eftersom det kostar pengar, är gated i termer av vad det kan eller kommer att producera och inte kan användas med intressant ny forskning."

Murdock observerade också att texturen på DALL-E-bilder "ser riktigt dålig ut eftersom superupplösningen inte är beroende av texten."

Det är ett område där innovation med öppen källkod har hjälpt: bland de första tilläggen till processen för stabil diffusion av bildgenerering var två kodbibliotek, GFPGAN och Real-ESRGAN, som hanterar reparation av AI-ansiktsrenderingsfel respektive bilduppskalning.

Med hänvisning till den pågående debatten om bildägande – många konstnärer är inte glada att deras arbete användes utan deras medgivande för att träna dessa modeller – sade Murdock att skeppet verkar ha seglat eftersom Stable Diffusions modeller nu lever på människors datorer. Han förväntar sig ännu mer pushback när dessa AI-modeller utvecklas för att generera video.

Oförskräckt av extern utveckling som har anpassat AI-bildgenerering, och bjuder på mer robust filtrering för att säkerställa bildsäkerhet, ser OpenAI en affärsmöjlighet.

"Vi testar för närvarande ett DALL-E API med flera kunder och är glada över att snart kunna erbjuda det mer brett till utvecklare och företag så att de kan bygga appar på detta kraftfulla system," sa företaget. ®

Generativ dataintelligens

OpenAI öppnar dörrar till DALL-E efter att hästen har slagit till Midjourney och andra

Sen till festen

RWDG Webinar: Metadata Management's Impact on Data Governance – DATAVERSITY

EMEA Masters 2024 vårschema, ställning och hur man tittar

Senaste intelligens

Topphjältarkoder för april 2024

Transavia överväger att lämna den holländska marknaden om Amsterdam Schiphols stängning över natten fortsätter

San Francisco lämnar in en stämningsansökan mot Oakland för att byta flygplatsnamn

Kör Cadillac Lyriq, Hyundai Santa Fe och ett gäng Lucid Airs | Autoblogg Podcast #828

Poe's Multi-Bot Chat: A Game Changer in AI Interactivity

Meta Llama 3: Omdefiniering av standarder för stora språkmodeller

Chatta med oss