ゼファーネットのロゴ

OpenAI は、馬が Midjourney などにボルトで固定された後、DALL-E への扉を開きます

日付:

OpenAI は水曜日に、テキスト プロンプトから画像を生成するためのクラウド サービスである DALL-E を、待機リストなしで一般に公開しました。 しかし、その門の外に集まっていた群衆は移動したかもしれません。

  オリジナルDALL-E 2021 年 XNUMX 月にデビューし、 DALL-E2 このXNUMX月。 大幅に改善されたテキストから画像への変換機能を提供する最新のリリースでは、人々がサインアップしてサービスを利用できるようになりましたが、志望する AI アーティストを順番待ちリストに載せました。 登録 レポーター。 の 新公務 DALL-E と呼ばれますが、まだバージョン 2 のテクノロジーです。

OpenAI は、慎重になる必要があることを理由に、クローズド リストを正当化しました。 この組織は、ユーザーが暴力的、憎悪に満ちた、またはポルノ画像を生成するのを防ぎ、公人の写真のようにリアルな画像を作成しないようにしたいと考えていました。 そして、それは作成しました ポリシー 悪用や誤った情報は、機械学習による画像作成技術にとって真の懸念事項であるためです。

「責任ある使用と優れたエクスペリエンスを確保するために、時間をかけて徐々に招待状を送信します」と、OpenAI は XNUMX 月にベータ登録者に電子メールで通知しました。 「準備が整い次第お知らせします。」

OpenAI は 1,000 週間に XNUMX ユーザー (XNUMX 月時点) でアクセスを配布していましたが、 ミッドジャーニー – ライバルの AI ベースのテキストから画像へのサービス – は XNUMX 月にパブリック ベータ版に入りました。 ユーザーがサービスとやり取りする Midjourney の Discord サーバーは、XNUMX 月末までに約 XNUMX 万ユーザーに達したと報告されています。

これは、移行後に OpenAI によって拡張された招待状の数とほぼ同じでした。 ベータテストへ. Midjourney の Discord サーバーには現在 2.7 万人のメンバーがリストされていますが、OpenAI は現在 1.5 万人のユーザーを抱えていると主張しています。

XNUMX 月には、Stability.ai という別の AI 画像生成会社が、独自の text-to-image モデルをリリースしました。 安定拡散、 下 寛容な CreativeML Open RAIL-M ライセンス。

その結果、急増した 安定拡散への関心 ユーザーは料金を気にせずにローカル コンピューターでコードを実行できるため、OpenAI と Midjouney は、ユーザーが無料利用枠を超えた場合に支払いを要求します。

また、安定拡散は 露骨なイメージを作成する それらの画像が Stable Diffusion ライセンスの限られた (そして強制される可能性が低い) 制限に準拠しているかどうかに関係なく、検閲を行うクラウド ゲートキーパーを気にする必要はありません。

オープンソース ソフトウェア開発者のサイモン ウィリソンは次のように書いています。 ブログ投稿 Stable Diffusion の公開から約 XNUMX 週間後。 「人々が作っているものは本当に驚くべきものです。」

パーティーに遅れる

わずか XNUMX か月後、OpenAI は出発点から遅れているようです。

「DALL-E は全員に開放されました (待機リストなし)!」 Brendan Dolan-Gavitt は、NYU Tandon のコンピューター サイエンスおよびエンジニアリング部門の助教授であると皮肉を言った。 ツイッター経由. 「オープンソースからの数週間の競争で何ができるかは驚くべきことです ;)」

「OpenAI が直面している課題は、Stable Diffusion の背後にいるチームと競争しているだけでなく、Stable Diffusion の上に新しいツールを構築している何千人もの研究者やエンジニアと競争していることです」と Willison 氏は語った。 登録.

「過去 XNUMX 週間での技術革新の速度は驚異的です。 DALL-E は強力なソフトウェアですが、OpenAI 自体によってのみ改善されています。 彼らがどのように追いつくことができるかを見るのは難しいです。」

アーティスト ライアン・マードック (@advadnoun) は、OpenAI の CLIP プロンプト評価モデルを反転させて VQGAN に接続することで、テキストから画像への AI の活性化を支援し、同様の感情を表明しました。

「OpenAI はまだ関連性があると思いますが、DALL-E はそうではありません」と彼は、 登録. 「シーンで DALL-E を使用している人はほとんどいません。コストがかかり、生成できるものや生成するものに関してゲートがあり、興味深い新しい研究には使用できないからです。」

マードック氏はまた、DALL-E 画像のテクスチャが「超解像がテキストに条件付けられていないため、非常に悪く見える」ことも観察しました。

これは、オープンソースのイノベーションが役立った分野の XNUMX つです。Stable Diffusion 画像生成プロセスに最初に追加されたのは、XNUMX つのコード ライブラリでした。 GFPGAN と Real-ESRGAN、AI 顔のレンダリング エラーの修復と画像のアップスケーリングをそれぞれ処理します。

画像の所有権について進行中の議論を引き合いに出し、多くのアーティストは、これらのモデルをトレーニングするための同意なしに自分の作品が使用されたことに興奮していません.Murdock氏は、Stable Diffusionのモデルが人々のコンピューター上にあるため、船は航海したようだと述べました. 彼は、これらの AI モデルがビデオを生成するように進化するにつれて、さらに多くの反対があると予想しています。

AI 画像生成を商品化し、画像の安全性を確保するためのより堅牢なフィルタリングを宣伝する外部の開発にひるむことなく、OpenAI はビジネス チャンスを見出しています。

「現在、複数の顧客で DALL-E API をテストしており、開発者や企業がこの強力なシステムでアプリを構築できるように、DALL-E API をすぐに広く提供できることを楽しみにしています」と同社は述べています。 ®

スポット画像

最新のインテリジェンス

スポット画像