ゼファーネットのロゴ

Stability AI の TripoSR: 画像から 3D モデルまで数秒で作成

日付:

概要

単一の画像を詳細な 3D モデルに変換する機能は、分野で長年追求されてきました。 コンピュータビジョン & generative AI。 Stability AI の TripoSR は、この探求において大きな進歩を遂げ、画像から 3D 再構築する革新的なアプローチを提供します。研究者、開発者、クリエイターは、比類のない速度と精度で 2D ビジュアルを没入型の 3D 表現に変換できるようになります。さらに、この革新的なモデルは、コンピューター グラフィックスや 仮想現実 〜へ ロボット工学 & 医療画像処理。この記事では、Stability AI の TripoSR モデルのアーキテクチャ、動作、機能、アプリケーションについて詳しく説明します。

トリポSR

目次

TripoSRとは何ですか?

TripoSR は、 トランス 高速フィードフォワード 3D 生成のためのアーキテクチャで、単一の画像から 3D メッシュを 0.5 秒未満で生成します。 LRM ネットワーク アーキテクチャに基づいて構築されており、大幅な改善が統合されています。 データ処理、モデル設計、トレーニング手法。このモデルは MIT ライセンスの下でリリースされており、研究者、開発者、クリエイターに最新の進歩を提供することを目的としています。 3D生成AI.

TripoSR デモ
TripoSR デモ

Stability AI の TripoSR の LRM アーキテクチャ

LRM と同様に、TripoSR はトランスフォーマー アーキテクチャを利用しており、単一画像の 3D 再構築用に特別に設計されています。単一の RGB 画像を入力として受け取り、画像内のオブジェクトの 3D 表現を出力します。 TripoSR のコアには、画像エンコーダ、画像からトリプレーンへのデコーダ、トリプレーンベースの神経放射フィールド (ナーフ)。これらの各コンポーネントを明確に理解しましょう。

Stability AI の TripoSR の LRM アーキテクチャ

画像エンコーダ

画像エンコーダーは、事前トレーニングされたビジョン トランスフォーマー モデル DINOv1 を使用して初期化されます。このモデルは、RGB 画像を、画像のグローバルおよびローカルの特徴をエンコードする潜在ベクトルのセットに投影します。これらのベクトルには、3D オブジェクトを再構築するために必要な情報が含まれています。

画像からトライプレーンへのデコーダ

画像からトリプレーンへのデコーダは、潜在ベクトルをトリプレーン NeRF 表現に変換します。複雑な形状やテクスチャに適した、コンパクトで表現力豊かな 3D 表現です。これは、セルフ アテンション レイヤーとクロス アテンション レイヤーを備えたトランス層のスタックで構成されます。これにより、デコーダはトリプレーン表現のさまざまな部分に注目し、それらの間の関係を学習できるようになります。

トリプレーンベースの神経放射フィールド (NeRF)

トリプレーン ベースの NeRF モデルは、空間内の 3D 点の色と密度の予測を担当する多層パーセプトロンのスタックで構成されています。このコンポーネントは、3D オブジェクトの形状とテクスチャを正確に表現する上で重要な役割を果たします。

これらのコンポーネントはどのように連携するのでしょうか?

画像エンコーダは、入力画像のグローバルおよびローカルの特徴をキャプチャします。これらは次に、image-to-triplane デコーダによって Triplane-NeRF 表現に変換されます。 NeRF モデルはこの表現をさらに処理して、空間内の 3D 点の色と密度を予測します。これらのコンポーネントを統合することで、TripoSR は高い再構成品質と計算効率を備えた高速フィードフォワード 3D 生成を実現します。

これらのコンポーネントはどのように連携するのでしょうか?

TripoSR の技術的進歩

3D 生成 AI の強化を追求する中で、TripoSR は効率とパフォーマンスの強化を目的としたいくつかの技術的進歩を導入しています。これらの進歩には、トレーニングを強化するためのデータキュレーション技術、再構成品質を最適化するためのレンダリング技術、速度と精度のバランスをとるためのモデル構成の調整が含まれます。これらをさらに詳しく見てみましょう。

トレーニングを強化するためのデータキュレーション手法

TripoSR には、トレーニング データの品質を強化するための細心の注意を払ったデータ キュレーション技術が組み込まれています。 CC-BY ライセンスに基づいて Objaverse データセットのサブセットを選択的にキュレーションすることにより、モデルはトレーニング データの高品質を保証します。この意図的なキュレーション プロセスは、モデルの一般化と正確な 3D 再構成の生成能力を強化することを目的としています。さらに、このモデルはさまざまなデータ レンダリング技術を活用して、現実世界の画像分布を厳密にエミュレートします。これにより、幅広いシナリオを処理し、高品質の再構成を生成する能力がさらに強化されます。

最適化された再構築品質のためのレンダリング技術

再構築の品質を最適化するために、TripoSR は計算効率と再構築の粒度のバランスをとるレンダリング技術を採用しています。トレーニング中に、モデルは元の 128 × 128 解像度の画像から 512 × 512 サイズのランダム パッチをレンダリングします。同時に、計算​​負荷と GPU メモリ負荷を効果的に管理します。さらに、TripoSR は前景領域を強調する重要なサンプリング戦略を実装し、物体表面の詳細を忠実に再構成します。これらのレンダリング技術は、計算効率を維持しながら高品質の 3D 再構成を生成するモデルの能力に貢献します。

速度と精度のバランスをとるためのモデル構成の調整

速度と精度のバランスをとるために、TripoSR は戦略的なモデル構成の調整を行います。このモデルは明示的なカメラ パラメーターの調整を省略し、トレーニングと推論中にカメラ パラメーターを「推測」できるようにします。このアプローチにより、現実世界の入力画像に対するモデルの適応性と回復力が強化され、正確なカメラ情報が不要になります。

さらに、TripoSR では、トランスの層数とトライプレーンの寸法にも技術的な改善が加えられています。 NeRF モデルの詳細と主要なトレーニング構成も改善されました。これらの調整は、出力モデルを正確に制御しながら、迅速な 3D モデル生成を実現するモデルの機能に貢献します。

公開データセットにおける TripoSR のパフォーマンス

次に、さまざまな評価指標を使用し、その結果を最先端の方法と比較することによって、公開データセットでの TripoSR のパフォーマンスを評価してみましょう。

3D 再構成の評価指標

TripoSR のパフォーマンスを評価するために、3D 再構成の一連の評価指標を利用します。私たちは、評価用に GSO と OmniObject3D という XNUMX つの公開データセットを厳選し、共通オブジェクトの多様で代表的なコレクションを確保します。

評価メトリクスには、面取り距離 (CD) と F スコア (FS) が含まれます。これらは、マーチング キューブを使用して等値面を抽出し、暗黙的な 3D 表現をメッシュに変換することによって計算されます。さらに、総当たり検索アプローチを採用して、予測をグラウンド トゥルースの形状と一致させ、最低の CD を最適化します。これらの指標により、TripoSR の再構成の品質と精度を包括的に評価できます。

TripoSR と最先端の手法の比較

One-3-2-3、TriplaneGaussian (TGS)、ZeroShape、OpenLRM などのフィードフォワード技術を使用する 45D 再構成に関する既存の最先端のベースラインと TripoSR を定量的に比較します。比較により、TripoSR が CD および FS メトリクスの点ですべてのベースラインを大幅に上回り、このタスクにおいて新たな最先端のパフォーマンスを達成していることがわかります。

さらに、x 軸に推論時間をとり、y 軸に平均 F スコアをとったさまざまな手法の 2D プロットを示します。これは、TripoSR が最も高速なネットワークの 3 つであると同時に、最もパフォーマンスの高いフィードフォワード XNUMXD 再構成モデ​​ルであることを示しています。

定量的および定性的結果

定量的な結果は、TripoSR の卓越したパフォーマンスを示しており、以下のようなさまざまなしきい値にわたって F スコアが向上しています。 [メール保護], [メール保護], [メール保護]。これらの指標は、TripoSR が 3D 再構築において高い精度と精度を達成できることを示しています。さらに、図 3 に示す定性的な結果は、TripoSR の出力メッシュと、GSO および OmniObject3D データセットに関する他の最先端の手法との視覚的な比較を提供します。

視覚的な比較では、以前の方法と比較して、TripoSR の品質が大幅に高く、再構築された 3D 形状とテクスチャの詳細がより優れていることがわかります。これらの定量的および定性的結果は、3D 再構成における TripoSR の優位性を示しています。

TripoSR による 3D 再構築の未来

TripoSR は、高速フィードフォワード 3D 生成機能を備えており、さまざまな分野のさまざまなアプリケーションに大きな可能性を秘めています。さらに、進行中の研究開発の取り組みにより、3D 生成 AI の分野におけるさらなる進歩への道が開かれています。

TripoSR のさまざまな分野への応用の可能性

TripoSR の導入により、さまざまな分野で無数の潜在的なアプリケーションが開かれました。 AI の分野では、単一の画像から高品質の 3D モデルを迅速に生成する TripoSR の機能は、高度な 3D 生成 AI モデルの開発に大きな影響を与える可能性があります。さらに、コンピュータ ビジョンでは、TripoSR の 3D 再構成における優れたパフォーマンスにより、オブジェクト認識とシーン理解の精度と精度を向上させることができます。

コンピューター グラフィックスの分野では、単一の画像から詳細な 3D オブジェクトを生成する TripoSR の機能により、仮想環境とデジタル コンテンツの作成に革命を起こすことができます。さらに、AI とコンピューター ビジョンのより広範な文脈において、TripoSR の効率とパフォーマンスは、ロボット工学、拡張現実、仮想現実、医療画像などのアプリケーションの進歩を促進する可能性があります。

更なる進歩を目指して研究開発を継続

MIT ライセンスに基づく TripoSR のリリースにより、3D 生成 AI のさらなる進歩を目的とした継続的な研究開発の取り組みが始まりました。研究者や開発者は、効率の向上、多様な領域への適用範囲の拡大、再構成品質の向上など、TripoSR の機能を強化する方法を積極的に模索しています。

さらに、現実世界のシナリオに合わせて TripoSR を最適化し、幅広い入力画像に対する堅牢性と適応性を確保することに継続的な取り組みが行われています。さらに、TripoSR のオープンソースの性質により、共同研究の取り組みが促進され、3D 再構成のための革新的な技術と方法論の開発が促進されました。

これらの進行中の研究開発の取り組みは、TripoSR を新たな高みに押し上げ、3D 生成 AI 分野の主要モデルとしての地位を固める準備が整っています。

まとめ

単一の画像から 3 秒未満で高品質の 0.5D モデルを生成するという TripoSR の目覚ましい成果は、生成 AI の急速な進歩の証です。最先端のトランスフォーマー アーキテクチャ、細心の注意を払ったデータ キュレーション技術、最適化されたレンダリング アプローチを組み合わせることで、TripoSR はフィードフォワード 3D 再構成の新しいベンチマークを設定しました。

研究者や開発者がこのオープンソース モデルの可能性を探求し続けるにつれて、3D 生成 AI の未来はこれまで以上に明るいように見えます。そのアプリケーションは、コンピューター グラフィックスや仮想環境からロボット工学や医療画像処理に至るまで、さまざまな領域に及び、将来的に飛躍的な成長が見込まれています。したがって、TripoSR は、3D ビジュアライゼーションと再構成が重要な役割を果たす分野でイノベーションを推進し、新たなフロンティアを開拓する態勢を整えています。

これを読んで気に入りましたか?さらに多くのこのような AI ツールとそのア​​プリケーションを探索できます こちら.

スポット画像

最新のインテリジェンス

スポット画像