Logo Zéphyrnet

TripoSR de Stability AI : de l'image au modèle 3D en quelques secondes

Date :

Introduction

La capacité de transformer une image unique en un modèle 3D détaillé est depuis longtemps une préoccupation dans le domaine de la vision par ordinateur ainsi que IA générative. TripoSR de Stability AI marque un pas en avant significatif dans cette quête, offrant une approche révolutionnaire de la reconstruction 3D à partir d'images. Il permet aux chercheurs, aux développeurs et aux créatifs de transformer des visuels 2D en représentations 3D immersives avec une rapidité et une précision inégalées. De plus, ce modèle innovant ouvre une myriade d'applications dans divers domaines, de l'infographie à réalité virtuelle à robotique ainsi que l'imagerie médicale. Dans cet article, nous approfondirons l'architecture, le fonctionnement, les fonctionnalités et les applications du modèle TripoSR de Stability AI.

TripoSR

Table des matières

Qu’est-ce que TripoSR ?

TripoSR est un modèle de reconstruction 3D qui exploite transformateur pour une génération 3D rapide, produisant un maillage 3D à partir d'une seule image en moins de 0.5 seconde. Il est construit sur l'architecture de réseau LRM et intègre des améliorations substantielles dans informatique, la conception de modèles et les techniques de formation. Le modèle est publié sous licence MIT, dans le but de permettre aux chercheurs, aux développeurs et aux créatifs de bénéficier des dernières avancées en matière de IA générative 3D.

Démo TripoSR
Démo TripoSR

Architecture LRM du TripoSR de Stability AI

Semblable à LRM, TripoSR exploite l'architecture du transformateur et est spécifiquement conçu pour la reconstruction 3D d'une seule image. Il prend une seule image RVB en entrée et génère une représentation 3D de l'objet dans l'image. Le cœur de TripoSR comprend trois composants : un encodeur d'image, un décodeur image vers triplan et un champ de radiance neuronale basé sur triplan (Nerf). Comprenons clairement chacun de ces composants.

Architecture LRM du TripoSR de Stability AI

Encodeur d'images

L'encodeur d'image est initialisé avec un modèle de transformateur de vision pré-entraîné, DINOv1. Ce modèle projette une image RVB dans un ensemble de vecteurs latents codant pour les caractéristiques globales et locales de l'image. Ces vecteurs contiennent les informations nécessaires pour reconstruire l'objet 3D.

Décodeur image vers triplan

Le décodeur image vers triplan transforme les vecteurs latents en représentation triplan-NeRF. Il s'agit d'une représentation 3D compacte et expressive adaptée aux formes et textures complexes. Il se compose d’une pile de couches de transformateur, chacune avec une couche d’auto-attention et une couche d’attention croisée. Cela permet au décodeur de s'occuper de différentes parties de la représentation triplan et d'apprendre les relations entre elles.

Champ de radiance neuronale (NeRF) basé sur un triplan

Le modèle NeRF basé sur un triplan comprend une pile de perceptrons multicouches chargés de prédire la couleur et la densité d'un point 3D dans l'espace. Ce composant joue un rôle crucial dans la représentation précise de la forme et de la texture de l'objet 3D.

Comment ces composants fonctionnent-ils ensemble ?

L'encodeur d'image capture les caractéristiques globales et locales de l'image d'entrée. Celles-ci sont ensuite transformées en représentation triplan-NeRF par le décodeur image vers triplan. Le modèle NeRF traite ensuite cette représentation pour prédire la couleur et la densité des points 3D dans l'espace. En intégrant ces composants, TripoSR permet une génération 3D rapide avec une qualité de reconstruction et une efficacité de calcul élevées.

Comment ces composants fonctionnent-ils ensemble ?

Les avancées techniques de TripoSR

Dans le but d'améliorer l'IA générative 3D, TripoSR introduit plusieurs avancées techniques visant à améliorer l'efficacité et les performances. Ces avancées incluent des techniques de conservation des données pour une formation améliorée, des techniques de rendu pour une qualité de reconstruction optimisée et des ajustements de configuration du modèle pour équilibrer vitesse et précision. Explorons-les plus en détail.

Techniques de conservation des données pour une formation améliorée

TripoSR intègre des techniques méticuleuses de conservation des données pour renforcer la qualité des données de formation. En organisant sélectivement un sous-ensemble de l'ensemble de données Objaverse sous la licence CC-BY, le modèle garantit que les données de formation sont de haute qualité. Ce processus de conservation délibéré vise à améliorer la capacité du modèle à généraliser et à produire des reconstructions 3D précises. De plus, le modèle exploite un large éventail de techniques de rendu de données pour imiter fidèlement les distributions d'images du monde réel. Cela augmente encore sa capacité à gérer un large éventail de scénarios et à produire des reconstructions de haute qualité.

Techniques de rendu pour une qualité de reconstruction optimisée

Pour optimiser la qualité de la reconstruction, TripoSR utilise des techniques de rendu qui équilibrent l'efficacité du calcul et la granularité de la reconstruction. Pendant l'entraînement, le modèle restitue des correctifs aléatoires de taille 128 × 128 à partir d'images originales de résolution 512 × 512. Simultanément, il gère efficacement les charges de mémoire de calcul et du GPU. De plus, TripoSR met en œuvre une stratégie d'échantillonnage importante pour mettre en valeur les régions de premier plan, garantissant ainsi des reconstructions fidèles des détails de la surface des objets. Ces techniques de rendu contribuent à la capacité du modèle à produire des reconstructions 3D de haute qualité tout en conservant l'efficacité des calculs.

Ajustements de la configuration du modèle pour équilibrer la vitesse et la précision

Dans un effort pour équilibrer vitesse et précision, TripoSR effectue des ajustements stratégiques de configuration du modèle. Le modèle renonce au conditionnement explicite des paramètres de la caméra, ce qui lui permet de « deviner » les paramètres de la caméra pendant la formation et l'inférence. Cette approche améliore l'adaptabilité et la résilience du modèle aux images d'entrée du monde réel, éliminant ainsi le besoin d'informations précises sur la caméra.

De plus, TripoSR introduit également des améliorations techniques concernant le nombre de couches dans le transformateur et les dimensions des triplans. Les spécificités du modèle NeRF et les principales configurations d'entraînement ont également été améliorées. Ces ajustements contribuent à la capacité du modèle à générer rapidement des modèles 3D avec un contrôle précis sur les modèles de sortie.

Performances de TripoSR sur les ensembles de données publics

Évaluons maintenant les performances de TripoSR sur des ensembles de données publics en utilisant une gamme de mesures d'évaluation et en comparant ses résultats avec des méthodes de pointe.

Métriques d'évaluation pour la reconstruction 3D

Pour évaluer les performances de TripoSR, nous utilisons un ensemble de mesures d'évaluation pour la reconstruction 3D. Nous organisons deux ensembles de données publics, GSO et OmniObject3D, pour les évaluations, garantissant ainsi une collection diversifiée et représentative d'objets communs.

Les mesures d'évaluation incluent la distance de chanfrein (CD) et le score F (FS), qui sont calculés en extrayant l'isosurface à l'aide de Marching Cubes pour convertir les représentations 3D implicites en maillages. De plus, nous utilisons une approche de recherche par force brute pour aligner les prédictions sur les formes de la vérité terrain, en optimisant le CD le plus bas. Ces mesures permettent une évaluation complète de la qualité et de la précision de la reconstruction de TripoSR.

Comparaison de TripoSR avec des méthodes de pointe

Nous comparons quantitativement TripoSR avec les lignes de base de pointe existantes en matière de reconstruction 3D qui utilisent des techniques de rétroaction, notamment One-2-3-45, TriplaneGaussian (TGS), ZeroShape et OpenLRM. La comparaison révèle que TripoSR surpasse considérablement toutes les références en termes de métriques CD et FS, atteignant de nouvelles performances de pointe sur cette tâche.

De plus, nous présentons un tracé 2D de différentes techniques avec des temps d'inférence le long de l'axe des x et le F-Score moyen le long de l'axe des y. Cela démontre que TripoSR fait partie des réseaux les plus rapides tout en étant également le modèle de reconstruction 3D feed-forward le plus performant.

Résultats quantitatifs et qualitatifs

Les résultats quantitatifs mettent en valeur les performances exceptionnelles de TripoSR, avec des améliorations du F-Score sur différents seuils, notamment [email protected], [email protected]et [email protected]. Ces mesures démontrent la capacité de TripoSR à atteindre une précision et une exactitude élevées dans la reconstruction 3D. De plus, les résultats qualitatifs, illustrés dans la figure 3, fournissent une comparaison visuelle des maillages de sortie de TripoSR avec d'autres méthodes de pointe sur les ensembles de données GSO et OmniObject3D.

La comparaison visuelle met en évidence la qualité nettement supérieure de TripoSR et les meilleurs détails des formes et textures 3D reconstruites par rapport aux méthodes précédentes. Ces résultats quantitatifs et qualitatifs démontrent la supériorité de TripoSR en matière de reconstruction 3D.

L'avenir de la reconstruction 3D avec TripoSR

TripoSR, avec ses capacités de génération 3D à action rapide, présente un potentiel important pour diverses applications dans différents domaines. De plus, les efforts de recherche et de développement en cours ouvrent la voie à de nouvelles avancées dans le domaine de l’IA générative 3D.

Applications potentielles de TripoSR dans divers domaines

L'introduction de TripoSR a ouvert une myriade d'applications potentielles dans divers domaines. Dans le domaine de l'IA, la capacité de TripoSR à générer rapidement des modèles 3D de haute qualité à partir d'images uniques peut avoir un impact significatif sur le développement de modèles d'IA génératifs 3D avancés. De plus, en vision par ordinateur, les performances supérieures de TripoSR en matière de reconstruction 3D peuvent améliorer l'exactitude et la précision de la reconnaissance d'objets et de la compréhension de la scène.

Dans le domaine de l'infographie, la capacité de TripoSR à produire des objets 3D détaillés à partir d'images uniques peut révolutionner la création d'environnements virtuels et de contenu numérique. De plus, dans le contexte plus large de l'IA et de la vision par ordinateur, l'efficacité et les performances de TripoSR peuvent potentiellement faire progresser des applications telles que la robotique, la réalité augmentée, la réalité virtuelle et l'imagerie médicale.

Recherche et développement continus pour de nouveaux progrès

La sortie de TripoSR sous licence MIT a déclenché des efforts continus de recherche et de développement visant à faire progresser davantage l’IA générative 3D. Les chercheurs et les développeurs explorent activement les moyens d'améliorer les capacités de TripoSR, notamment en améliorant son efficacité, en élargissant son applicabilité à divers domaines et en affinant la qualité de sa reconstruction.

De plus, les efforts continus sont concentrés sur l'optimisation de TripoSR pour des scénarios du monde réel, garantissant sa robustesse et son adaptabilité à une large gamme d'images d'entrée. De plus, la nature open source de TripoSR a favorisé des initiatives de recherche collaborative, conduisant au développement de techniques et de méthodologies innovantes pour la reconstruction 3D.

Ces efforts de recherche et développement en cours sont sur le point de propulser TripoSR vers de nouveaux sommets, renforçant ainsi sa position de modèle leader dans le domaine de l'IA générative 3D.

Conclusion

La réussite remarquable de TripoSR dans la production de modèles 3D de haute qualité à partir d'une seule image en moins de 0.5 seconde témoigne des progrès rapides de l'IA générative. En combinant des architectures de transformateurs de pointe, des techniques méticuleuses de conservation des données et des approches de rendu optimisées, TripoSR a établi une nouvelle référence en matière de reconstruction 3D feed-forward.

Alors que les chercheurs et les développeurs continuent d’explorer le potentiel de ce modèle open source, l’avenir de l’IA générative 3D semble plus prometteur que jamais. Ses applications couvrent divers domaines, de l'infographie et des environnements virtuels à la robotique et à l'imagerie médicale, promettant une croissance exponentielle dans le futur. TripoSR est donc prêt à stimuler l’innovation et à ouvrir de nouvelles frontières dans des domaines où la visualisation et la reconstruction 3D jouent un rôle crucial.

Vous avez adoré lire ceci ? Vous pouvez explorer de nombreux autres outils d'IA de ce type et leurs applications ici.

spot_img

Dernières informations

spot_img