제퍼넷 로고

Stability AI의 TripoSR: 이미지에서 몇 초 만에 3D 모델까지

시간

개요

단일 이미지를 상세한 3D 모델로 변환하는 능력은 오랫동안 과학 분야에서 추구되어 왔습니다. 컴퓨터 비전생성 적 AI. Stability AI의 TripoSR은 이미지로부터 3D 재구성에 대한 혁신적인 접근 방식을 제공하여 이 탐구에서 중요한 도약을 보여줍니다. 2D 시각 자료를 몰입형 3D 표현으로 변환하는 데 있어 비교할 수 없는 속도와 정확성으로 연구원, 개발자 및 창작자들의 역량을 강화합니다. 더욱이, 혁신적인 모델은 컴퓨터 그래픽, 컴퓨터 그래픽, 가상 현실로봇의료 이미징. 이 기사에서는 Stability AI의 TripoSR 모델의 아키텍처, 작업, 기능 및 응용 프로그램을 자세히 살펴보겠습니다.

트리포SR

차례

TripoSR이란 무엇입니까?

TripoSR은 다음을 활용하는 3D 재구성 모델입니다. 변압기 빠른 피드포워드 3D 생성을 위한 아키텍처로 3초 이내에 단일 이미지에서 0.5D 메시를 생성합니다. 이는 LRM 네트워크 아키텍처를 기반으로 구축되었으며 다음과 같은 실질적인 개선 사항을 통합합니다. 데이터 처리, 모델 설계 및 훈련 기술. 이 모델은 연구원, 개발자 및 창작자에게 최신 기술 발전을 제공하는 것을 목표로 MIT 라이선스에 따라 출시되었습니다. 3D 생성 AI.

TripoSR 데모
TripoSR 데모

Stability AI TripoSR의 LRM 아키텍처

LRM과 유사하게 TripoSR은 변환기 아키텍처를 활용하며 단일 이미지 3D 재구성을 위해 특별히 설계되었습니다. 단일 RGB 이미지를 입력으로 사용하고 이미지에 있는 개체의 3D 표현을 출력합니다. TripoSR의 핵심에는 이미지 인코더, 이미지-삼중 평면 디코더 및 삼중 평면 기반 신경 방사 필드(NeRF). 이러한 각 구성 요소를 명확하게 이해해 봅시다.

Stability AI TripoSR의 LRM 아키텍처

이미지 인코더

이미지 인코더는 사전 훈련된 비전 변환기 모델 DINOv1로 초기화됩니다. 이 모델은 RGB 이미지를 이미지의 전역 및 로컬 특징을 인코딩하는 잠재 벡터 세트로 투영합니다. 이러한 벡터에는 3D 개체를 재구성하는 데 필요한 정보가 포함되어 있습니다.

이미지-삼중 평면 디코더

이미지-삼중평면 디코더는 잠재 벡터를 삼중평면-NeRF 표현으로 변환합니다. 복잡한 모양과 질감에 적합한 컴팩트하고 표현력이 풍부한 3D 표현입니다. 이는 각각 Self-Attention 레이어와 Cross-Attention 레이어를 포함하는 Transformer 레이어 스택으로 구성됩니다. 이를 통해 디코더는 삼면 표현의 다양한 부분에 주의를 기울이고 이들 사이의 관계를 학습할 수 있습니다.

삼중 평면 기반 NeRF(Neural Radiance Field)

삼면 기반 NeRF 모델은 공간에서 3D 점의 색상과 밀도를 예측하는 다층 퍼셉트론 스택으로 구성됩니다. 이 구성 요소는 3D 개체의 모양과 질감을 정확하게 표현하는 데 중요한 역할을 합니다.

이러한 구성 요소는 어떻게 함께 작동합니까?

이미지 인코더는 입력 이미지의 전역 및 로컬 특징을 캡처합니다. 그런 다음 이미지-삼중 평면 디코더에 의해 삼중 평면 NeRF 표현으로 변환됩니다. NeRF 모델은 이 표현을 추가로 처리하여 공간 내 3D 점의 색상과 밀도를 예측합니다. 이러한 구성 요소를 통합함으로써 TripoSR은 높은 재구성 품질과 계산 효율성으로 빠른 피드포워드 3D 생성을 달성합니다.

이러한 구성 요소는 어떻게 함께 작동합니까?

TripoSR의 기술 발전

3D 생성 AI를 향상시키기 위해 TripoSR은 효율성과 성능 강화를 목표로 하는 몇 가지 기술 발전을 도입했습니다. 이러한 발전에는 향상된 훈련을 위한 데이터 큐레이션 기술, 최적화된 재구성 품질을 위한 렌더링 기술, 속도와 정확성의 균형을 위한 모델 구성 조정이 포함됩니다. 이에 대해 좀 더 자세히 살펴보겠습니다.

강화된 훈련을 위한 데이터 큐레이션 기법

TripoSR은 훈련 데이터의 품질을 강화하기 위해 세심한 데이터 큐레이션 기술을 통합합니다. CC-BY 라이선스에 따라 Objaverse 데이터 세트의 하위 집합을 선택적으로 선별함으로써 이 모델은 훈련 데이터의 고품질을 보장합니다. 이 신중한 큐레이션 프로세스는 정확한 3D 재구성을 일반화하고 생성하는 모델의 능력을 향상시키는 것을 목표로 합니다. 또한 이 모델은 다양한 데이터 렌더링 기술을 활용하여 실제 이미지 분포를 밀접하게 에뮬레이트합니다. 이를 통해 광범위한 시나리오를 처리하고 고품질 재구성을 생성하는 능력이 더욱 향상됩니다.

최적화된 재구성 품질을 위한 렌더링 기술

재구성 품질을 최적화하기 위해 TripoSR은 계산 효율성과 재구성 세분성의 균형을 맞추는 렌더링 기술을 사용합니다. 훈련 중에 모델은 원본 128 × 128 해상도 이미지에서 512 × 512 크기의 무작위 패치를 렌더링합니다. 동시에 컴퓨팅 및 GPU 메모리 로드를 효과적으로 관리합니다. 또한 TripoSR은 전경 영역을 강조하는 중요한 샘플링 전략을 구현하여 물체 표면 세부 사항을 충실하게 재구성합니다. 이러한 렌더링 기술은 계산 효율성을 유지하면서 고품질 3D 재구성을 생성하는 모델의 능력에 기여합니다.

속도와 정확성의 균형을 위한 모델 구성 조정

속도와 정확성의 균형을 맞추기 위해 TripoSR은 전략적 모델 구성을 조정합니다. 이 모델은 명시적인 카메라 매개변수 조절을 생략하여 훈련 및 추론 중에 카메라 매개변수를 "추측"할 수 있습니다. 이 접근 방식은 실제 입력 이미지에 대한 모델의 적응성과 탄력성을 향상시켜 정확한 카메라 정보가 필요하지 않게 해줍니다.

또한 TripoSR은 변압기의 레이어 수와 삼면의 크기에 대한 기술적 개선도 도입했습니다. NeRF 모델의 세부 사항과 주요 훈련 구성도 개선되었습니다. 이러한 조정은 출력 모델을 정밀하게 제어하여 신속한 3D 모델 생성을 달성하는 모델의 능력에 기여합니다.

공개 데이터 세트에 대한 TripoSR의 성능

이제 다양한 평가 지표를 사용하고 그 결과를 최첨단 방법과 비교하여 공개 데이터 세트에서 TripoSR의 성능을 평가해 보겠습니다.

3D 재구성을 위한 평가 지표

TripoSR의 성능을 평가하기 위해 3D 재구성을 위한 일련의 평가 측정항목을 활용합니다. 우리는 평가를 위해 두 개의 공개 데이터세트인 GSO와 OmniObject3D를 선별하여 공통 개체의 다양하고 대표적인 컬렉션을 보장합니다.

평가 지표에는 CD(모따기 거리) 및 F 점수(FS)가 포함되며, 이는 암시적 3D 표현을 메시로 변환하기 위해 Marching Cube를 사용하여 등가면을 추출하여 계산됩니다. 또한 우리는 무차별 검색 접근 방식을 사용하여 예측을 실제 모양과 정렬하여 가장 낮은 CD를 최적화합니다. 이러한 측정항목을 통해 TripoSR의 재구성 품질과 정확성을 포괄적으로 평가할 수 있습니다.

TripoSR과 최첨단 방법 비교

우리는 One-3-2-3, TriplaneGaussian(TGS), ZeroShape 및 OpenLRM을 포함한 피드포워드 기술을 사용하는 45D 재구성에 대한 기존의 최첨단 기준과 TripoSR을 정량적으로 비교합니다. 비교 결과 TripoSR은 CD 및 FS 지표 측면에서 모든 기준을 크게 능가하여 이 작업에 대한 새로운 최첨단 성능을 달성한 것으로 나타났습니다.

또한 x축에 추론 시간이 있고 y축에 평균 F-점수가 있는 다양한 기술의 2D 플롯을 제시합니다. 이는 TripoSR이 가장 빠른 네트워크 중 하나이자 최고 성능의 피드포워드 3D 재구성 모델임을 보여줍니다.

정량적 및 정성적 결과

정량적 결과는 다음을 포함하여 다양한 임계값에 걸쳐 F-Score 개선을 통해 TripoSR의 탁월한 성능을 보여줍니다. [이메일 보호], [이메일 보호][이메일 보호]. 이러한 측정항목은 3D 재구성에서 높은 정밀도와 정확성을 달성하는 TripoSR의 능력을 보여줍니다. 또한 그림 3에 설명된 정성적 결과는 TripoSR의 출력 메쉬와 GSO 및 OmniObject3D 데이터 세트에 대한 다른 최첨단 방법을 시각적으로 비교합니다.

시각적 비교를 통해 TripoSR은 이전 방법에 비해 재구성된 3D 모양 및 질감에서 훨씬 더 높은 품질과 더 나은 세부 정보를 강조합니다. 이러한 정량적, 정성적 결과는 TripoSR의 3D 재구성 우수성을 입증합니다.

TripoSR을 통한 3D 재구성의 미래

빠른 피드포워드 3D 생성 기능을 갖춘 TripoSR은 다양한 분야의 다양한 애플리케이션에 대한 상당한 잠재력을 보유하고 있습니다. 또한, 지속적인 연구 및 개발 노력은 3D 생성 AI 영역에서 더욱 발전할 수 있는 기반을 마련하고 있습니다.

다양한 분야의 TripoSR 활용 가능성

TripoSR의 도입으로 다양한 분야에 무수히 많은 잠재적인 응용이 가능해졌습니다. AI 영역에서 단일 이미지에서 고품질 3D 모델을 신속하게 생성하는 TripoSR의 능력은 고급 3D 생성 AI 모델 개발에 큰 영향을 미칠 수 있습니다. 또한 컴퓨터 비전에서 TripoSR의 3D 재구성 성능이 뛰어나 객체 인식 및 장면 이해의 정확성과 정밀도를 향상시킬 수 있습니다.

컴퓨터 그래픽 분야에서 단일 이미지에서 상세한 3D 개체를 생성하는 TripoSR의 기능은 가상 환경과 디지털 콘텐츠 생성에 혁명을 일으킬 수 있습니다. 또한 AI 및 컴퓨터 비전의 더 넓은 맥락에서 TripoSR의 효율성과 성능은 로봇 공학, 증강 현실, 가상 현실 및 의료 영상과 같은 응용 분야의 발전을 잠재적으로 이끌 수 있습니다.

더 나은 발전을 위한 지속적인 연구 개발

MIT 라이선스에 따라 TripoSR이 출시되면서 3D 생성 AI를 더욱 발전시키기 위한 지속적인 연구 개발 노력이 촉발되었습니다. 연구자와 개발자들은 효율성 향상, 다양한 영역에의 적용성 확대, 재구성 품질 개선 등 TripoSR의 역량을 강화할 수 있는 방법을 적극적으로 모색하고 있습니다.

또한 실제 시나리오에 맞게 TripoSR을 최적화하여 광범위한 입력 이미지에 대한 견고성과 적응성을 보장하기 위한 지속적인 노력이 집중되고 있습니다. 또한 TripoSR의 오픈 소스 특성은 공동 연구 이니셔티브를 촉진하여 3D 재구성을 위한 혁신적인 기술 및 방법론 개발을 주도했습니다.

이러한 지속적인 연구 개발 노력은 TripoSR을 새로운 차원으로 끌어올려 3D 생성 AI 분야의 선두 모델로서의 입지를 확고히 할 것입니다.

결론

단일 이미지에서 3초 이내에 고품질 0.5D 모델을 생성하는 TripoSR의 놀라운 성과는 생성 AI의 급속한 발전을 입증합니다. 최첨단 변환기 아키텍처, 세심한 데이터 큐레이션 기술 및 최적화된 렌더링 접근 방식을 결합하여 TripoSR은 피드포워드 3D 재구성에 대한 새로운 기준을 설정했습니다.

연구원과 개발자가 이 오픈 소스 모델의 잠재력을 계속해서 탐구함에 따라 3D 생성 AI의 미래는 그 어느 때보다 밝아 보입니다. 그 응용 프로그램은 컴퓨터 그래픽 및 가상 환경에서 로봇 공학 및 의료 영상에 이르기까지 다양한 영역에 걸쳐 있어 향후 기하급수적인 성장을 약속합니다. 따라서 TripoSR은 3D 시각화 및 재구성이 중요한 역할을 하는 분야에서 혁신을 주도하고 새로운 영역을 개척할 준비가 되어 있습니다.

이 글을 읽는 것이 마음에 드셨나요? 더 많은 AI 도구와 해당 응용 프로그램을 탐색할 수 있습니다. 여기에서 지금 확인해 보세요..

spot_img

최신 인텔리전스

spot_img