Logo Zephyrnet

TripoSR của Stability AI: Từ hình ảnh đến mô hình 3D trong vài giây

Ngày:

Giới thiệu

Khả năng chuyển đổi một hình ảnh thành mô hình 3D chi tiết từ lâu đã được theo đuổi trong lĩnh vực thị giác máy tínhtrí tuệ nhân tạo. TripoSR của Stability AI đánh dấu một bước tiến đáng kể trong nhiệm vụ này, mang đến một cách tiếp cận mang tính cách mạng trong việc tái tạo 3D từ hình ảnh. Nó trao quyền cho các nhà nghiên cứu, nhà phát triển và nhà sáng tạo với tốc độ và độ chính xác tuyệt vời trong việc chuyển đổi hình ảnh 2D thành hình ảnh 3D sống động. Hơn nữa, mô hình sáng tạo này mở ra vô số ứng dụng trên nhiều lĩnh vực khác nhau, từ đồ họa máy tính và thực tế ảo đến roboticsHình ảnh y tế. Trong bài viết này, chúng ta sẽ đi sâu vào kiến ​​trúc, hoạt động, tính năng và ứng dụng của mô hình TripoSR của Stability AI.

TripoSR

Mục lục

TripoSR là gì?

TripoSR là mô hình tái tạo 3D tận dụng biến áp kiến trúc để tạo 3D chuyển tiếp nhanh, tạo lưới 3D từ một hình ảnh duy nhất trong vòng chưa đầy 0.5 giây. Nó được xây dựng dựa trên kiến ​​trúc mạng LRM và tích hợp những cải tiến đáng kể trong xử lý dữ liệu, thiết kế mô hình và kỹ thuật đào tạo. Mô hình này được phát hành theo giấy phép MIT, nhằm mục đích trao quyền cho các nhà nghiên cứu, nhà phát triển và nhà sáng tạo với những tiến bộ mới nhất trong AI tạo 3D.

Bản demo TripoSR
Bản demo TripoSR

Kiến trúc LRM về tính ổn định TripoSR của AI

Tương tự như LRM, TripoSR tận dụng kiến ​​trúc máy biến áp và được thiết kế đặc biệt để tái tạo 3D một hình ảnh. Nó lấy một hình ảnh RGB làm đầu vào và xuất ra hình ảnh 3D của đối tượng trong hình ảnh. Cốt lõi của TripoSR bao gồm ba thành phần: bộ mã hóa hình ảnh, bộ giải mã hình ảnh thành ba mặt phẳng và trường bức xạ thần kinh dựa trên ba mặt phẳng (NeRF). Chúng ta hãy hiểu rõ từng thành phần này.

Kiến trúc LRM về tính ổn định TripoSR của AI

Bộ mã hóa hình ảnh

Bộ mã hóa hình ảnh được khởi tạo với mô hình biến đổi tầm nhìn được huấn luyện trước, DINOv1. Mô hình này chiếu hình ảnh RGB thành một tập hợp các vectơ tiềm ẩn mã hóa các đặc điểm cục bộ và toàn cục của hình ảnh. Các vectơ này chứa thông tin cần thiết để tái tạo lại đối tượng 3D.

Bộ giải mã hình ảnh thành ba mặt phẳng

Bộ giải mã hình ảnh thành ba mặt phẳng biến đổi các vectơ tiềm ẩn thành biểu diễn ba mặt phẳng-NeRF. Đây là bản trình bày 3D nhỏ gọn và biểu cảm, phù hợp với các hình dạng và kết cấu phức tạp. Nó bao gồm một chồng các lớp biến áp, mỗi lớp có một lớp tự chú ý và một lớp chú ý chéo. Điều này cho phép bộ giải mã tham gia vào các phần khác nhau của biểu diễn ba mặt phẳng và tìm hiểu mối quan hệ giữa chúng.

Trường bức xạ thần kinh dựa trên ba mặt phẳng (NeRF)

Mô hình NeRF dựa trên ba mặt phẳng bao gồm một chồng các tri giác đa lớp chịu trách nhiệm dự đoán màu sắc và mật độ của một điểm 3D trong không gian. Thành phần này đóng vai trò quan trọng trong việc thể hiện chính xác hình dạng và kết cấu của vật thể 3D.

Các thành phần này phối hợp với nhau như thế nào?

Bộ mã hóa hình ảnh ghi lại các đặc điểm chung và cục bộ của hình ảnh đầu vào. Sau đó, chúng được chuyển thành biểu diễn ba mặt phẳng-NeRF bằng bộ giải mã hình ảnh thành ba mặt phẳng. Mô hình NeRF tiếp tục xử lý biểu diễn này để dự đoán màu sắc và mật độ của các điểm 3D trong không gian. Bằng cách tích hợp các thành phần này, TripoSR đạt được khả năng tạo 3D chuyển tiếp nhanh với chất lượng tái tạo cao và hiệu quả tính toán.

Các thành phần này phối hợp với nhau như thế nào?

Những tiến bộ kỹ thuật của TripoSR

Để theo đuổi việc nâng cao AI tạo ra 3D, TripoSR giới thiệu một số cải tiến kỹ thuật nhằm nâng cao hiệu quả và hiệu suất. Những tiến bộ này bao gồm các kỹ thuật quản lý dữ liệu để nâng cao đào tạo, kỹ thuật kết xuất để có chất lượng tái tạo được tối ưu hóa và điều chỉnh cấu hình mô hình để cân bằng tốc độ và độ chính xác. Hãy cùng khám phá những điều này hơn nữa.

Kỹ thuật quản lý dữ liệu để đào tạo nâng cao

TripoSR kết hợp các kỹ thuật quản lý dữ liệu tỉ mỉ để nâng cao chất lượng dữ liệu đào tạo. Bằng cách quản lý có chọn lọc một tập hợp con của tập dữ liệu Objaverse theo giấy phép CC-BY, mô hình đảm bảo rằng dữ liệu đào tạo có chất lượng cao. Quá trình giám tuyển có chủ ý này nhằm mục đích nâng cao khả năng khái quát hóa và tạo ra các bản tái tạo 3D chính xác của mô hình. Ngoài ra, mô hình này tận dụng một loạt các kỹ thuật kết xuất dữ liệu đa dạng để mô phỏng chặt chẽ việc phân phối hình ảnh trong thế giới thực. Điều này càng nâng cao khả năng xử lý nhiều tình huống khác nhau và tạo ra các bản tái thiết chất lượng cao.

Kỹ thuật kết xuất để tối ưu hóa chất lượng tái tạo

Để tối ưu hóa chất lượng tái tạo, TripoSR sử dụng các kỹ thuật kết xuất giúp cân bằng giữa hiệu quả tính toán và độ chi tiết tái tạo. Trong quá trình đào tạo, mô hình hiển thị các bản vá ngẫu nhiên có kích thước 128 × 128 từ hình ảnh có độ phân giải 512 × 512 ban đầu. Đồng thời, nó quản lý hiệu quả tải bộ nhớ tính toán và GPU. Hơn nữa, TripoSR thực hiện chiến lược lấy mẫu quan trọng để nhấn mạnh các vùng tiền cảnh, đảm bảo tái tạo trung thực các chi tiết bề mặt đối tượng. Những kỹ thuật kết xuất này góp phần vào khả năng của mô hình trong việc tạo ra các bản tái tạo 3D chất lượng cao trong khi vẫn duy trì hiệu quả tính toán.

Điều chỉnh cấu hình mô hình để cân bằng tốc độ và độ chính xác

Trong nỗ lực cân bằng tốc độ và độ chính xác, TripoSR thực hiện các điều chỉnh cấu hình mô hình chiến lược. Mô hình này bỏ qua việc điều chỉnh thông số máy ảnh rõ ràng, cho phép nó “đoán” các thông số máy ảnh trong quá trình đào tạo và suy luận. Cách tiếp cận này nâng cao khả năng thích ứng và khả năng phục hồi của mô hình đối với hình ảnh đầu vào trong thế giới thực, loại bỏ nhu cầu về thông tin chính xác của camera.

Ngoài ra, TripoSR còn giới thiệu những cải tiến kỹ thuật về số lượng lớp trong máy biến áp và kích thước của ba mặt phẳng. Các chi tiết cụ thể của mô hình NeRF và các cấu hình đào tạo chính cũng đã được cải thiện. Những điều chỉnh này góp phần nâng cao khả năng của mô hình trong việc tạo ra mô hình 3D nhanh chóng với khả năng kiểm soát chính xác các mô hình đầu ra.

Hiệu suất của TripoSR trên các bộ dữ liệu công cộng

Bây giờ, hãy đánh giá hiệu suất của TripoSR trên các tập dữ liệu công khai bằng cách sử dụng nhiều chỉ số đánh giá và so sánh kết quả của nó với các phương pháp hiện đại.

Các số liệu đánh giá cho việc tái tạo 3D

Để đánh giá hiệu suất của TripoSR, chúng tôi sử dụng một bộ số liệu đánh giá để tái tạo 3D. Chúng tôi tuyển chọn hai bộ dữ liệu công khai, GSO và OmniObject3D, để đánh giá, đảm bảo bộ sưu tập các đối tượng chung đa dạng và mang tính đại diện.

Các số liệu đánh giá bao gồm Khoảng cách Chamfer (CD) và Điểm F (FS), được tính bằng cách trích xuất bề mặt đẳng hướng bằng cách sử dụng Marching Cubes để chuyển đổi các biểu diễn 3D tiềm ẩn thành các mắt lưới. Ngoài ra, chúng tôi sử dụng phương pháp tìm kiếm mạnh mẽ để căn chỉnh các dự đoán cho phù hợp với hình dạng thực tế cơ bản, tối ưu hóa cho CD thấp nhất. Những số liệu này cho phép đánh giá toàn diện về chất lượng và độ chính xác tái tạo của TripoSR.

So sánh TripoSR với các phương pháp tiên tiến nhất

Chúng tôi so sánh định lượng TripoSR với các đường cơ sở tiên tiến nhất hiện có về tái tạo 3D sử dụng các kỹ thuật chuyển tiếp nguồn cấp dữ liệu, bao gồm One-2-3-45, TriplaneGaussian (TGS), ZeroShape và OpenLRM. Sự so sánh cho thấy TripoSR vượt trội đáng kể so với tất cả các đường cơ sở về chỉ số CD và FS, đạt được hiệu suất tiên tiến mới cho nhiệm vụ này.

Hơn nữa, chúng tôi trình bày biểu đồ 2D gồm các kỹ thuật khác nhau với thời gian suy luận dọc theo trục x và Điểm F trung bình dọc theo trục y. Điều này chứng tỏ rằng TripoSR là một trong những mạng nhanh nhất đồng thời là mô hình tái tạo 3D chuyển tiếp nguồn cấp dữ liệu hoạt động tốt nhất.

Kết quả định lượng và định tính

Các kết quả định lượng cho thấy hiệu suất vượt trội của TripoSR, với những cải thiện về Điểm F ở các ngưỡng khác nhau, bao gồm [email được bảo vệ], [email được bảo vệ][email được bảo vệ]. Những số liệu này chứng tỏ khả năng của TripoSR đạt được độ chính xác và độ chính xác cao trong tái tạo 3D. Ngoài ra, các kết quả định tính, như được mô tả trong Hình 3, cung cấp sự so sánh trực quan về các lưới đầu ra của TripoSR với các phương pháp tiên tiến khác trên bộ dữ liệu GSO và OmniObject3D.

So sánh trực quan làm nổi bật chất lượng cao hơn đáng kể và chi tiết tốt hơn của TripoSR trong các hình dạng và kết cấu 3D được tái tạo so với các phương pháp trước đó. Những kết quả định lượng và định tính này chứng minh tính ưu việt của TripoSR trong việc tái tạo 3D.

Tương lai của việc tái tạo 3D với TripoSR

TripoSR, với khả năng tạo 3D chuyển tiếp nhanh, có tiềm năng đáng kể cho các ứng dụng khác nhau trên các lĩnh vực khác nhau. Ngoài ra, những nỗ lực nghiên cứu và phát triển đang diễn ra đang mở đường cho những tiến bộ hơn nữa trong lĩnh vực AI tạo hình 3D.

Các ứng dụng tiềm năng của TripoSR trong nhiều lĩnh vực khác nhau

Sự ra đời của TripoSR đã mở ra vô số ứng dụng tiềm năng trong nhiều lĩnh vực khác nhau. Trong lĩnh vực AI, khả năng tạo nhanh các mô hình 3D chất lượng cao từ các hình ảnh đơn lẻ của TripoSR có thể tác động đáng kể đến sự phát triển của các mô hình AI tạo 3D tiên tiến. Hơn nữa, trong thị giác máy tính, hiệu suất vượt trội của TripoSR trong việc tái tạo 3D có thể nâng cao độ chính xác và độ chính xác của nhận dạng đối tượng và hiểu cảnh.

Trong lĩnh vực đồ họa máy tính, khả năng tạo ra các vật thể 3D chi tiết từ các hình ảnh đơn lẻ của TripoSR có thể cách mạng hóa việc tạo ra môi trường ảo và nội dung số. Hơn nữa, trong bối cảnh rộng hơn của AI và thị giác máy tính, hiệu quả và hiệu suất của TripoSR có thể thúc đẩy tiến bộ trong các ứng dụng như robot, thực tế tăng cường, thực tế ảo và hình ảnh y tế.

Nghiên cứu và phát triển liên tục để có những tiến bộ hơn nữa

Việc phát hành TripoSR theo giấy phép MIT đã khơi dậy những nỗ lực nghiên cứu và phát triển không ngừng nhằm mục đích thúc đẩy hơn nữa AI tạo ra 3D. Các nhà nghiên cứu và nhà phát triển đang tích cực khám phá các cách để nâng cao khả năng của TripoSR, bao gồm cải thiện hiệu quả của nó, mở rộng khả năng ứng dụng sang các lĩnh vực khác nhau và cải tiến chất lượng tái thiết của nó.

Ngoài ra, những nỗ lực không ngừng tập trung vào việc tối ưu hóa TripoSR cho các tình huống thực tế, đảm bảo tính mạnh mẽ và khả năng thích ứng của nó với nhiều loại hình ảnh đầu vào. Hơn nữa, bản chất nguồn mở của TripoSR đã thúc đẩy các sáng kiến ​​nghiên cứu hợp tác, thúc đẩy sự phát triển các kỹ thuật và phương pháp đổi mới để tái tạo 3D.

Những nỗ lực nghiên cứu và phát triển đang diễn ra này đã sẵn sàng để đẩy TripoSR lên những tầm cao mới, củng cố vị thế của nó như một mô hình hàng đầu trong lĩnh vực AI tạo hình 3D.

Kết luận

Thành tích đáng chú ý của TripoSR trong việc tạo ra các mô hình 3D chất lượng cao từ một hình ảnh duy nhất trong thời gian dưới 0.5 giây là minh chứng cho những tiến bộ nhanh chóng trong lĩnh vực AI tổng hợp. Bằng cách kết hợp kiến ​​trúc máy biến áp tiên tiến, kỹ thuật quản lý dữ liệu tỉ mỉ và phương pháp kết xuất được tối ưu hóa, TripoSR đã thiết lập một tiêu chuẩn mới cho việc tái tạo 3D chuyển tiếp nguồn cấp dữ liệu.

Khi các nhà nghiên cứu và nhà phát triển tiếp tục khám phá tiềm năng của mô hình nguồn mở này, tương lai của AI tạo ra 3D sẽ trở nên tươi sáng hơn bao giờ hết. Các ứng dụng của nó trải rộng trên nhiều lĩnh vực khác nhau, từ đồ họa máy tính và môi trường ảo đến robot và hình ảnh y tế, hứa hẹn sự tăng trưởng theo cấp số nhân trong tương lai. Do đó, TripoSR sẵn sàng thúc đẩy đổi mới và mở ra những giới hạn mới trong các lĩnh vực mà hình ảnh và tái tạo 3D đóng vai trò quan trọng.

Thích đọc cái này? Bạn có thể khám phá thêm nhiều công cụ AI như vậy và ứng dụng của chúng tại đây.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img