Logo Zephyrnet

Meta cho thấy tiến bộ mới về công nghệ chính để làm cho AR thực sự hữu ích

Ngày:

Meta đã giới thiệu Mô hình Phân đoạn Mọi thứ, nhằm mục đích thiết lập một tiêu chuẩn mới cho 'phân đoạn đối tượng' dựa trên tầm nhìn máy tính—khả năng máy tính hiểu được sự khác biệt giữa các đối tượng riêng lẻ trong một hình ảnh hoặc video. Phân đoạn sẽ là chìa khóa để làm cho AR thực sự hữu ích bằng cách cho phép hiểu biết toàn diện về thế giới xung quanh người dùng.

Phân đoạn đối tượng là quá trình xác định và tách các đối tượng trong một hình ảnh hoặc video. Với sự trợ giúp của AI, quy trình này có thể được tự động hóa, giúp xác định và cô lập các đối tượng trong thời gian thực. Công nghệ này sẽ rất quan trọng để tạo ra trải nghiệm AR hữu ích hơn bằng cách cung cấp cho hệ thống nhận thức về các đối tượng khác nhau trên thế giới xung quanh người dùng.

Thách thức

Ví dụ, hãy tưởng tượng rằng bạn đang đeo một cặp kính AR và bạn muốn có hai màn hình ảo nổi ở bên trái và bên phải màn hình thực của mình. Trừ khi bạn định cho hệ thống biết vị trí màn hình thực của bạn theo cách thủ công, hệ thống phải có khả năng hiểu màn hình trông như thế nào để khi nhìn thấy màn hình của bạn, nó có thể đặt màn hình ảo tương ứng.

Nhưng màn hình có đủ hình dạng, kích cỡ và màu sắc. Đôi khi các phản xạ hoặc các đối tượng bị che khuất khiến hệ thống thị giác máy tính khó nhận ra hơn.

Việc có một hệ thống phân đoạn nhanh và đáng tin cậy có thể xác định từng đối tượng trong phòng xung quanh bạn (chẳng hạn như màn hình của bạn) sẽ là chìa khóa mở ra vô số trường hợp sử dụng AR để công nghệ có thể thực sự hữu ích.

Phân khúc đối tượng dựa trên thị giác máy tính đã là một lĩnh vực nghiên cứu liên tục trong nhiều năm nay, nhưng một trong những vấn đề chính là để giúp máy tính hiểu những gì chúng đang xem, bạn cần đào tạo một mô hình AI bằng cách cung cấp cho nó rất nhiều. hình ảnh để học hỏi.

Những mô hình như vậy có thể khá hiệu quả trong việc xác định các đối tượng mà chúng đã được đào tạo, nhưng nếu chúng gặp khó khăn với các đối tượng mà chúng chưa từng thấy trước đây. Điều đó có nghĩa là một trong những thách thức lớn nhất đối với phân đoạn đối tượng chỉ đơn giản là có một bộ hình ảnh đủ lớn để hệ thống học hỏi, nhưng việc thu thập những hình ảnh đó và chú thích chúng theo cách giúp chúng hữu ích cho việc đào tạo là một nhiệm vụ không hề nhỏ.

tôi là

Meta được xuất bản gần đây về một dự án mới có tên là Phân khúc bất cứ mô hình nào (SAM). Nó vừa là một mô hình phân khúc vừa là một tập hợp lớn các hình ảnh đào tạo mà công ty đang phát hành để những người khác dựa vào đó xây dựng.

Dự án nhằm mục đích giảm nhu cầu về chuyên môn mô hình hóa nhiệm vụ cụ thể. SAM là một mô hình phân đoạn chung có thể xác định bất kỳ đối tượng nào trong bất kỳ hình ảnh hoặc video nào, ngay cả đối với các đối tượng và loại hình ảnh mà nó không nhìn thấy trong quá trình đào tạo.

SAM cho phép phân đoạn tự động và tương tác, cho phép nó xác định các đối tượng riêng lẻ trong một cảnh với đầu vào đơn giản từ người dùng. SAM có thể được 'nhắc' bằng các nhấp chuột, hộp và các lời nhắc khác, cho phép người dùng kiểm soát những gì hệ thống đang cố gắng xác định tại bất kỳ thời điểm nào.

Thật dễ dàng để thấy lời nhắc dựa trên điểm này có thể hoạt động tốt như thế nào nếu được kết hợp với tính năng theo dõi bằng mắt trên tai nghe AR. Trên thực tế, đó chính xác là một trong những trường hợp sử dụng mà Meta đã chứng minh với hệ thống:

Đây là một ví dụ khác về SAM được sử dụng trên video góc nhìn thứ nhất được quay bởi Kính Project Aria của Meta:

Bạn có thể thử SAM cho chính bạn trong trình duyệt của bạn ngay bây giờ.

Làm thế nào SAM biết rất nhiều

Một phần khả năng ấn tượng của SAM đến từ dữ liệu đào tạo chứa 10 triệu hình ảnh khổng lồ và 1 tỷ hình dạng đối tượng được xác định. Theo Meta, nó toàn diện hơn nhiều so với các bộ dữ liệu hiện đại, mang lại cho SAM nhiều kinh nghiệm hơn trong quá trình học tập và cho phép nó phân đoạn nhiều đối tượng.

Hình ảnh lịch sự Meta

Meta gọi bộ dữ liệu SAM là SA-1B và công ty là phát hành toàn bộ bộ để các nhà nghiên cứu khác phát triển.

Meta hy vọng công việc này sẽ giúp phân đoạn nhanh chóng và việc phát hành bộ dữ liệu đào tạo khổng lồ này sẽ đẩy nhanh nghiên cứu về hiểu biết hình ảnh và video. Công ty hy vọng mô hình SAM có thể được sử dụng như một thành phần trong các hệ thống lớn hơn, cho phép các ứng dụng linh hoạt trong các lĩnh vực như AR, tạo nội dung, lĩnh vực khoa học và hệ thống AI nói chung.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img