Thông tin chi tiết về Facebook AI tự giám sát có thể phân đoạn hình ảnh và video

Tham gia Transform 2021 vào ngày 12-16 tháng XNUMX này. Đăng ký fo r sự kiện AI của năm.

Facebook hôm nay đã thông báo rằng họ đã phát triển một thuật toán hợp tác với inria được gọi là DINO cho phép đào tạo máy biến áp, một loại mô hình máy học, không có dữ liệu huấn luyện được gắn nhãn. Công ty tuyên bố họ đã tạo ra một bước tiến mới trong số các phương pháp đào tạo dữ liệu chưa được gắn nhãn và dẫn đến một mô hình có thể khám phá và phân đoạn các đối tượng trong một hình ảnh hoặc video mà không có mục tiêu cụ thể.

Việc phân đoạn các đối tượng được sử dụng trong các nhiệm vụ khác nhau, từ hoán đổi nền của cuộc trò chuyện video đến dạy rô-bốt điều hướng trong nhà máy. Nhưng nó được coi là một trong những thách thức khó khăn nhất trong lĩnh vực thị giác máy tính vì nó yêu cầu AI phải hiểu những gì có trong một hình ảnh.

Việc phân đoạn được thực hiện theo cách truyền thống với học có giám sát và yêu cầu một khối lượng các ví dụ chú thích. Trong học có giám sát, các thuật toán được đào tạo dựa trên dữ liệu đầu vào được chú thích cho một đầu ra cụ thể cho đến khi chúng có thể phát hiện mối quan hệ cơ bản giữa đầu vào và kết quả đầu ra. Tuy nhiên, với DINO, ứng dụng thúc đẩy học tập không giám sát (còn gọi là học tập tự giám sát), hệ thống sẽ tự dạy cách phân loại dữ liệu chưa được gắn nhãn, xử lý dữ liệu chưa được gắn nhãn để học từ cấu trúc vốn có của nó.

Máy biến áp không giám sát

Máy biến áp cho phép các mô hình AI tập trung có chọn lọc vào các phần đầu vào của chúng, cho phép chúng suy luận hiệu quả hơn. Mặc dù ban đầu được áp dụng cho xử lý giọng nói và ngôn ngữ tự nhiên, máy biến áp đã được sử dụng cho các vấn đề về thị giác máy tính cũng như phân loại và phát hiện hình ảnh.

Cốt lõi của cái gọi là máy biến đổi tầm nhìn là các lớp tự chú ý — mỗi vị trí không gian xây dựng một đại diện bằng cách “tham dự” vào các vị trí khác. Theo cách đó, bằng cách “nhìn” vào các phần khác, có khả năng ở xa của một hình ảnh, máy biến áp xây dựng sự hiểu biết phong phú, ở mức độ cao về toàn cảnh.

DINO hoạt động bằng cách khớp đầu ra của một mô hình trên các chế độ xem khác nhau của cùng một hình ảnh. Khi làm điều này, nó có thể khám phá một cách hiệu quả các bộ phận của đối tượng và các đặc điểm được chia sẻ trên các hình ảnh. Hơn nữa, DINO có thể kết nối các danh mục dựa trên các thuộc tính trực quan, ví dụ như phân tách rõ ràng các loài động vật có cấu trúc giống với phân loại sinh học.

Ảnh trên: Hệ thống DINO của Facebook có thể phân đoạn hình ảnh theo kiểu không giám sát.

Tín dụng hình ảnh: Facebook

Facebook tuyên bố rằng DINO cũng là một trong những công cụ tốt nhất trong việc xác định các bản sao hình ảnh, mặc dù nó không được thiết kế cho việc này. Điều đó có nghĩa là trong tương lai, các mô hình dựa trên DINO có thể được sử dụng để xác định thông tin sai lệch hoặc vi phạm bản quyền.

“Bằng cách sử dụng học tập tự giám sát với máy biến áp, DINO mở ra cơ hội chế tạo những cỗ máy hiểu hình ảnh và video sâu sắc hơn nhiều,” Facebook viết trong một bài đăng trên blog. “Nhu cầu chú thích của con người thường là một nút cổ chai trong quá trình phát triển hệ thống thị giác máy tính. Bằng cách làm cho các phương pháp của chúng tôi chú thích hiệu quả hơn, chúng tôi cho phép các mô hình được áp dụng cho một nhóm nhiệm vụ lớn hơn và có khả năng mở rộng số lượng khái niệm mà chúng có thể nhận ra.”

bàn chân

Facebook hôm nay cũng trình bày chi tiết một phương pháp học máy mới có tên là PAWS, có vẻ như đạt được độ chính xác phân loại tốt hơn so với các phương pháp bán giám sát và hiện đại trước đây. Đáng chú ý, nó cũng yêu cầu mức độ lớn hơn — từ 4 đến 12 lần — ít phải đào tạo hơn, khiến PAWS trở thành tiềm năng phù hợp cho các lĩnh vực không có nhiều hình ảnh được dán nhãn, chẳng hạn như y học.

Nằm giữa học có giám sát và học không giám sát, học bán giám sát chấp nhận dữ liệu được gắn nhãn một phần hoặc phần lớn dữ liệu thiếu nhãn. Khả năng làm việc với dữ liệu hạn chế là lợi ích chính của học bán giám sát vì các nhà khoa học dữ liệu dành ngay lập tức thời gian của họ để làm sạch và tổ chức dữ liệu.

PAWS đạt được kết quả của nó bằng cách tận dụng một phần dữ liệu được gắn nhãn kết hợp với dữ liệu không được gắn nhãn. Đưa ra một hình ảnh đào tạo chưa được gắn nhãn, PAWS tạo hai hoặc nhiều chế độ xem hình ảnh bằng cách sử dụng các phép biến đổi và tăng cường dữ liệu ngẫu nhiên. Sau đó, nó đào tạo một mô hình để làm cho các biểu diễn của các khung nhìn này tương tự nhau.

Không giống như các phương pháp tự giám sát so sánh trực tiếp các biểu diễn, PAWS sử dụng một mẫu con ngẫu nhiên gồm các hình ảnh được gắn nhãn để gán “nhãn giả” cho các chế độ xem không được gắn nhãn. Các nhãn giả thu được bằng cách so sánh các biểu diễn của các chế độ xem không được gắn nhãn với các biểu diễn của các mẫu hỗ trợ được gắn nhãn. Do đó, PAWS không tìm hiểu "các biểu diễn thu gọn" trong đó tất cả các hình ảnh được ánh xạ tới cùng một biểu diễn, một vấn đề phổ biến đối với các phương pháp tự giám sát.

“Với DINO và PAWS, cộng đồng nghiên cứu AI có thể xây dựng các hệ thống thị giác máy tính mới ít phụ thuộc hơn vào dữ liệu được dán nhãn và tài nguyên máy tính khổng lồ để đào tạo,” tuyên bố của Facebook tiếp tục. “Chúng tôi hy vọng rằng các thử nghiệm của chúng tôi sẽ cho cộng đồng thấy tiềm năng của các hệ thống tự giám sát được đào tạo trên [máy biến hình trực quan] và khuyến khích áp dụng thêm.”

Cả DINO và PAWS đều có sẵn trong mã nguồn mở.

VentureBeat

Nhiệm vụ của VentureBeat là trở thành một quảng trường thành phố kỹ thuật số cho những người ra quyết định kỹ thuật có được kiến thức về công nghệ chuyển đổi và giao dịch. Trang web của chúng tôi cung cấp thông tin cần thiết về công nghệ và chiến lược dữ liệu để hướng dẫn bạn khi bạn lãnh đạo tổ chức của mình. Chúng tôi mời bạn trở thành thành viên của cộng đồng của chúng tôi, để truy cập:

thông tin cập nhật về các chủ đề mà bạn quan tâm
bản tin của chúng tôi
nội dung dẫn dắt tư tưởng được kiểm soát và giảm giá quyền truy cập vào các sự kiện được đánh giá cao của chúng tôi, chẳng hạn như Chuyển đổi 2021: Tìm hiểu thêm
các tính năng mạng và hơn thế nữa

Trở thành thành viên

Coinsmart. Đặt cạnh Bitcoin-Börse ở Europa
Nguồn: https://vojibeat.com/2021/04/30/facebook-details-self-supervised-ai-that-can-segment-images-and-videos/

Trí thông minh dữ liệu tạo

Facebook giới thiệu chi tiết về AI tự giám sát có thể phân đoạn hình ảnh và video

Máy biến áp không giám sát

bàn chân

VentureBeat

quán cà phê VC

quán cà phê VC

Tin tức mới nhất

Cửa hàng Google Play hiện có thể tải xuống đồng thời nhiều ứng dụng Android

🔴Ethereum ETF bị trì hoãn | Tuần này về tiền điện tử – ngày 11 tháng 2024 năm XNUMX

Khi ốm đau và sức khỏe: Hướng dẫn của người chăm sóc để tìm thấy sức mạnh và hy vọng – Báo cáo Tin tức Thế giới – Kết nối Chương trình Cần sa Y tế

Clean Group công bố địa điểm văn phòng mới tại khu trung tâm thành phố Sydney và các dịch vụ vệ sinh thương mại nâng cao – World News Report – Medical Marijuana Program Connection

Tối đa hóa lợi nhuận vào năm 2024: Cái nhìn toàn diện về ValueZone.AI

Bộ trưởng Quốc phòng Anh tiết lộ việc Ý cung cấp tên lửa Storm Shadow cho Ukraine