Logo Zephyrnet

NeurIPS 2020: Tài liệu nghiên cứu chính về thị giác máy tính

Ngày:

Nghiên cứu CV tại NeurIPS 2020

Nhóm của chúng tôi đã xem xét các bài báo được chấp nhận cho NeurIPS 2020 và đưa ra danh sách chọn lọc những bài thú vị nhất trong các lĩnh vực nghiên cứu khác nhau. Dưới đây là các chủ đề chúng tôi đề cập:

Nếu bạn quan tâm đến các bài thuyết trình quan trọng đáng chú ý, các hội thảo thú vị và các hướng dẫn thú vị được trình bày tại hội nghị, hãy kiểm tra hướng dẫn của chúng tôi về NeurIPS 2020.

Đăng ký danh sách gửi thư của Nghiên cứu AI của chúng tôi ở cuối bài viết này để được cảnh báo khi chúng tôi phát hành bản tóm tắt mới.

Các tài liệu nghiên cứu về thị giác máy tính hàng đầu tại NeurIPS 2020

NeurIPS 2020 có một số lượng lớn tài liệu nghiên cứu thị giác máy tính thú vị. Các phòng thí nghiệm nghiên cứu hàng đầu như Google Brain, ETH Zurich, Adobe Research, MIT, UC Berkeley và Đại học Khoa học và Công nghệ Nam Kinh:

  • giới thiệu các phương pháp tiếp cận mới để phân đoạn ngữ nghĩa và thể hiện, phát hiện đối tượng;
  • điều tra độ lệch kết cấu trong CNN và chất lượng của các mô hình mạnh mẽ đối nghịch;
  • khám phá thao tác hình ảnh với bộ mã hóa tự động.

Dưới đây là tóm tắt của một số tài liệu nghiên cứu mà chúng tôi thấy thú vị nhất.

Can thiệp nhân quả cho phân đoạn ngữ nghĩa được giám sát yếu

Dong Zhang (Đại học Khoa học và Công nghệ Nam Kinh), Hanwang Zhang (Đại học Công nghệ Nanyang), Jinhui Tang (Đại học Khoa học và Công nghệ Nam Kinh), Xian-Sheng Hua (Học viện Damo, Tập đoàn Alibaba), Qianru Sun (Đại học Quản lý Singapore)

Chúng tôi trình bày một khung suy luận nhân quả để cải thiện Phân đoạn ngữ nghĩa được giám sát yếu (WSSS). Cụ thể, chúng tôi mong muốn tạo ra các mặt nạ giả cấp độ pixel tốt hơn bằng cách chỉ sử dụng các nhãn cấp độ hình ảnh — bước quan trọng nhất trong WSSS. Chúng tôi cho rằng nguyên nhân của ranh giới mơ hồ của mặt nạ giả là do bối cảnh gây nhiễu, ví dụ: việc phân loại cấp độ hình ảnh chính xác của “ngựa” và “người” có thể không chỉ do nhận dạng từng trường hợp mà còn do sự đồng bộ của chúng. bối cảnh xảy ra, làm cho việc kiểm tra mô hình (ví dụ: CAM) khó phân biệt giữa các ranh giới. Lấy cảm hứng từ điều này, chúng tôi đề xuất một mô hình nhân quả có cấu trúc để phân tích mối quan hệ nhân quả giữa các hình ảnh, bối cảnh và nhãn lớp. Dựa trên đó, chúng tôi phát triển một phương pháp mới: Điều chỉnh bối cảnh (CONTA), để loại bỏ sai lệch gây nhiễu trong phân loại cấp độ hình ảnh và do đó cung cấp các mặt nạ giả tốt hơn làm chân lý cơ bản cho mô hình phân đoạn tiếp theo. Trên PASCAL VOC 2012 và MS-COCO, chúng tôi cho thấy CONTA nâng cao nhiều phương pháp WSSS phổ biến khác nhau lên công nghệ tiên tiến mới.

Mã Code: đã có sẵn triển khai PyTorch chính thức tại đây.

can thiệp nhân quả

SOLOv2: Phân đoạn phiên bản động và nhanh

Xinlong Wang (Đại học Adelaide), Rufeng Zhang (Đại học Tongji), Tao Kong (Bytedance), Lei Li (Phòng thí nghiệm AI của ByteDance), Chunhua Shen (Đại học Adelaide)

Trong công việc này, chúng tôi hướng đến việc xây dựng một khung phân đoạn phiên bản đơn giản, trực tiếp và nhanh chóng với hiệu suất mạnh mẽ. Chúng tôi tuân theo nguyên tắc phương pháp SOLO của Wang et al. “SOLO: phân chia đối tượng theo vị trí”. Điều quan trọng là chúng tôi tiến thêm một bước nữa bằng cách học động phần đầu mặt nạ của bộ phân đoạn đối tượng sao cho phần đầu mặt nạ được điều chỉnh theo vị trí. Cụ thể, nhánh mặt nạ được tách thành nhánh hạt nhân mặt nạ và nhánh tính năng mặt nạ, chịu trách nhiệm tìm hiểu hạt nhân tích chập và các tính năng tích chập tương ứng. Hơn nữa, chúng tôi đề xuất Matrix NMS (không triệt tiêu tối đa) để giảm đáng kể chi phí thời gian suy luận do NMS của mặt nạ. Matrix NMS của chúng tôi thực hiện NMS với các hoạt động ma trận song song trong một lần chụp và mang lại kết quả tốt hơn. Chúng tôi trình diễn một hệ thống phân đoạn phiên bản trực tiếp đơn giản, vượt trội hơn một số phương pháp tiên tiến cả về tốc độ và độ chính xác. Phiên bản nhẹ của SOLOv2 thực thi ở tốc độ 31.3 FPS và mang lại 37.1% AP. Hơn nữa, kết quả tiên tiến nhất của chúng tôi về phát hiện đối tượng (từ sản phẩm phụ mặt nạ của chúng tôi) và phân đoạn toàn cảnh cho thấy tiềm năng đóng vai trò là cơ sở mạnh mẽ mới cho nhiều nhiệm vụ nhận dạng cấp phiên bản bên cạnh phân đoạn phiên bản.

Mã Code: triển khai chính thức có sẵn tại đây và cũng tại đây.

SOLOv2

Mất tiêu điểm tổng quát: Học các hộp giới hạn phân tán và đủ tiêu chuẩn để phát hiện đối tượng dày đặc

Xiang Li (Đại học Khoa học và Công nghệ Nam Kinh), Wenhai Wang (Đại học Nam Kinh), Lijun Wu (Đại học Sun Yat-sen), Shuo Chen (Đại học Khoa học và Công nghệ Nam Kinh), Xiaolin Hu (Đại học Thanh Hoa), Jun Li (Nam Kinh) Đại học Khoa học và Công nghệ), Jinhui Tang (Đại học Khoa học và Công nghệ Nam Kinh), Jian Yang (Đại học Khoa học và Công nghệ Nam Kinh)

Máy dò một giai đoạn về cơ bản hình thành việc phát hiện đối tượng dưới dạng phân loại và định vị dày đặc. Việc phân loại thường được tối ưu hóa bằng Tiêu điểm và vị trí hộp thường được học theo phân phối đồng bằng Dirac. Xu hướng gần đây đối với các máy dò một giai đoạn là giới thiệu một nhánh dự đoán riêng lẻ để ước tính chất lượng định vị, trong đó chất lượng dự đoán tạo điều kiện thuận lợi cho việc phân loại nhằm cải thiện hiệu suất phát hiện. Bài viết này đi sâu vào việc trình bày ba yếu tố cơ bản trên: ước tính chất lượng, phân loại và bản địa hóa. Hai vấn đề được phát hiện trong các thực tiễn hiện tại, bao gồm (1) việc sử dụng ước tính và phân loại chất lượng không nhất quán giữa đào tạo và suy luận và (2) phân phối đồng bằng Dirac không linh hoạt để bản địa hóa khi có sự mơ hồ và không chắc chắn trong các cảnh phức tạp. Để giải quyết vấn đề, chúng tôi thiết kế các biểu diễn mới cho các phần tử này. Cụ thể, chúng tôi hợp nhất ước tính chất lượng vào vectơ dự đoán lớp để tạo thành một biểu diễn chung về chất lượng và phân loại bản địa hóa, đồng thời sử dụng vectơ để biểu thị sự phân bổ tùy ý của các vị trí hộp. Các biểu diễn được cải tiến giúp loại bỏ rủi ro không nhất quán và mô tả chính xác sự phân bổ linh hoạt trong dữ liệu thực, nhưng chứa các nhãn liên tục, nằm ngoài phạm vi Mất tiêu điểm. Sau đó, chúng tôi đề xuất Mất tiêu điểm tổng quát (GFL) khái quát Mất tiêu điểm từ dạng rời rạc sang phiên bản liên tục để tối ưu hóa thành công. Trong nhà phát triển thử nghiệm COCO, GFL đạt được 45.0% AP bằng cách sử dụng xương sống ResNet-101, vượt qua SAPD hiện đại (43.5%) và ATSS (43.6%) với tốc độ suy luận cao hơn hoặc tương đương, trong cùng cài đặt đào tạo và xương sống . Đáng chú ý, mô hình tốt nhất của chúng tôi có thể đạt được AP quy mô đơn mô hình đơn là 48.2%, ở tốc độ 10 FPS trên một GPU 2080Ti. 

Mã Code: đã có sẵn triển khai PyTorch chính thức tại đây.

Mất tiêu điểm tổng quát

RandAugment: Tăng cường dữ liệu tự động thực tế với không gian tìm kiếm giảm

Ekin Dogus Cubuk (Google Brain), Barret Zoph (Google Brain), Jon Shlens (Google Research), Quốc V Lê (Google)

Nghiên cứu gần đây đã chỉ ra rằng việc tăng cường dữ liệu có tiềm năng cải thiện đáng kể tính tổng quát của các mô hình học sâu. Gần đây, các chiến lược tăng cường tự động đã mang lại kết quả tiên tiến trong việc phân loại hình ảnh và phát hiện đối tượng. Mặc dù các chiến lược này được tối ưu hóa để cải thiện độ chính xác xác thực, nhưng chúng cũng mang lại kết quả tiên tiến trong học tập bán giám sát và cải thiện tính mạnh mẽ đối với các lỗi hình ảnh phổ biến. Trở ngại cho việc áp dụng quy mô lớn các phương pháp này là giai đoạn tìm kiếm riêng biệt làm tăng độ phức tạp trong huấn luyện và có thể làm tăng đáng kể chi phí tính toán. Ngoài ra, do giai đoạn tìm kiếm riêng biệt, các phương pháp này không thể điều chỉnh cường độ chính quy hóa dựa trên kích thước mô hình hoặc tập dữ liệu. Các chính sách tăng cường tự động thường được tìm thấy bằng cách đào tạo các mô hình nhỏ trên các tập dữ liệu nhỏ và sau đó áp dụng để đào tạo các mô hình lớn hơn. Trong công việc này, chúng tôi loại bỏ cả hai trở ngại này. RandAugment có không gian tìm kiếm giảm đáng kể, cho phép nó được đào tạo về nhiệm vụ mục tiêu mà không cần nhiệm vụ proxy riêng. Hơn nữa, do việc tham số hóa, cường độ chính quy hóa có thể được điều chỉnh cho phù hợp với các kích thước mô hình và tập dữ liệu khác nhau. RandAugment có thể được sử dụng thống nhất cho các tác vụ và bộ dữ liệu khác nhau và hoạt động ngay lập tức, phù hợp hoặc vượt trội hơn tất cả các phương pháp tăng cường tự động trước đây trên CIFAR-10/100, SVHN và ImageNet. Trên tập dữ liệu ImageNet, chúng tôi đạt được độ chính xác 85.0%, tăng 0.6% so với công nghệ tiên tiến trước đó và tăng 1.0% so với mức tăng cơ bản. Khi phát hiện đối tượng, RandAugment dẫn đến cải thiện 1.0-1.3% so với mức tăng cơ bản và nằm trong khoảng 0.3% mAP so với AutoAugment trên COCO. Cuối cùng, do siêu tham số có thể giải thích được, RandAugment có thể được sử dụng để nghiên cứu vai trò của việc tăng cường dữ liệu với các kích thước mô hình và tập dữ liệu khác nhau. 

Mã Code: đã có sẵn triển khai TensorFlow chính thức tại đây và triển khai PyTorch không chính thức có sẵn tại đây.

RandAugment

Các lớp kích hoạt-chuẩn hóa đang phát triển

Hanxiao Liu (Google Brain), Andy Brock (DeepMind), Karen Simonyan (DeepMind), Quốc V Lê (Google)

Các lớp chuẩn hóa và chức năng kích hoạt là các thành phần cơ bản trong mạng sâu và thường cùng định vị với nhau. Ở đây chúng tôi đề xuất thiết kế chúng bằng cách sử dụng phương pháp tự động. Thay vì thiết kế chúng một cách riêng biệt, chúng tôi hợp nhất chúng thành một biểu đồ tính toán tensor-to-tensor duy nhất và phát triển cấu trúc của nó bắt đầu từ các hàm toán học cơ bản. Ví dụ về các hàm toán học như vậy là phép cộng, phép nhân và mômen thống kê. Việc sử dụng các hàm toán học cấp thấp, trái ngược với việc sử dụng các mô-đun cấp cao trong NAS chính thống, dẫn đến không gian tìm kiếm rất rộng và thưa thớt, có thể là thách thức đối với các phương pháp tìm kiếm. Để giải quyết thách thức này, chúng tôi phát triển các giao thức loại bỏ hiệu quả để nhanh chóng lọc ra các lớp ứng viên không hoạt động tốt. Chúng tôi cũng sử dụng quá trình tiến hóa đa mục tiêu để tối ưu hóa hiệu suất của từng lớp trên nhiều kiến ​​trúc nhằm ngăn chặn tình trạng trang bị quá mức. Phương pháp của chúng tôi dẫn đến việc khám phá EvoNorms, một tập hợp các lớp kích hoạt chuẩn hóa mới với các cấu trúc mới và đôi khi đáng ngạc nhiên vượt xa các mẫu thiết kế hiện có. Ví dụ: một số EvoNorm không cho rằng các chức năng chuẩn hóa và kích hoạt phải được áp dụng tuần tự, cũng như không cần căn giữa các bản đồ đối tượng cũng như không yêu cầu các chức năng kích hoạt rõ ràng. Các thử nghiệm của chúng tôi cho thấy EvoNorms hoạt động tốt trên các mô hình phân loại hình ảnh bao gồm ResNets, MobileNets và EfficiencyNets nhưng cũng chuyển giao tốt sang Mask R-CNN với FPN/SpineNet để phân đoạn phiên bản và tới BigGAN để tổng hợp hình ảnh, vượt trội hơn các lớp dựa trên BatchNorm và GroupNorm trong nhiều trường hợp.

Mã Code: Đã có sẵn triển khai TensorFlow chính thức của EvoNorms trên ResNets tại đây và triển khai PyTorch không chính thức có sẵn tại đây.

EvoNorm

Suy nghĩ lại về việc đào tạo trước và tự đào tạo

Barret Zoph (Google Brain), Golnaz Ghiasi (Google), Tsung-Yi Lin (Google Brain), Yin Cui (Google), Hanxiao Liu (Google Brain), Ekin Dogus Cubuk (Google Brain), Quốc V Lê (Google)

Đào tạo trước là mô hình chủ đạo trong thị giác máy tính. Ví dụ: đào tạo trước ImageNet có giám sát thường được sử dụng để khởi tạo xương sống của các mô hình phân đoạn và phát hiện đối tượng. Tuy nhiên, ông và cộng sự cho thấy một kết quả đáng ngạc nhiên là việc đào tạo trước ImageNet có tác động hạn chế đến việc phát hiện đối tượng COCO. Ở đây, chúng tôi điều tra việc tự đào tạo như một phương pháp khác để sử dụng dữ liệu bổ sung trên cùng một thiết lập và đối chiếu nó với đào tạo trước ImageNet. Nghiên cứu của chúng tôi cho thấy tính tổng quát và tính linh hoạt của việc tự đào tạo với ba thông tin chi tiết bổ sung: 1) tăng cường dữ liệu mạnh hơn và nhiều dữ liệu được gắn nhãn hơn làm giảm thêm giá trị của việc đào tạo trước, 2) không giống như đào tạo trước, tự đào tạo luôn hữu ích khi sử dụng mạnh hơn tăng cường dữ liệu, ở cả chế độ dữ liệu thấp và dữ liệu cao, và 3) trong trường hợp đào tạo trước là hữu ích, việc tự đào tạo sẽ cải thiện khi đào tạo trước. Ví dụ: trên tập dữ liệu phát hiện đối tượng COCO, việc đào tạo trước mang lại lợi ích khi chúng tôi sử dụng 1.3/3.4 dữ liệu được gắn nhãn và ảnh hưởng đến độ chính xác khi chúng tôi sử dụng tất cả dữ liệu được gắn nhãn. Mặt khác, quá trình tự đào tạo cho thấy những cải thiện tích cực từ +54.3 đến +1.5AP trên tất cả các kích thước tập dữ liệu. Nói cách khác, quá trình tự đào tạo hoạt động chính xác trên cùng một thiết lập mà quá trình đào tạo trước không hoạt động (sử dụng ImageNet để trợ giúp COCO). Trên tập dữ liệu phân đoạn PASCAL, một tập dữ liệu nhỏ hơn nhiều so với COCO, mặc dù việc đào tạo trước giúp ích đáng kể nhưng việc tự đào tạo sẽ cải thiện so với mô hình được đào tạo trước. Khi phát hiện đối tượng COCO, chúng tôi đạt được 90.5AP, cải thiện +1.5AP so với mô hình SpineNet mạnh nhất. Khi phân đoạn PASCAL, chúng tôi đạt được 3 mIOU, cải thiện +XNUMX% mIOU so với kết quả tiên tiến trước đó của DeepLabvXNUMX+.

Mã Code: đã có sẵn triển khai TensorFlow chính thức tại đây.

Thế hệ phức tạp của lưới 3D có kết cấu

Dario Pavllo (ETH Zurich), Graham Spinks (KU Leuven), Thomas Hofmann (ETH Zurich), Marie-Francine Moens (KU Leuven), Aurelien Lucchi (ETH Zurich)

Mặc dù các mô hình tạo hình ảnh 2D gần đây đạt được kết quả trực quan ấn tượng nhưng rõ ràng chúng thiếu khả năng thực hiện lý luận 3D. Điều này hạn chế rất nhiều mức độ kiểm soát đối với các đối tượng được tạo ra cũng như các ứng dụng có thể có của các mô hình đó. Trong công việc này, chúng tôi thu hẹp khoảng cách này bằng cách tận dụng những tiến bộ gần đây trong khả năng hiển thị khác biệt. Chúng tôi thiết kế một khung có thể tạo ra các lưới tam giác và các bản đồ kết cấu có độ phân giải cao liên quan, chỉ sử dụng giám sát 2D từ các hình ảnh tự nhiên ở một chế độ xem. Đóng góp quan trọng trong công việc của chúng tôi là mã hóa lưới và kết cấu dưới dạng biểu diễn 2D, được căn chỉnh về mặt ngữ nghĩa và có thể dễ dàng được mô hình hóa bằng GAN tích chập 2D. Chúng tôi chứng minh tính hiệu quả của phương pháp của mình trên Pascal3D+ Cars và CUB, cả trong cài đặt vô điều kiện và trong cài đặt trong đó mô hình được điều chỉnh dựa trên nhãn lớp, thuộc tính và văn bản. Cuối cùng, chúng tôi đề xuất một phương pháp đánh giá để đánh giá chất lượng lưới và kết cấu một cách riêng biệt.

Mã Code: đã có sẵn triển khai PyTorch chính thức tại đây.

Thế hệ phức tạp của lưới 3D có kết cấu

Nguồn gốc và sự phổ biến của xu hướng kết cấu trong mạng lưới thần kinh tích chập

Katherine L. Hermann (Đại học Stanford), Ting Chen (Google Research, Toronto), Simon Kornblith (Google Research, Toronto)

Công trình gần đây đã chỉ ra rằng, không giống như con người, các CNN được đào tạo bằng ImageNet có xu hướng phân loại hình ảnh theo kết cấu hơn là theo hình dạng. Sự thiên vị này lan rộng đến mức nào và nó đến từ đâu? Chúng tôi nhận thấy rằng, khi được đào tạo trên các tập dữ liệu hình ảnh có hình dạng và kết cấu xung đột nhau, CNN học cách phân loại theo hình dạng ít nhất cũng dễ dàng như theo kết cấu. Vậy yếu tố nào tạo ra sai lệch kết cấu trong CNN được đào tạo trên ImageNet? Các mục tiêu đào tạo không giám sát khác nhau và các kiến ​​trúc khác nhau có tác động nhỏ nhưng quan trọng và phần lớn độc lập với mức độ sai lệch kết cấu. Tuy nhiên, tất cả các mục tiêu và kiến ​​trúc vẫn dẫn đến các mô hình đưa ra quyết định phân loại dựa trên kết cấu trong phần lớn thời gian, ngay cả khi thông tin hình dạng có thể được giải mã từ các biểu diễn ẩn của chúng. Hiệu quả của việc tăng cường dữ liệu lớn hơn nhiều. Bằng cách sử dụng các loại cắt ngẫu nhiên ít phức tạp hơn trong thời gian huấn luyện và áp dụng phương pháp tăng cường đơn giản, tự nhiên (biến dạng màu sắc, nhiễu và mờ), chúng tôi huấn luyện các mô hình phân loại hình ảnh không rõ ràng theo hình dạng trong phần lớn thời gian và vượt trội hơn so với đường cơ sở trong bài kiểm tra ngoài phân phối bộ. Kết quả của chúng tôi chỉ ra rằng những khác biệt rõ ràng trong cách con người và các CNN được đào tạo bởi ImageNet có thể phát sinh không phải chủ yếu từ sự khác biệt trong hoạt động nội bộ của họ mà từ những khác biệt trong dữ liệu mà họ nhìn thấy.

Các mô hình ImageNet mạnh mẽ đối nghịch có chuyển giao tốt hơn không?

Hadi Salman (Nghiên cứu của Microsoft), Andrew Ilyas (MIT), Logan Engstrom (MIT), Ashish Kapoor (Nghiên cứu của Microsoft), Aleksander Madry (MIT)

Học chuyển giao là một mô hình được sử dụng rộng rãi trong học sâu, trong đó các mô hình được đào tạo trước trên các bộ dữ liệu tiêu chuẩn có thể được điều chỉnh một cách hiệu quả cho các nhiệm vụ tiếp theo. Thông thường, các mô hình được đào tạo trước tốt hơn mang lại kết quả chuyển giao tốt hơn, cho thấy rằng độ chính xác ban đầu là khía cạnh quan trọng của hiệu suất học chuyển giao. Trong công việc này, chúng tôi xác định một khía cạnh khác như vậy: chúng tôi nhận thấy rằng các mô hình mạnh mẽ đối lập, mặc dù kém chính xác hơn, nhưng thường hoạt động tốt hơn so với các mô hình được đào tạo tiêu chuẩn khi được sử dụng cho học chuyển giao. Cụ thể, chúng tôi tập trung vào các bộ phân loại ImageNet mạnh mẽ đối lập và cho thấy rằng chúng mang lại độ chính xác được cải thiện trên một bộ tiêu chuẩn của các nhiệm vụ phân loại xuôi dòng. Phân tích sâu hơn cho thấy nhiều khác biệt hơn giữa các mô hình mạnh mẽ và tiêu chuẩn trong bối cảnh học tập chuyển giao. Kết quả của chúng tôi phù hợp với (và trên thực tế, bổ sung thêm) các giả thuyết gần đây cho biết rằng độ bền dẫn đến việc cải thiện các biểu diễn tính năng.

Mã và mô hình: đã có sẵn triển khai PyTorch chính thức tại đâytại đây.

Các mô hình ImageNet mạnh mẽ đối nghịch có chuyển giao tốt hơn không?

Hoán đổi bộ mã hóa tự động để thao tác hình ảnh sâu

Taesung Park (UC Berkeley), Jun-Yan Zhu (Adobe, CMU), Oliver Wang (Adobe Research), Jingwan Lu (Adobe Research), Eli Shechtman (Adobe Research, US), Alexei Efros (UC Berkeley), Richard Zhang ( Adobe)

Các mô hình sinh sản sâu ngày càng trở nên hiệu quả trong việc tạo ra các hình ảnh thực tế từ các hạt giống được lấy mẫu ngẫu nhiên, nhưng việc sử dụng các mô hình như vậy để xử lý các hình ảnh hiện có có thể kiểm soát được vẫn còn nhiều thách thức. Chúng tôi đề xuất Bộ mã hóa tự động hoán đổi, một mô hình sâu được thiết kế dành riêng cho thao tác hình ảnh, thay vì lấy mẫu ngẫu nhiên. Ý tưởng chính là mã hóa một hình ảnh với hai thành phần độc lập và thực thi rằng bất kỳ sự kết hợp hoán đổi nào sẽ ánh xạ tới một hình ảnh thực tế. Đặc biệt, chúng tôi khuyến khích các thành phần thể hiện cấu trúc và kết cấu bằng cách thực thi một thành phần để mã hóa số liệu thống kê về bản vá đồng thời trên các phần khác nhau của hình ảnh. Vì phương pháp của chúng tôi được huấn luyện bằng bộ mã hóa nên việc tìm mã tiềm ẩn cho hình ảnh đầu vào mới trở nên đơn giản hơn là cồng kềnh. Kết quả là, nó có thể được sử dụng để xử lý các hình ảnh đầu vào thực theo nhiều cách khác nhau, bao gồm hoán đổi kết cấu, chỉnh sửa cục bộ và toàn cục cũng như số học vectơ mã tiềm ẩn. Các thử nghiệm trên nhiều bộ dữ liệu cho thấy mô hình của chúng tôi tạo ra kết quả tốt hơn và hiệu quả hơn đáng kể so với các mô hình tổng quát gần đây.

Mã Code: triển khai PyTorch không chính thức có sẵn tại đây.

Hoán đổi bộ mã hóa tự động để thao tác hình ảnh sâu

Các bài báo nghiên cứu hàng đầu từ năm 2020

Để chuẩn bị cho NeurIPS, bạn nên biết các bài báo nghiên cứu lớn được xuất bản trong năm qua về các chủ đề phổ biến như thị giác máy tính, NLP và các phương pháp tiếp cận máy học nói chung, ngay cả khi chúng không được trình bày tại sự kiện cụ thể này. 

Chúng tôi đã đưa ra danh sách chọn lọc các tài liệu nghiên cứu hàng đầu trong các lĩnh vực này để bạn có thể xem lại chúng nhanh chóng: 

Thưởng thức bài viết này? Đăng ký để cập nhật thêm nghiên cứu AI.

Chúng tôi sẽ cho bạn biết khi chúng tôi phát hành thêm các bài viết tóm tắt như thế này.

Nguồn: https://www.topbots.com/neurips-2020-vision-research-papers/

tại chỗ_img

Tin tức mới nhất

tại chỗ_img