Hướng dẫn đầy đủ về chú thích hình ảnh

Chú thích hình ảnh rất quan trọng trong thị giác máy tính, lĩnh vực cho phép máy tính “nhìn” và “hiểu” thông tin thị giác giống như con người.

Các ứng dụng trí tuệ nhân tạo (AI) xuất sắc bao gồm ô tô tự lái, phát hiện khối u và máy bay không người lái. Nếu không có chú thích hình ảnh, hầu hết các ứng dụng thị giác máy tính này sẽ không thể thực hiện được. Để xây dựng mô hình thị giác máy tính, chú thích hoặc chú thích của hình ảnh là bước đầu tiên quan trọng. Các phương pháp tiếp cận nhận dạng hình ảnh và học máy có giá trị dựa trên bộ dữ liệu.

Chú thích hình ảnh là quá trình thêm một lớp siêu dữ liệu vào hình ảnh. Đó là một cách để mọi người mô tả những gì họ nhìn thấy trong một hình ảnh và thông tin đó có thể được sử dụng cho nhiều mục đích khác nhau. Ví dụ: nó có thể giúp xác định các đối tượng trong hình ảnh hoặc cung cấp thêm ngữ cảnh về chúng. Nó cũng có thể cung cấp thông tin hữu ích về cách các đối tượng đó liên quan với nhau về mặt không gian hoặc thời gian.

Các công cụ chú thích hình ảnh cho phép bạn tạo chú thích theo cách thủ công hoặc thông qua các thuật toán máy học (MLA). Phương pháp MLA phổ biến nhất được sử dụng hiện nay được gọi là học sâu, sử dụng mạng thần kinh nhân tạo (ANN) để xác định các tính năng bên trong hình ảnh và tạo mô tả văn bản dựa trên các tính năng đó.

Hai bộ dữ liệu hình ảnh có chú thích phổ biến là bộ sưu tập OID (Cơ sở dữ liệu hình ảnh mở) của Google và Bộ sưu tập COCO của Microsoft (Đối tượng chung trong ngữ cảnh), mỗi bộ chứa 2.5 triệu phiên bản được chú thích trong 328k hình ảnh.

Chú thích Hình ảnh hoạt động như thế nào?

Hình ảnh có thể được chú thích bằng cách sử dụng bất kỳ công cụ chú thích dữ liệu nguồn mở hoặc phần mềm miễn phí nào. Tuy nhiên, công cụ chú thích hình ảnh nguồn mở được biết đến nhiều nhất là Công cụ Chú thích Thị giác Máy tính (CVAT).

Việc nắm bắt kỹ lưỡng loại dữ liệu được chú thích và công việc hiện tại là cần thiết để chọn công cụ chú thích thích hợp.

Bạn nên chú ý:

Phương thức phân phối dữ liệu
Loại chú thích cần thiết
Loại tệp mà chú thích nên được lưu giữ

Một số công nghệ có thể được sử dụng cho các chú thích do phạm vi rộng lớn trong các công việc chú thích hình ảnh và các định dạng lưu trữ. Từ các chú thích cơ bản trên các nền tảng mã nguồn mở như CVAT và LabelImg đến các chú thích phức tạp trên dữ liệu quy mô lớn sử dụng các công nghệ như V7.

Ngoài ra, việc chú thích có thể được thực hiện ở cấp độ cá nhân hoặc nhóm, hoặc nó có thể được ký hợp đồng cho các nhà thầu hoặc doanh nghiệp độc lập cung cấp dịch vụ chú thích.

Tổng quan về cách bắt đầu chú thích hình ảnh được cung cấp tại đây.

1. Nguồn dữ liệu hình ảnh hoặc video thô của bạn

Đây là bước đầu tiên trong bất kỳ dự án nào và điều cần thiết là phải đảm bảo rằng bạn đang sử dụng các công cụ phù hợp. Khi làm việc với dữ liệu hình ảnh, có hai điều chính bạn cần ghi nhớ:

Định dạng tệp của hình ảnh hoặc video của bạn - cho dù đó là jpeg hay tiff; RAW (DNG, CR2) hoặc JPEG.
Cho dù bạn đang làm việc với hình ảnh từ máy ảnh hay video clip từ thiết bị di động (ví dụ: iPhone / Android), có nhiều loại máy ảnh khác nhau, mỗi loại có định dạng tệp độc quyền của nó. Nếu bạn muốn nhập tất cả các loại tệp vào một nơi và chú thích chúng, thì hãy bắt đầu bằng cách chỉ nhập những định dạng hoạt động tốt với nhau (ví dụ: ảnh tĩnh jpeg + video h264).

2. Tìm hiểu loại nhãn bạn nên sử dụng

Loại nhiệm vụ đang được sử dụng để huấn luyện thuật toán có ảnh hưởng trực tiếp đến loại chú thích sẽ được sử dụng. Ví dụ, khi một thuật toán đang được đào tạo để phân loại hình ảnh, các nhãn có dạng biểu diễn số của các lớp khác nhau. Mặt khác, mặt nạ ngữ nghĩa và tọa độ hộp viền sẽ được sử dụng làm chú thích nếu hệ thống đang học phân đoạn hình ảnh hoặc phát hiện đối tượng.

3. Tạo một lớp cho từng đối tượng bạn muốn gắn nhãn

Bước tiếp theo là tạo một lớp cho mỗi đối tượng bạn muốn gắn nhãn. Mỗi lớp phải là duy nhất và đại diện cho một đối tượng có các đặc điểm riêng biệt trong hình ảnh của bạn. Ví dụ: nếu bạn đang chú thích hình ảnh của một con mèo, thì một lớp có thể được gọi là “catFace” hoặc “catHead”. Tương tự, nếu hình ảnh của bạn có hai người trong đó, thì một lớp có thể được gắn nhãn “Person1 ″ và lớp kia sẽ được gắn nhãn“ Person2 ”.

Để làm điều này một cách chính xác (và tránh mắc lỗi), chúng tôi khuyên bạn nên sử dụng trình chỉnh sửa hình ảnh như GIMP hoặc Photoshop để tạo các lớp bổ sung cho từng đối tượng riêng biệt mà bạn muốn gắn nhãn riêng trên ảnh gốc của chúng tôi để khi chúng tôi xuất những hình ảnh này sau này chúng sẽ không bị lẫn với các đối tượng khác từ các bức ảnh khác.

4. Chú thích bằng các công cụ phù hợp

Công cụ phù hợp cho công việc là bắt buộc đối với chú thích hình ảnh. Một số dịch vụ hỗ trợ cả chú thích văn bản và hình ảnh, hoặc chỉ âm thanh hoặc chỉ video — khả năng là vô tận. Sử dụng một dịch vụ hoạt động với phương tiện liên lạc ưa thích của bạn là điều quan trọng.

Ngoài ra còn có các công cụ có sẵn cho các loại dữ liệu cụ thể, vì vậy bạn nên chọn một công cụ hỗ trợ những gì bạn có trong đầu. Ví dụ: nếu bạn đang chú thích dữ liệu chuỗi thời gian (tức là một chuỗi sự kiện theo thời gian), bạn sẽ muốn một công cụ được thiết kế đặc biệt cho mục đích này; nếu chưa có một công cụ như vậy trên thị trường, thì hãy tự mình xây dựng một công cụ!

5. Phiên bản tập dữ liệu của bạn và xuất nó

Khi bạn đã chú thích hình ảnh, bạn có thể sử dụng kiểm soát phiên bản để quản lý dữ liệu của mình. Điều này liên quan đến việc tạo một tệp riêng cho từng phiên bản tập dữ liệu, bao gồm dấu thời gian trong tên tệp của nó. Sau đó, khi nhập dữ liệu vào một chương trình hoặc công cụ phân tích khác, sẽ không có sự mơ hồ về phiên bản nào đang được sử dụng.

Ví dụ: chúng tôi có thể gọi tệp chú thích hình ảnh đầu tiên của mình là “ImageAnnotated_V2”, tiếp theo là “ImageAnnotated_V3” khi chúng tôi thực hiện thay đổi, v.v. Sau đó, sau khi xuất phiên bản cuối cùng của tập dữ liệu bằng cách sử dụng lược đồ đặt tên này (và lưu nó dưới dạng tệp .csv), sẽ đủ dễ dàng để nhập lại vào Chú thích hình ảnh sau này nếu cần.

Bạn muốn tự động hóa các công việc thủ công lặp đi lặp lại? Kiểm tra phần mềm xử lý tài liệu dựa trên quy trình làm việc Nanonets của chúng tôi. Trích xuất dữ liệu từ hóa đơn, chứng minh thư hoặc bất kỳ tài liệu nào trên chế độ lái tự động!

Các công việc cần dữ liệu được chú thích

Ở đây, chúng ta sẽ xem xét các tác vụ thị giác máy tính khác nhau yêu cầu sử dụng dữ liệu hình ảnh có chú thích.

Phân loại hình ảnh

Phân loại hình ảnh là một nhiệm vụ trong học máy, nơi bạn có một tập hợp các hình ảnh và nhãn cho mỗi hình ảnh. Mục đích là đào tạo một thuật toán học máy để nhận dạng các đối tượng trong hình ảnh.

Bạn cần dữ liệu có chú thích để phân loại hình ảnh vì máy móc khó học cách phân loại hình ảnh mà không biết nhãn chính xác là gì. Nó sẽ giống như việc bạn bị bịt mắt vào một căn phòng có 100 đồ vật, chọn ngẫu nhiên một đồ vật và cố gắng đoán xem nó là gì - bạn sẽ làm tốt hơn nhiều nếu ai đó chỉ cho bạn câu trả lời trước đó.

Phát hiện và nhận dạng đối tượng

Phát hiện đối tượng là nhiệm vụ tìm kiếm các đối tượng cụ thể trong một hình ảnh, trong khi nhận dạng đối tượng liên quan đến việc xác định các đối tượng đó. Tìm kiếm một thứ mà bạn chưa từng thấy trước đây được gọi là phát hiện mới lạ, trong khi nhận ra một đối tượng mà bạn đã nhìn thấy trước đây được gọi là phát hiện quen thuộc.

Việc phát hiện đối tượng có thể được chia thành ước lượng hộp giới hạn (tìm tất cả các pixel thuộc về một đối tượng) và bản địa hóa theo lớp cụ thể (xác định pixel nào thuộc về lớp nào). Các công việc cụ thể bao gồm:

Nhận dạng các đối tượng trong hình ảnh.
Ước tính vị trí của họ.
Ước tính kích thước của chúng.

Phân đoạn hình ảnh

Phân đoạn ảnh là quá trình chia ảnh thành nhiều đoạn. Điều này có thể được thực hiện để cô lập các đối tượng khác nhau trong hình ảnh hoặc để cô lập một đối tượng cụ thể khỏi nền của nó. Phân đoạn hình ảnh được sử dụng trong nhiều ngành và ứng dụng, bao gồm cả thị giác máy tính và lịch sử nghệ thuật.

Việc phân đoạn hình ảnh có một số lợi ích so với chỉnh sửa thủ công: nó nhanh hơn và chính xác hơn so với phác thảo vẽ tay; nó không yêu cầu thời gian đào tạo bổ sung; bạn có thể sử dụng một bộ hướng dẫn cho nhiều hình ảnh với các điều kiện ánh sáng hơi khác nhau; các thuật toán tự động không mắc lỗi nhanh như con người (và khi họ mắc lỗi, chúng sẽ dễ sửa hơn).

Phân đoạn ngữ nghĩa

Phân đoạn ngữ nghĩa là quá trình gắn nhãn mỗi pixel trong một hình ảnh với một nhãn lớp. Điều này có vẻ tương tự như phân loại, nhưng có một điểm khác biệt quan trọng: phân loại chỉ định một nhãn (hoặc danh mục) cho toàn bộ hình ảnh; phân đoạn ngữ nghĩa cung cấp nhiều nhãn (hoặc danh mục) cho các pixel riêng lẻ trong hình ảnh.

Phân đoạn ngữ nghĩa là một kiểu phát hiện cạnh xác định ranh giới không gian giữa các đối tượng trong một hình ảnh. Điều này giúp máy tính hiểu rõ hơn những gì chúng đang xem, cho phép chúng phân loại hình ảnh và video mới tốt hơn khi chúng bắt gặp chúng trong tương lai. Nó cũng được sử dụng để theo dõi đối tượng - xác định vị trí của các đối tượng cụ thể trong một cảnh theo thời gian - và nhận dạng hành động - ghi nhớ các hành động được thực hiện bởi người hoặc động vật trong ảnh hoặc video.

Phân đoạn phiên bản

Phân đoạn đối tượng là một loại phân đoạn liên quan đến việc xác định ranh giới giữa các đối tượng trong một hình ảnh. Nó khác với các kiểu phân đoạn khác ở chỗ nó yêu cầu bạn xác định vị trí bắt đầu và kết thúc của từng đối tượng, thay vì chỉ gán một nhãn duy nhất cho từng vùng. Ví dụ: nếu bạn được cung cấp một hình ảnh có nhiều người đứng cạnh xe của họ ở lối ra bãi đậu xe, phân đoạn ví dụ sẽ được sử dụng để xác định chiếc xe nào thuộc về người nào và ngược lại.

Các phiên bản thường được sử dụng làm đặc điểm đầu vào cho các mô hình phân loại vì chúng chứa nhiều thông tin trực quan hơn hình ảnh RGB tiêu chuẩn. Ngoài ra, chúng có thể được xử lý dễ dàng vì chúng chỉ yêu cầu nhóm thành các tập hợp dựa trên các đặc tính chung của chúng (tức là màu sắc) chứ không phải thực hiện các kỹ thuật luồng quang học để phát hiện chuyển động.

Phân đoạn sơ đồ

Phân đoạn sơ đồ là một kỹ thuật cho phép bạn xem dữ liệu từ nhiều góc độ, có thể hữu ích cho các tác vụ như phân loại hình ảnh, phát hiện và nhận dạng đối tượng cũng như phân đoạn ngữ nghĩa. Phân đoạn theo sơ đồ khái quát khác với các cách tiếp cận học sâu truyền thống ở chỗ nó không yêu cầu đào tạo trên toàn bộ tập dữ liệu trước khi thực hiện một tác vụ. Thay vào đó, phân đoạn toàn cảnh sử dụng một thuật toán để xác định những phần nào của hình ảnh đủ quan trọng để sử dụng khi quyết định thông tin nào đang được thu thập bởi mỗi pixel trong cảm biến hình ảnh.

Bạn muốn sử dụng tự động hóa quy trình bằng robot? Kiểm tra phần mềm xử lý tài liệu dựa trên quy trình làm việc Nanonets. Không có mã. Không có nền tảng phức tạp.

Giải pháp Chú thích Hình ảnh Doanh nghiệp

Chú thích hình ảnh doanh nghiệp là một dịch vụ chuyên biệt. Nó đòi hỏi kiến thức và kinh nghiệm chuyên ngành. Nó cũng yêu cầu thiết bị đặc biệt để thực hiện chú thích. Do đó, bạn nên thuê ngoài nhiệm vụ này cho một đối tác chú thích hình ảnh doanh nghiệp.

Viso Suite, một nền tảng thị giác máy tính, có môi trường chú thích hình ảnh dựa trên CVAT như một phần của chức năng cốt lõi của nó. Suite được xây dựng cho đám mây và có thể được truy cập từ bất kỳ trình duyệt web nào. Viso Suite là một công cụ toàn diện dành cho các nhóm chuyên nghiệp để chú thích hình ảnh và video. Tất cả đều có thể thu thập dữ liệu video cộng tác, chú thích hình ảnh, đào tạo và quản lý mô hình AI, phát triển ứng dụng không cần mã và vận hành hệ thống cơ sở hạ tầng thị giác máy tính khổng lồ.

Thông qua việc sử dụng các công nghệ không mã và mã thấp, Viso có thể tăng tốc quá trình tích hợp chậm chạp trên bảng trong vòng đời phát triển ứng dụng.

Chú thích Hình ảnh mất bao lâu?

Thời gian cho một chú thích chủ yếu dựa vào số lượng dữ liệu cần thiết và độ phức tạp của chính chú thích. Ví dụ: các chú thích chỉ chứa một vài mục từ một vài lớp khác nhau có thể được xử lý nhanh hơn nhiều so với những chú thích có đối tượng từ hàng nghìn lớp.

Các chú thích chỉ cần hình ảnh được chú thích có thể được hoàn thành nhanh hơn những chú thích liên quan đến việc xác định chính xác một số đối tượng và điểm chính.

Nếu bạn làm việc với hóa đơn và biên lai hoặc lo lắng về xác minh ID, hãy xem Nanonets OCR trực tuyến or Công cụ giải nén văn bản PDF để trích xuất văn bản từ tài liệu PDF miễn phí. Nhấp vào bên dưới để tìm hiểu thêm về Giải pháp tự động hóa doanh nghiệp Nanonets.

Làm thế nào để tìm dữ liệu hình ảnh chất lượng?

Thật khó để thu thập dữ liệu được chú thích chất lượng cao.

Chú thích phải được xây dựng từ dữ liệu thu được thô nếu dữ liệu thuộc một loại nhất định không được cung cấp miễn phí. Điều này thường đòi hỏi một tập hợp các bài kiểm tra để loại trừ mọi khả năng xảy ra lỗi hoặc hỏng trong dữ liệu đã xử lý.

Chất lượng của dữ liệu hình ảnh phụ thuộc vào các thông số sau:

Số lượng hình ảnh được chú thích: Bạn càng có nhiều hình ảnh được chú thích càng tốt. Ngoài ra, tập dữ liệu của bạn càng lớn thì càng có nhiều khả năng nắm bắt được các điều kiện và tình huống đa dạng có thể được sử dụng để đào tạo.
Phân phối hình ảnh được chú thích: Phân phối đồng đều giữa các lớp khác nhau không nhất thiết phải mong muốn vì nó hạn chế sự đa dạng có sẵn trong tập dữ liệu của bạn và do đó, tiện ích của nó. Bạn sẽ muốn có nhiều ví dụ từ mỗi lớp để bạn có thể đào tạo một mô hình hoạt động tốt trong mọi trường hợp (ngay cả khi chúng hiếm).
Đa dạng trong chú thích: Những người chú thích biết họ đang làm gì có thể cung cấp những chú thích chất lượng cao với ít lỗi; một quả táo xấu sẽ làm hỏng cả mẻ của bạn! Ngoài ra, việc có nhiều chú thích đảm bảo tính dự phòng và giúp đảm bảo tính nhất quán giữa các nhóm hoặc quốc gia khác nhau, nơi có thể có sự khác biệt về thuật ngữ hoặc quy ước giữa các khu vực.

Dưới đây là một số cách để có được dữ liệu hình ảnh chất lượng.

Mở tập dữ liệu

Khi nói đến dữ liệu hình ảnh, có hai loại chính: mở và đóng. Bộ dữ liệu mở có sẵn miễn phí để tải xuống trực tuyến, không có hạn chế hoặc thỏa thuận cấp phép. Mặt khác, tập dữ liệu đã đóng chỉ có thể được sử dụng sau khi đăng ký giấy phép và trả phí — và thậm chí sau đó, người dùng có thể yêu cầu thêm thủ tục giấy tờ trước khi được cấp quyền truy cập.

Một số ví dụ về tập dữ liệu mở bao gồm Flickr và Wikimedia Commons (cả hai đều là bộ sưu tập ảnh do mọi người trên khắp thế giới đóng góp). Ngược lại, các thước đo của bộ dữ liệu đóng bao gồm hình ảnh vệ tinh thương mại được bán bởi các công ty như DigitalGlobe hoặc Airbus Defense & Space (các công ty này cung cấp ảnh có độ phân giải cao nhưng yêu cầu hợp đồng rộng rãi).

Gỡ dữ liệu web

Lướt web là quá trình tìm kiếm trên internet các loại ảnh cụ thể bằng cách sử dụng một tập lệnh tự động thực hiện nhiều tìm kiếm và tải xuống kết quả.

Dữ liệu thu được bằng cách cạo trực tuyến thường ở trạng thái rất thô và cần được làm sạch nhiều trước khi có thể tiến hành bất kỳ thuật toán hoặc chú thích nào, nhưng nó có thể dễ dàng truy cập và thu thập nhanh chóng. Ví dụ: sử dụng tính năng cạo, chúng tôi có thể tập hợp các ảnh đã được gắn thẻ là thuộc một danh mục hoặc lĩnh vực chủ đề cụ thể dựa trên truy vấn mà chúng tôi cung cấp.

Việc phân loại, chỉ cần một thẻ duy nhất cho mỗi hình ảnh, được chú thích này hỗ trợ rất nhiều.

Dữ liệu tự chú thích

Một loại dữ liệu khác là tự chú thích. Trong trường hợp này, chủ sở hữu của dữ liệu đã gắn nhãn thủ công bằng các nhãn của họ. Ví dụ: bạn có thể muốn chú thích hình ảnh của ô tô và xe tải với năm mẫu hiện tại của chúng. Bạn có thể loại bỏ hình ảnh từ các trang web của nhà sản xuất và khớp chúng với tập dữ liệu của mình bằng cách sử dụng một công cụ như Dịch vụ Nhận thức của Microsoft.

Loại chú thích này đáng tin cậy hơn so với việc gắn nhãn nguồn lực cộng đồng vì con người ít có khả năng gắn nhãn sai hoặc mắc lỗi khi họ ghi chú dữ liệu của mình hơn là khi họ gắn nhãn dữ liệu của người khác. Tuy nhiên, nó cũng tốn nhiều chi phí hơn — bạn đã chi tiền cho sức lao động của con người cho những chú thích này.

Bạn muốn tự động hóa các công việc thủ công lặp đi lặp lại? Tiết kiệm thời gian, công sức và tiền bạc đồng thời nâng cao hiệu quả!

Các loại chú thích hình ảnh

Chú thích hình ảnh là một quá trình thêm thông tin vào hình ảnh. Nhiều loại chú thích có thể được áp dụng cho một hình ảnh, chẳng hạn như chú thích văn bản, ghi chú viết tay, thẻ địa lý, v.v. Dưới đây chúng tôi sẽ thảo luận một số loại hình ảnh được chú thích phổ biến nhất:

1. Phân loại hình ảnh

Phân loại ảnh là một quá trình gán nhãn lớp cho một ảnh. Bộ phân loại hình ảnh là một mô hình học máy học cách phân loại hình ảnh thành các danh mục khác nhau. Bộ phân loại được đào tạo trên một tập hợp các hình ảnh được gắn nhãn và được sử dụng để phân loại các hình ảnh mới.

Phân loại có hai loại: có giám sát và không có giám sát. Phân loại có giám sát sử dụng dữ liệu huấn luyện có nhãn, trong khi không giám sát không sử dụng dữ liệu được gắn nhãn mà thay vào đó tự học từ các ví dụ không được gắn nhãn trong tập dữ liệu.

2. Phát hiện đối tượng và nhận dạng đối tượng

Phát hiện đối tượng là quá trình tìm kiếm các đối tượng trong một hình ảnh. Điều này bao gồm việc xác định xem có bất kỳ đối tượng nào hay không, chúng là gì, chúng nằm ở đâu và có bao nhiêu đối tượng. Nhận dạng đối tượng là xác định các loại đối tượng cụ thể dựa trên hình dáng bên ngoài của chúng. Ví dụ, nếu chúng ta đang xem một bức tranh có voi và hươu cao cổ (trong số các sinh vật khác), mục tiêu của chúng ta sẽ là xác định con nào là voi và con nào là hươu cao cổ. Hai nhiệm vụ này - phát hiện đối tượng và nhận dạng đối tượng - thường được sử dụng cùng nhau để có độ chính xác cao hơn; tuy nhiên, chúng cũng có thể được thực hiện độc lập. Việc phát hiện đối tượng nhằm đảm bảo rằng mọi thứ trong ảnh đã được xác định chính xác (tức là mỗi con chó đã được dán nhãn là một con chó). Mục tiêu của nhận dạng đối tượng chỉ liên quan một phần đến việc ghi nhãn mọi thứ một cách chính xác; thay vào đó, nó tập trung vào việc xác định các loại sự vật cụ thể trong một hình ảnh (tức là tất cả các con chó nhưng không phải con mèo).

3. Phân đoạn hình ảnh

Phân đoạn một hình ảnh bao gồm việc chia nó thành các phần nhỏ hơn, dễ quản lý hơn. Nó được sử dụng rộng rãi trong các ứng dụng xử lý hình ảnh và thị giác máy tính. Phân đoạn ảnh có thể được sử dụng để xác định các đối tượng trong ảnh và tách chúng khỏi nền.

Phân đoạn hình ảnh được chia thành ba lớp:

Phân đoạn ngữ nghĩa: Sự phân đoạn ngữ nghĩa thể hiện giới hạn giữa những thứ tương đương về mặt khái niệm. Kỹ thuật này được sử dụng nếu cần có kiến thức chính xác về sự hiện diện, vị trí, kích thước hoặc hình thức của một đối tượng bên trong một bức tranh.

Phân đoạn phiên bản: Các đối tượng trong một bức tranh được đặc trưng bởi sự tồn tại, vị trí, số lượng và kích thước hoặc hình thức của chúng, tất cả đều có thể được xác định thông qua phân đoạn đối tượng. Do đó, phân đoạn cá thể tạo điều kiện thuận lợi cho việc xác định mọi đối tượng trong một hình ảnh.

Phân đoạn sơ đồ: Phân đoạn ngữ nghĩa và phân đoạn thể hiện được kết hợp trong phân đoạn toàn cảnh. Vì lý do này, phân đoạn toàn cảnh cung cấp cho cả dữ liệu được gắn nhãn ngữ nghĩa (nền) và cá thể (đối tượng).

4. Nhận biết ranh giới

Nhận dạng ranh giới là một loại chú thích hình ảnh, có nghĩa là nó được sử dụng để mô tả các ranh giới hoặc các cạnh trong một hình ảnh. Nó còn được gọi là phát hiện cạnh. Nhận dạng ranh giới sử dụng một thuật toán toán học để phát hiện vị trí của các cạnh trong một hình ảnh và sau đó vẽ các đường xung quanh chúng. Điều này có thể giúp bạn phân đoạn hình ảnh và xác định các đối tượng bên trong chúng.

Nhận dạng ranh giới được sử dụng trong nhiều ứng dụng khác nhau, bao gồm phát hiện đối tượng và nhận dạng đối tượng, phân loại hình ảnh hoặc chỉ cho mục đích sử dụng cá nhân của bạn như một phần của quy trình làm việc để chú thích hình ảnh bằng các thẻ như “gắn thẻ khuôn mặt” hoặc “phát hiện tòa nhà”.

Kết luận

Chú thích hình ảnh là quá trình gán các thuộc tính cho một pixel hoặc một vùng trong hình ảnh. Chú thích hình ảnh có thể được thực hiện tự động, bán tự động hoặc thủ công bởi con người. Loại chú thích phụ thuộc vào trường hợp sử dụng và điều cần thiết là phải hiểu loại dữ liệu bạn đang cố gắng thu thập trước khi chọn kỹ thuật này hơn kỹ thuật khác. Có rất nhiều công cụ để thực hiện việc này, từ các ứng dụng web trực tuyến đơn giản đến các giải pháp phần mềm doanh nghiệp tích hợp trực tiếp với hệ thống quản lý quy trình làm việc (WMS) của bạn.

Ống nano API OCR & OCR trực tuyến có nhiều điều thú vị trường hợp sử dụng that có thể tối ưu hóa hiệu suất kinh doanh của bạn, tiết kiệm chi phí và thúc đẩy tăng trưởng. Tìm ra cách các trường hợp sử dụng của Nanonets có thể áp dụng cho sản phẩm của bạn.

Trí thông minh dữ liệu tạo