Cách quyết định giữa API video và hình ảnh Amazon Rekognition để kiểm duyệt video

Gần 80% nội dung web ngày nay là do người dùng tạo, tạo ra vô số nội dung mà các tổ chức phải vật lộn để phân tích bằng các quy trình chỉ do con người thực hiện. Sự sẵn có của thông tin người tiêu dùng giúp họ đưa ra quyết định, từ việc mua một chiếc quần jean mới cho đến việc đảm bảo các khoản vay mua nhà. Trong một cuộc khảo sát gần đây, 79% người tiêu dùng cho biết họ dựa vào video, nhận xét và đánh giá của người dùng hơn bao giờ hết và 78% trong số họ nói rằng các thương hiệu chịu trách nhiệm kiểm duyệt nội dung đó. 40% nói rằng họ sẽ từ bỏ thương hiệu sau một lần tiếp xúc với nội dung độc hại.

Nhận thức lại Amazon có hai bộ API giúp bạn kiểm duyệt hình ảnh hoặc video để giữ cho cộng đồng kỹ thuật số an toàn và gắn kết.

Một cách tiếp cận để kiểm duyệt video là lập mô hình dữ liệu video dưới dạng mẫu khung hình ảnh và sử dụng mô hình kiểm duyệt nội dung hình ảnh để xử lý từng khung hình. Cách tiếp cận này cho phép sử dụng lại các mô hình dựa trên hình ảnh. Một số khách hàng đã hỏi liệu họ có thể sử dụng phương pháp này để kiểm duyệt video hay không bằng cách lấy mẫu khung hình ảnh và gửi chúng tới API kiểm duyệt hình ảnh Amazon Rekognition. Họ tò mò về cách giải pháp này so sánh với API kiểm duyệt video của Amazon Rekognition.

Chúng tôi khuyên bạn nên sử dụng API kiểm duyệt video của Amazon Rekognition để kiểm duyệt nội dung video. Nó được thiết kế và tối ưu hóa để kiểm duyệt video, mang lại hiệu suất tốt hơn và chi phí thấp hơn. Tuy nhiên, có những trường hợp sử dụng cụ thể mà giải pháp API hình ảnh là tối ưu.

Bài đăng này so sánh hai giải pháp kiểm duyệt video về độ chính xác, chi phí, hiệu suất và độ phức tạp của kiến trúc để giúp bạn chọn giải pháp tốt nhất cho trường hợp sử dụng của mình.

Kiểm duyệt video bằng API kiểm duyệt video

Amazon Rekognition API kiểm duyệt nội dung video là giải pháp tiêu chuẩn được sử dụng để phát hiện nội dung không phù hợp hoặc không mong muốn trong video. Nó thực hiện như một hoạt động không đồng bộ trên nội dung video được lưu trữ trong một Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) thùng. Kết quả phân tích được trả về dưới dạng một mảng nhãn kiểm duyệt cùng với điểm tin cậy và dấu thời gian cho biết thời điểm nhãn được phát hiện.

API kiểm duyệt nội dung video sử dụng cùng một mô hình máy học (ML) để kiểm duyệt hình ảnh. Đầu ra được lọc cho kết quả dương tính giả ồn ào. Quy trình làm việc được tối ưu hóa cho độ trễ bằng cách song song hóa các hoạt động như giải mã, trích xuất khung và suy luận.

Sơ đồ sau đây cho thấy các bước hợp lý về cách sử dụng API kiểm duyệt video Amazon Rekognition để kiểm duyệt video.

Sơ đồ API video kiểm duyệt nội dung Rekognition

Các bước thực hiện như sau:

Tải video lên bộ chứa S3.
Gọi API kiểm duyệt video trong một AWS Lambda chức năng (hoặc tập lệnh tùy chỉnh tại cơ sở) với vị trí tệp video làm tham số. API quản lý việc giải mã video, lấy mẫu và suy luận. Bạn có thể triển khai logic nhịp tim để kiểm tra trạng thái công việc kiểm duyệt cho đến khi hoàn thành hoặc sử dụng Dịch vụ thông báo đơn giản của Amazon (Amazon SNS) để triển khai mẫu hướng sự kiện. Để biết chi tiết về API kiểm duyệt video, hãy tham khảo phần sau Máy tính xách tay Jupyter cho các ví dụ chi tiết.
Lưu trữ kết quả kiểm duyệt dưới dạng tệp trong bộ chứa S3 hoặc cơ sở dữ liệu.

Kiểm duyệt video bằng API kiểm duyệt hình ảnh

Thay vì sử dụng API kiểm duyệt nội dung video, một số khách hàng chọn lấy mẫu khung từ video một cách độc lập và phát hiện nội dung không phù hợp bằng cách gửi hình ảnh đến Amazon Rekognition Phát hiện Nhãn kiểm duyệt API. Kết quả hình ảnh được trả về trong thời gian thực với các nhãn cho nội dung không phù hợp hoặc nội dung xúc phạm cùng với điểm tin cậy.

Sơ đồ sau đây cho thấy các bước hợp lý của giải pháp API hình ảnh.

Rekognition Kiểm duyệt nội dung Sơ đồ lấy mẫu hình ảnh video
Các bước thực hiện như sau:

1. Sử dụng ứng dụng hoặc tập lệnh tùy chỉnh làm bộ điều phối, từ việc tải video vào hệ thống tệp cục bộ.
2. Giải mã video.
3. Các khung hình ảnh mẫu từ video ở khoảng thời gian đã chọn, chẳng hạn như hai khung hình mỗi giây. Sau đó lặp qua tất cả các hình ảnh để:

3.a. Gửi từng khung hình ảnh tới API kiểm duyệt hình ảnh.
3.b. Lưu trữ kết quả kiểm duyệt trong một tệp hoặc cơ sở dữ liệu.

So sánh điều này với giải pháp API video, giải pháp này yêu cầu chức năng Lambda nhẹ để sắp xếp lệnh gọi API. Giải pháp lấy mẫu hình ảnh sử dụng nhiều CPU và yêu cầu nhiều tài nguyên điện toán hơn. Bạn có thể lưu trữ ứng dụng bằng các dịch vụ AWS như Lambda, Dịch vụ container đàn hồi Amazon (Amazon ECS), Dịch vụ Kubernetes đàn hồi của Amazon (Amazon EKS), Cổng xa AWS, hoặc là Đám mây điện toán đàn hồi Amazon (Amazon EC2).

tập dữ liệu đánh giá

Để đánh giá cả hai giải pháp, chúng tôi sử dụng tập dữ liệu mẫu bao gồm 200 video dạng ngắn. Các video có thời lượng từ 10 giây đến 45 phút. 60% video dài dưới 2 phút. Tập dữ liệu mẫu này được sử dụng để kiểm tra các chỉ số về hiệu suất, chi phí và độ chính xác cho cả hai giải pháp. Kết quả so sánh giải pháp lấy mẫu API hình ảnh Amazon Rekognition với giải pháp API video.

Để kiểm tra giải pháp API hình ảnh, chúng tôi sử dụng các thư viện mã nguồn mở (ffmpeg và OpenCV) để lấy mẫu hình ảnh với tốc độ hai khung hình mỗi giây (một khung hình cứ sau 500 mili giây). Tốc độ này bắt chước tần suất lấy mẫu mà API kiểm duyệt nội dung video sử dụng. Mỗi hình ảnh được gửi đến API kiểm duyệt nội dung hình ảnh để tạo nhãn.

Để thử nghiệm giải pháp lấy mẫu video, chúng tôi gửi video trực tiếp tới API kiểm duyệt nội dung video để tạo nhãn.

Tóm tắt kết quả

Chúng tôi tập trung vào các kết quả chính sau:

tính chính xác – Cả hai giải pháp đều cung cấp độ chính xác tương tự (tỷ lệ phần trăm dương tính giả và âm tính giả) sử dụng cùng tần suất lấy mẫu là hai khung hình mỗi giây
Phí Tổn – Giải pháp lấy mẫu API hình ảnh đắt hơn giải pháp API video sử dụng cùng tần suất lấy mẫu là hai khung hình mỗi giây
- Có thể giảm chi phí giải pháp lấy mẫu API hình ảnh bằng cách lấy mẫu ít khung hình hơn mỗi giây
HIỆU QUẢ – Trung bình, API video có thời gian xử lý nhanh hơn 425% so với giải pháp API hình ảnh cho tập dữ liệu mẫu
- Giải pháp API hình ảnh hoạt động tốt hơn trong các trường hợp có khoảng thời gian lấy mẫu khung hình cao và trên video dưới 90 giây
Kiến trúc phức tạp – Giải pháp API video có độ phức tạp kiến trúc thấp, trong khi giải pháp lấy mẫu API hình ảnh có độ phức tạp kiến trúc trung bình

tính chính xác

Chúng tôi đã thử nghiệm cả hai giải pháp bằng cách sử dụng bộ mẫu và cùng tần suất lấy mẫu của hai khung hình mỗi giây. Kết quả đã chứng minh rằng cả hai giải pháp đều cung cấp tỷ lệ dương tính giả và dương tính thật tương tự nhau. Kết quả này nằm trong dự kiến vì về cơ bản, Amazon Rekognition sử dụng cùng một mô hình ML cho cả API kiểm duyệt video và hình ảnh.

Để tìm hiểu thêm về các số liệu để đánh giá kiểm duyệt nội dung, hãy tham khảo Các chỉ số để đánh giá việc kiểm duyệt nội dung trong Amazon Rekognition và các dịch vụ kiểm duyệt nội dung khác.

Phí Tổn

Phân tích chi phí chứng minh rằng giải pháp API hình ảnh đắt hơn giải pháp API video nếu bạn sử dụng cùng tần suất lấy mẫu là hai khung hình mỗi giây. Giải pháp API hình ảnh có thể tiết kiệm chi phí hơn nếu bạn giảm số lượng khung được lấy mẫu mỗi giây.

Hai yếu tố chính ảnh hưởng đến chi phí của giải pháp kiểm duyệt nội dung là chi phí API Amazon Rekognition và chi phí điện toán. Giá mặc định cho API kiểm duyệt nội dung video là 0.10 USD mỗi phút và 0.001 USD mỗi hình ảnh đối với API kiểm duyệt nội dung hình ảnh. Video 60 giây tạo ra 120 khung hình với tốc độ hai khung hình mỗi giây. API video có giá 0.10 đô la để kiểm duyệt video 60 giây, trong khi API hình ảnh có giá 0.120 đô la.

Việc tính giá dựa trên giá chính thức tại Khu vực phía đông-Mỹ tại thời điểm viết bài này. Để biết thêm thông tin, hãy tham khảo Định giá Amazon Rekognition.

Phân tích chi phí xem xét tổng chi phí để tạo nhãn kiểm duyệt nội dung cho 200 video trong bộ mẫu. Các tính toán dựa trên định giá của chúng tôi-đông-1. Nếu bạn đang sử dụng Khu vực khác, hãy sửa đổi các thông số có giá cho Khu vực đó. 200 video chứa 4271.39 phút nội dung và tạo ra 512,567 khung hình với tốc độ lấy mẫu là hai khung hình mỗi giây.

So sánh này không tính đến các chi phí khác, chẳng hạn như dung lượng lưu trữ Amazon S3. Chúng tôi sử dụng Lambda làm ví dụ để tính chi phí điện toán AWS. Chi phí tính toán có tính đến số lượng yêu cầu tới Lambda và Chức năng bước AWS để chạy phân tích. Cài đặt bộ nhớ/CPU Lambda được ước tính dựa trên thông số kỹ thuật của Amazon EC2. Ước tính chi phí này sử dụng yêu cầu Lambda 2 GB, 15 giây cho mỗi lệnh gọi API hình ảnh. Các hàm lambda có giới hạn thời gian chờ gọi tối đa là XNUMX phút. Đối với các video dài hơn, người dùng có thể cần triển khai logic lặp bằng Step Functions để giảm số lượng khung hình được xử lý trên mỗi lệnh gọi Lambda. Cài đặt Lambda thực tế và các mẫu chi phí có thể khác nhau tùy thuộc vào yêu cầu của bạn. Bạn nên thử nghiệm giải pháp từ đầu đến cuối để ước tính chi phí chính xác hơn.

Bảng dưới đây tóm tắt các chi phí.

Kiểu	Chi phí công nhận lại Amazon	Tính toán chi phí	Tổng Chi Phí
Giải pháp API video	$427.14	$0 (Bậc miễn phí)	$427.14
Giải pháp API hình ảnh: Hai khung hình mỗi giây	$512.57	$164.23	$676.80
Giải pháp API hình ảnh: Một khung hình mỗi giây	$256.28	$82.12	$338.40

HIỆU QUẢ

Trung bình, giải pháp API video có thời gian xử lý nhanh hơn bốn lần so với giải pháp API hình ảnh. Giải pháp API hình ảnh hoạt động tốt hơn trong các trường hợp có khoảng thời gian lấy mẫu khung hình cao và trên các video ngắn hơn 90 giây.

Phân tích này đo lường hiệu suất dưới dạng thời gian xử lý trung bình tính bằng giây cho mỗi video. Nó xem xét tổng thời gian và thời gian trung bình để tạo nhãn kiểm duyệt nội dung cho 200 video trong bộ mẫu. Thời gian xử lý được tính từ video tải lên cho đến đầu ra kết quả và bao gồm từng bước trong quy trình lấy mẫu hình ảnh và API video.

Giải pháp API video có thời gian xử lý trung bình là 35.2 giây cho mỗi video đối với bộ mẫu. Điều này được so sánh với giải pháp API hình ảnh với thời gian xử lý trung bình là 156.24 giây cho mỗi video đối với bộ mẫu. Trung bình, API video hoạt động nhanh hơn bốn lần so với giải pháp API hình ảnh. Bảng dưới đây tóm tắt những phát hiện này.

Kiểu	Thời gian xử lý trung bình (Tất cả video)	Thời gian xử lý trung bình (Video dưới 1.5 phút)
Giải pháp API video	35.2 giây	24.05 giây
Giải pháp API hình ảnh: Hai khung hình mỗi giây	156.24 giây	8.45 giây
Sự khác biệt	425%	-185%

API hình ảnh hoạt động tốt hơn API video khi video ngắn hơn 90 giây. Điều này là do API video có hàng đợi quản lý các tác vụ có thời gian hoàn thành. API hình ảnh cũng có thể hoạt động tốt hơn nếu bạn có tần suất lấy mẫu thấp hơn. Việc tăng khoảng thời gian khung hình lên hơn 5 giây có thể giảm thời gian xử lý xuống 6–10 lần. Điều quan trọng cần lưu ý là việc tăng khoảng thời gian sẽ dẫn đến nguy cơ bỏ lỡ việc xác định nội dung không phù hợp giữa các mẫu khung.

Kiến trúc phức tạp

Giải pháp API video có độ phức tạp kiến trúc thấp. Bạn có thể thiết lập đường dẫn serverless hoặc chạy tập lệnh để truy xuất kết quả kiểm duyệt nội dung. Amazon Rekognition quản lý công việc tính toán và suy luận nặng nề. Ứng dụng sắp xếp các API Amazon Rekognition có thể được lưu trữ trên một máy hạng nhẹ.

Giải pháp API hình ảnh có độ phức tạp kiến trúc trung bình. Logic ứng dụng phải sắp xếp các bước bổ sung để lưu trữ video trên ổ đĩa cục bộ, chạy xử lý hình ảnh để chụp khung và gọi API hình ảnh. Máy chủ lưu trữ ứng dụng yêu cầu khả năng tính toán cao hơn để hỗ trợ xử lý hình ảnh cục bộ. Để đánh giá, chúng tôi đã khởi chạy một phiên bản EC2 với 4 vCPU và 8 G RAM để hỗ trợ hai luồng song song. Yêu cầu tính toán cao hơn có thể dẫn đến chi phí hoạt động bổ sung.

Các trường hợp sử dụng tối ưu cho giải pháp API hình ảnh

Giải pháp API hình ảnh lý tưởng cho ba trường hợp sử dụng cụ thể khi xử lý video.

Đầu tiên là truyền phát video theo thời gian thực. Bạn có thể chụp các khung hình ảnh từ luồng video trực tiếp và gửi hình ảnh đến API kiểm duyệt hình ảnh.

Trường hợp sử dụng thứ hai là kiểm duyệt nội dung với yêu cầu tốc độ lấy mẫu khung hình thấp. Giải pháp API hình ảnh sẽ hiệu quả và tiết kiệm chi phí hơn nếu bạn lấy mẫu khung ở tần suất thấp. Điều quan trọng cần lưu ý là sẽ có sự đánh đổi giữa chi phí và độ chính xác. Việc lấy mẫu khung ở tốc độ thấp hơn có thể làm tăng nguy cơ thiếu khung có nội dung không phù hợp.

Trường hợp sử dụng thứ ba là để phát hiện sớm nội dung không phù hợp trong video. Giải pháp API hình ảnh rất linh hoạt và cho phép bạn dừng xử lý và gắn cờ sớm cho video, tiết kiệm chi phí và thời gian.

Kết luận

API kiểm duyệt video lý tưởng cho hầu hết các trường hợp sử dụng kiểm duyệt video. Giải pháp này hiệu quả và tiết kiệm chi phí hơn so với giải pháp API hình ảnh khi bạn lấy mẫu khung hình ở tần suất chẳng hạn như hai khung hình mỗi giây. Ngoài ra, nó có độ phức tạp về kiến trúc thấp và giảm các yêu cầu về chi phí hoạt động.

Bảng sau đây tóm tắt những phát hiện của chúng tôi để giúp bạn tối đa hóa việc sử dụng API hình ảnh và video của Amazon Rekognition cho các trường hợp sử dụng kiểm duyệt video cụ thể của bạn. Mặc dù những kết quả này là kết quả trung bình đạt được trong quá trình thử nghiệm và do một số khách hàng của chúng tôi thực hiện, nhưng chúng sẽ cung cấp cho bạn ý tưởng để cân bằng việc sử dụng từng API.

.	Giải pháp API video	Giải pháp API hình ảnh
tính chính xác	Độ chính xác như nhau	.
Phí Tổn	Chi phí thấp hơn bằng cách sử dụng khoảng thời gian lấy mẫu hình ảnh mặc định	Chi phí thấp hơn nếu bạn giảm số lượng khung hình được lấy mẫu mỗi giây (hy sinh độ chính xác)
HIỆU QUẢ	Nhanh hơn cho video dài hơn 90 giây	Nhanh hơn cho video dưới 90 giây
Kiến trúc phức tạp	Độ phức tạp thấp	Độ phức tạp trung bình

Kiểm duyệt nội dung của Amazon Rekognition không chỉ có thể giúp doanh nghiệp của bạn bảo vệ và giữ cho khách hàng an toàn và tương tác, mà còn góp phần vào nỗ lực không ngừng của bạn nhằm tối đa hóa lợi tức đầu tư kiểm duyệt nội dung của bạn. Học nhiều hơn về Kiểm duyệt nội dung trên AWS và của chúng tôi Các trường hợp sử dụng ML Kiểm duyệt nội dung.

Giới thiệu về tác giả

Tác giả - Lana Trương Trương Lana là Kiến trúc sư giải pháp cấp cao tại nhóm Dịch vụ AI của AWS WWSO, có chuyên môn về AI và ML để kiểm duyệt nội dung và thị giác máy tính. Cô đam mê quảng bá các dịch vụ AI của AWS và giúp khách hàng chuyển đổi các giải pháp kinh doanh của họ.

Tác giả - Brigit Brown Brigit nâu là Kiến trúc sư giải pháp tại Amazon Web Services. Brigit đam mê giúp khách hàng tìm ra giải pháp sáng tạo cho những thách thức kinh doanh phức tạp bằng cách sử dụng máy học và trí tuệ nhân tạo. Các lĩnh vực chuyên sâu cốt lõi của cô ấy là xử lý ngôn ngữ tự nhiên và kiểm duyệt nội dung.

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
Platoblockchain. Web3 Metaverse Intelligence. Khuếch đại kiến thức. Truy cập Tại đây.
nguồn: https://aws.amazon.com/blogs/machine-learning/how-to-decide-between-amazon-rekognition-image-and-video-api-for-video-moderation/

Trí thông minh dữ liệu tạo

Cách quyết định giữa API video và hình ảnh Amazon Rekognition để kiểm duyệt video

Kiểm duyệt video bằng API kiểm duyệt video

Kiểm duyệt video bằng API kiểm duyệt hình ảnh

tập dữ liệu đánh giá

Tóm tắt kết quả

tính chính xác

Phí Tổn

HIỆU QUẢ

Kiến trúc phức tạp

Các trường hợp sử dụng tối ưu cho giải pháp API hình ảnh

Kết luận

Giới thiệu về tác giả

Honda ra mắt 3 mẫu xe điện mới… Tại Trung Quốc, dành cho Trung Quốc – CleanTechnica

Không quân Hoa Kỳ cho biết F-16 do AI điều khiển đã chiến đấu với con người

Tin tức mới nhất

Nhân tạo: Tìm hiểu cách sử dụng dự án cơ hội huy động vốn từ cộng đồng Trí tuệ nhân tạo của Indiegogo

Lightning Kayaks AIR 9: Cơ hội huy động vốn từ cộng đồng bằng Bàn đạp bơm hơi của Indiegogo

Giá phụ kiện Quest 2 giảm hơn 50%

Hoa Kỳ kéo Mexico vào chính sách chống xe điện Trung Quốc – CleanTechnica

Khoa học Trung Quốc tuyên bố đột phá trong phát hiện máy bay tàng hình F-22: F-22 tàng hình có bị đe dọa? – Khởi nghiệp công nghệ

Netflix, Apple, Shell, Delta tham gia vào sự bùng nổ tín dụng carbon của Kenya

Trò chuyện trực tiếp với chúng tôi (chat)