제퍼넷 로고

비디오 조정을 위해 Amazon Rekognition 이미지와 비디오 API 중에서 결정하는 방법

시간

오늘날 웹 콘텐츠의 거의 80%는 사용자가 생성한 것이므로 조직이 사람의 프로세스로만 분석하는 데 어려움을 겪는 콘텐츠가 넘쳐납니다. 소비자 정보의 가용성은 새 청바지 구매에서 주택 융자 확보에 이르기까지 결정을 내리는 데 도움이 됩니다. 최근 설문 조사에서 소비자의 79%는 그 어느 때보다 사용자 비디오, 댓글 및 리뷰에 의존하고 있으며 78%는 브랜드가 이러한 콘텐츠를 조정할 책임이 있다고 말했습니다. 40%는 독성 콘텐츠에 한 번 노출된 후 브랜드와의 관계를 끊겠다고 말했습니다.

아마존 인식 에는 디지털 커뮤니티를 안전하게 유지하고 참여하도록 이미지 또는 비디오를 조정하는 데 도움이 되는 두 세트의 API가 있습니다.

비디오를 조정하는 한 가지 접근 방식은 비디오 데이터를 이미지 프레임의 샘플로 모델링하고 이미지 콘텐츠 조정 모델을 사용하여 프레임을 개별적으로 처리하는 것입니다. 이 접근 방식을 통해 이미지 기반 모델을 재사용할 수 있습니다. 일부 고객은 이미지 프레임을 샘플링하고 이를 Amazon Rekognition 이미지 조정 API로 전송하여 비디오를 조정하는 이 접근 방식을 사용할 수 있는지 문의했습니다. 그들은 이 솔루션이 Amazon Rekognition 비디오 조정 API와 어떻게 비교되는지 궁금합니다.

Amazon Rekognition 비디오 조정 API를 사용하여 비디오 콘텐츠를 조정하는 것이 좋습니다. 비디오 조정을 위해 설계 및 최적화되어 더 나은 성능과 더 낮은 비용을 제공합니다. 그러나 이미지 API 솔루션이 최적인 특정 사용 사례가 있습니다.

이 게시물은 정확도, 비용, 성능 및 아키텍처 복잡성 측면에서 두 가지 비디오 조정 솔루션을 비교하여 사용 사례에 가장 적합한 솔루션을 선택하는 데 도움을 줍니다.

비디오 조정 API를 사용하여 비디오 조정

아마존 인식 동영상 콘텐츠 조정 API 동영상에서 부적절하거나 원치 않는 콘텐츠를 감지하는 데 사용되는 표준 솔루션입니다. 에 저장된 비디오 콘텐츠에 대해 비동기 작업으로 수행됩니다. 아마존 단순 스토리지 서비스 (Amazon S3) 버킷. 분석 결과는 배열로 반환됩니다. 검토 레이블 레이블이 감지된 시기를 나타내는 신뢰도 점수 및 타임스탬프와 함께.

비디오 콘텐츠 조정 API는 이미지 조정을 위해 동일한 기계 학습(ML) 모델을 사용합니다. 노이즈가 많은 거짓 긍정 결과에 대해 출력이 필터링됩니다. 워크플로는 디코딩, 프레임 추출 및 추론과 같은 작업을 병렬화하여 대기 시간에 최적화되어 있습니다.

다음 다이어그램은 Amazon Rekognition 비디오 조정 API를 사용하여 비디오를 조정하는 방법의 논리적 단계를 보여줍니다.

Rekognition 콘텐츠 조정 비디오 API 다이어그램

단계는 다음과 같습니다.

  1. S3 버킷에 비디오를 업로드합니다.
  2. 비디오 조정 API 호출 AWS 람다 비디오 파일 위치를 매개변수로 사용하여 기능(또는 온프레미스에서 사용자 정의된 스크립트). API는 비디오 디코딩, 샘플링 및 추론의 무거운 작업을 관리합니다. 완료될 때까지 조정 작업 상태를 확인하는 하트비트 논리를 구현하거나 다음을 사용할 수 있습니다. 아마존 단순 알림 서비스 (Amazon SNS) 이벤트 기반 패턴을 구현합니다. 비디오 조정 API에 대한 자세한 내용은 다음을 참조하십시오. 주피터 노트 자세한 예는.
  3. 조정 결과를 S3 버킷 또는 데이터베이스에 파일로 저장합니다.

이미지 조정 API를 사용하여 비디오 조정

비디오 콘텐츠 조정 API를 사용하는 대신 일부 고객은 비디오에서 독립적으로 프레임을 샘플링하고 Amazon Rekognition에 이미지를 전송하여 부적절한 콘텐츠를 감지하도록 선택합니다. DetectModeration레이블 API. 이미지 결과는 신뢰도 점수와 함께 부적절한 콘텐츠 또는 불쾌감을 주는 콘텐츠에 대한 레이블과 함께 실시간으로 반환됩니다.

다음 다이어그램은 이미지 API 솔루션의 논리적 단계를 보여줍니다.

Rekognition 콘텐츠 조정 비디오 이미지 샘플링 다이어그램
단계는 다음과 같습니다.

1. 비디오 로드에서 로컬 파일 시스템으로 사용자 지정 애플리케이션 또는 스크립트를 오케스트레이터로 사용합니다.
2. 비디오를 디코딩합니다.
3. 선택한 간격(예: 초당 XNUMX프레임)으로 비디오에서 이미지 프레임을 샘플링합니다. 그런 다음 모든 이미지를 반복하여 다음을 수행합니다.

3.a. 각 이미지 프레임을 이미지 조정 API로 보냅니다.
3.b. 조정 결과를 파일이나 데이터베이스에 저장합니다.

이를 API 호출을 오케스트레이션하기 위해 가벼운 Lambda 함수가 필요한 비디오 API 솔루션과 비교하십시오. 이미지 샘플링 솔루션은 CPU 집약적이며 더 많은 컴퓨팅 리소스가 필요합니다. Lambda와 같은 AWS 서비스를 사용하여 애플리케이션을 호스팅할 수 있습니다. Amazon 탄력적 컨테이너 서비스 (아마존 ECS), Amazon Elastic Kubernetes 서비스 (아마존 EKS), AWS 파게이트아마존 엘라스틱 컴퓨트 클라우드 (아마존 EC2).

평가 데이터 세트

두 솔루션을 모두 평가하기 위해 200개의 짧은 동영상으로 구성된 샘플 데이터 세트를 사용합니다. 비디오는 10초에서 45분까지 다양합니다. 동영상의 60%는 길이가 2분 미만입니다. 이 샘플 데이터 세트는 두 솔루션의 성능, 비용 및 정확도 메트릭을 테스트하는 데 사용됩니다. 결과는 Amazon Rekognition 이미지 API 샘플링 솔루션을 비디오 API 솔루션과 비교합니다.

이미지 API 솔루션을 테스트하기 위해 오픈 소스 라이브러리(ffmpegOpenCV) 초당 500프레임(XNUMX밀리초마다 XNUMX프레임)의 속도로 이미지를 샘플링합니다. 이 비율은 비디오 콘텐츠 조정 API에서 사용하는 샘플링 빈도를 모방합니다. 각 이미지는 레이블을 생성하기 위해 이미지 콘텐츠 조정 API로 전송됩니다.

비디오 샘플링 솔루션을 테스트하기 위해 레이블을 생성하기 위해 비디오를 비디오 콘텐츠 조정 API로 직접 보냅니다.

결과 요약

우리는 다음과 같은 주요 결과에 중점을 둡니다.

  • 정확성 – 두 솔루션 모두 초당 XNUMX프레임의 동일한 샘플링 주파수를 사용하여 유사한 정확도(위양성 및 위음성 백분율)를 제공합니다.
  • 비용 – 이미지 API 샘플링 솔루션은 초당 XNUMX 프레임의 동일한 샘플링 빈도를 사용하는 비디오 API 솔루션보다 비쌉니다.
    • 초당 더 적은 프레임을 샘플링하여 이미지 API 샘플링 솔루션 비용을 줄일 수 있습니다.
  • 퍼포먼스 – 평균적으로 비디오 API는 샘플 데이터 세트에 대한 이미지 API 솔루션보다 처리 시간이 425% 더 빠릅니다.
    • 이미지 API 솔루션은 프레임 샘플 간격이 긴 상황과 90초 미만의 동영상에서 더 나은 성능을 발휘합니다.
  • 아키텍처 복잡성 – 동영상 API 솔루션은 아키텍처 복잡도가 낮고, 이미지 API 샘플링 솔루션은 아키텍처 복잡도가 중간 정도임

정확성

샘플 세트와 초당 XNUMX프레임의 동일한 샘플링 주파수를 사용하여 두 솔루션을 모두 테스트했습니다. 결과는 두 솔루션 모두 유사한 거짓 긍정 및 참 긍정 비율을 제공한다는 것을 보여주었습니다. 내부적으로 Amazon Rekognition은 비디오 및 이미지 조정 API 모두에 대해 동일한 ML 모델을 사용하기 때문에 이러한 결과가 예상됩니다.

콘텐츠 조정을 평가하기 위한 지표에 대해 자세히 알아보려면 다음을 참조하십시오. Amazon Rekognition 및 기타 콘텐츠 조정 서비스에서 콘텐츠 조정을 평가하기 위한 지표.

비용

초당 XNUMX 프레임의 동일한 샘플링 빈도를 사용하는 경우 이미지 API 솔루션이 비디오 API 솔루션보다 비용이 더 많이 드는 것을 비용 분석을 통해 알 수 있습니다. 이미지 API 솔루션은 초당 샘플링되는 프레임 수를 줄이면 더 비용 효율적일 수 있습니다.

콘텐츠 조정 솔루션의 비용에 영향을 미치는 두 가지 주요 요소는 Amazon Rekognition API 비용과 컴퓨팅 비용입니다. 비디오 콘텐츠 조정 API의 기본 가격은 분당 $0.10이고 이미지 콘텐츠 조정 API의 경우 이미지당 $0.001입니다. 60초 비디오는 초당 120프레임의 속도를 사용하여 0.10프레임을 생성합니다. 비디오 API는 60초 비디오를 조정하는 데 $0.120의 비용이 드는 반면 이미지 API는 $XNUMX의 비용이 듭니다.

가격 계산은 이 게시물을 작성할 당시 리전 us-east-1의 공식 가격을 기반으로 합니다. 자세한 내용은 다음을 참조하십시오. Amazon Rekognition 요금.

비용 분석에서는 샘플 세트의 200개 비디오에 대한 콘텐츠 조정 레이블을 생성하는 데 드는 총 비용을 살펴봅니다. 계산은 us-east-1 요금을 기반으로 합니다. 다른 지역을 사용하는 경우 해당 지역의 가격으로 매개변수를 수정합니다. 200개의 비디오에는 4271.39분의 콘텐츠가 포함되어 있으며 초당 512,567프레임의 샘플링 속도로 XNUMX개의 이미지 프레임을 생성합니다.

이 비교에서는 Amazon S3 스토리지와 같은 다른 비용을 고려하지 않습니다. Lambda를 예로 사용하여 AWS 컴퓨팅 비용을 계산합니다. 컴퓨팅 비용은 Lambda에 대한 요청 수와 AWS 단계 함수 분석을 실행합니다. Lambda 메모리/CPU 설정은 Amazon EC2 사양을 기반으로 추정됩니다. 이 비용 추정은 이미지 API 호출당 2GB, 15초 Lambda 요청을 사용합니다. Lambda 함수의 최대 호출 제한 시간은 XNUMX분입니다. 더 긴 비디오의 경우 사용자는 Lambda 호출당 처리되는 프레임 수를 줄이기 위해 Step Functions를 사용하여 반복 로직을 구현해야 할 수 있습니다. 실제 Lambda 설정 및 비용 패턴은 요구 사항에 따라 다를 수 있습니다. 보다 정확한 비용 추정을 위해 솔루션을 처음부터 끝까지 테스트하는 것이 좋습니다.

다음 표에는 비용이 요약되어 있습니다.

타입 Amazon Rekognition 비용 컴퓨팅 비용 총 비용
비디오 API 솔루션 $427.14 $0
(프리 티어)
$427.14
이미지 API 솔루션: 초당 XNUMX프레임 $512.57 $164.23 $676.80
이미지 API 솔루션: 초당 XNUMX프레임 $256.28 $82.12 $338.40

퍼포먼스

평균적으로 비디오 API 솔루션은 이미지 API 솔루션보다 처리 시간이 90배 더 빠릅니다. 이미지 API 솔루션은 프레임 샘플 간격이 긴 상황과 XNUMX초 미만의 비디오에서 더 잘 수행됩니다.

이 분석은 동영상당 평균 처리 시간(초)으로 성능을 측정합니다. 샘플 세트의 200개 비디오에 대한 콘텐츠 조정 레이블을 생성하는 총 시간 및 평균 시간을 확인합니다. 처리 시간은 비디오 업로드에서 결과 출력까지 측정되며 이미지 샘플링 및 비디오 API 프로세스의 각 단계를 포함합니다.

비디오 API 솔루션은 샘플 세트에 대한 비디오당 평균 처리 시간이 35.2초입니다. 이는 샘플 집합에 대한 동영상당 평균 처리 시간이 156.24초인 이미지 API 솔루션과 비교됩니다. 평균적으로 비디오 API는 이미지 API 솔루션보다 XNUMX배 더 빠르게 수행됩니다. 다음 표에 이러한 결과가 요약되어 있습니다.

타입 평균 처리 시간(모든 동영상) 평균 처리 시간(1.5분 미만 동영상)
비디오 API 솔루션 35.2 초 24.05 초
이미지 API 솔루션: 초당 XNUMX프레임 156.24 초 8.45 초
차이 425% -185 %

동영상이 90초 미만인 경우 이미지 API가 동영상 API보다 성능이 좋습니다. 비디오 API에는 리드 타임이 있는 작업을 관리하는 대기열이 있기 때문입니다. 샘플링 빈도가 낮으면 이미지 API의 성능도 향상될 수 있습니다. 프레임 간격을 5초 이상으로 늘리면 처리 시간이 6~10배 줄어들 수 있습니다. 간격을 늘리면 프레임 샘플 간에 부적절한 콘텐츠를 식별하지 못할 위험이 있다는 점에 유의해야 합니다.

아키텍처 복잡성

비디오 API 솔루션은 아키텍처 복잡성이 낮습니다. 서버리스 파이프라인을 설정하거나 스크립트를 실행하여 콘텐츠 조정 결과를 검색할 수 있습니다. Amazon Rekognition은 무거운 컴퓨팅 및 추론을 관리합니다. Amazon Rekognition API를 오케스트레이션하는 애플리케이션은 경량 시스템에서 호스팅할 수 있습니다.

이미지 API 솔루션은 중간 정도의 아키텍처 복잡성을 가지고 있습니다. 애플리케이션 로직은 비디오를 로컬 드라이브에 저장하고 이미지 처리를 실행하여 프레임을 캡처하고 이미지 API를 호출하기 위한 추가 단계를 조율해야 합니다. 애플리케이션을 호스팅하는 서버는 로컬 이미지 처리를 지원하기 위해 더 높은 컴퓨팅 용량이 필요합니다. 평가를 위해 2개의 vCPU와 4G RAM이 포함된 EC8 인스턴스를 시작하여 XNUMX개의 병렬 스레드를 지원했습니다. 컴퓨팅 요구 사항이 높을수록 추가 작업 오버헤드가 발생할 수 있습니다.

이미지 API 솔루션의 최적 활용 사례

이미지 API 솔루션은 비디오를 처리할 때 세 가지 특정 사용 사례에 이상적입니다.

첫 번째는 실시간 비디오 스트리밍입니다. 라이브 비디오 스트림에서 이미지 프레임을 캡처하고 이미지를 이미지 조정 API로 보낼 수 있습니다.

두 번째 사용 사례는 프레임 샘플링 속도 요구 사항이 낮은 콘텐츠 조정입니다. 낮은 빈도로 프레임을 샘플링하면 이미지 API 솔루션이 더 비용 효율적이고 성능이 좋습니다. 비용과 정확성 사이에는 트레이드 오프가 있다는 점에 유의하는 것이 중요합니다. 더 낮은 속도로 프레임을 샘플링하면 부적절한 콘텐츠가 포함된 프레임이 누락될 위험이 높아질 수 있습니다.

세 번째 사용 사례는 비디오에서 부적절한 콘텐츠를 조기에 감지하는 것입니다. 이미지 API 솔루션은 유연하며 조기에 처리를 중지하고 비디오에 플래그를 지정하여 비용과 시간을 절약할 수 있습니다.

결론

비디오 조정 API는 대부분의 비디오 조정 사용 사례에 이상적입니다. 초당 XNUMX프레임과 같은 빈도로 프레임을 샘플링할 때 이미지 API 솔루션보다 비용 효율적이고 성능이 좋습니다. 또한 아키텍처 복잡성이 낮고 운영 오버헤드 요구 사항이 감소합니다.

다음 표에는 특정 비디오 조정 사용 사례에 대해 Amazon Rekognition 이미지 및 비디오 API 사용을 최대화하는 데 도움이 되는 조사 결과가 요약되어 있습니다. 이러한 결과는 테스트 중에 일부 고객이 달성한 평균이지만 각 API 사용의 균형을 맞출 수 있는 아이디어를 제공해야 합니다.

. 비디오 API 솔루션 이미지 API 솔루션
정확성 동일한 정확도 .
비용 기본 이미지 샘플링 간격을 사용하여 비용 절감 초당 샘플링되는 프레임 수를 줄이면 비용 절감(정확도 희생)
퍼포먼스 90초보다 긴 동영상의 경우 더 빠름 90초 미만 동영상의 경우 더 빠름
아키텍처 복잡성 낮은 복잡성 중간 복잡성

Amazon Rekognition 콘텐츠 조정은 비즈니스를 보호하고 고객의 안전과 참여를 유지하는 데 도움이 될 뿐만 아니라 콘텐츠 조정 투자 수익을 극대화하기 위한 지속적인 노력에도 기여할 수 있습니다. 자세히 알아보기 AWS의 콘텐츠 조정 & 콘텐츠 조정 ML 사용 사례.


저자 소개

저자 - Lana Zhang장라나 콘텐츠 조정 및 컴퓨터 비전을 위한 AI 및 ML에 대한 전문 지식을 갖춘 AWS WWSO AI 서비스 팀의 선임 솔루션 아키텍트입니다. 그녀는 AWS AI 서비스를 홍보하고 고객이 비즈니스 솔루션을 혁신하도록 돕는 데 열정적입니다.

저자 - 브리짓 브라운브리짓 브라운 Amazon Web Services의 솔루션 아키텍트입니다. Brigit은 기계 학습과 인공 지능을 사용하여 고객이 복잡한 비즈니스 과제에 대한 혁신적인 솔루션을 찾도록 돕는 데 열정적입니다. 그녀의 핵심 깊이 영역은 자연어 처리 및 콘텐츠 조정입니다.

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?