제퍼넷 로고

Amazon SageMaker Ground Truth로 ML 모델을 위한 고품질 데이터 생성

시간

머신 러닝(ML)은 최근 몇 년 동안 업계 전반에 걸쳐 비즈니스를 개선했습니다. 프라임 비디오 계정, 요약 및 효율적인 검색을 문서화하기 위해 알렉사의 음성 지원. 그러나 이 기술을 비즈니스에 통합하는 방법에 대한 문제가 남아 있습니다. 기존의 규칙 기반 방법과 달리 ML은 관심 있는 작업을 수행하기 위해 데이터에서 패턴을 자동으로 추론합니다. 이렇게 하면 자동화 규칙을 선별할 필요가 없지만 ML 모델은 학습된 데이터만큼만 우수할 수 있다는 의미이기도 합니다. 그러나 데이터 생성은 종종 어려운 작업입니다. 에서 아마존 머신 러닝 솔루션 랩, 우리는 이 문제가 반복적으로 발생했으며 고객을 위해 이 여정을 쉽게 하고 싶습니다. 이 프로세스를 오프로드하려면 다음을 사용할 수 있습니다. Amazon SageMaker Ground Truth Plus.

이 게시물을 마치면 다음을 달성할 수 있습니다.

  • 데이터 수집 파이프라인 설정과 관련된 비즈니스 프로세스 이해
  • 데이터 레이블 지정 파이프라인을 지원하고 신속하게 처리하기 위한 AWS 클라우드 서비스 식별
  • 사용자 지정 사용 사례에 대한 데이터 수집 및 레이블 지정 작업 실행
  • 비즈니스 및 기술 모범 사례에 따라 고품질 데이터 생성

이 게시물 전체에서 우리는 데이터 생성 프로세스에 중점을 두고 AWS 서비스에 의존하여 인프라 및 프로세스 구성 요소를 처리합니다. 즉, 우리는 아마존 세이지 메이커 그라운드 진실 레이블링 인프라 파이프라인 및 사용자 인터페이스를 처리합니다. 이 서비스는 포인트 앤 고 접근 방식을 사용하여 다음 위치에서 데이터를 수집합니다. 아마존 단순 스토리지 서비스 (Amazon S3) 및 레이블 지정 워크플로를 설정합니다. 레이블 지정의 경우 개인 팀을 사용하여 데이터 레이블을 획득할 수 있는 기본 제공 유연성을 제공합니다. 아마존 기계 터크 force 또는 선호하는 라벨링 공급업체 AWS Marketplace. 마지막으로 다음을 사용할 수 있습니다. AWS 람다Amazon SageMaker 노트북 라벨링 전후에 데이터를 처리, 시각화 또는 품질 관리합니다.

이제 모든 조각이 준비되었으므로 프로세스를 시작하겠습니다!

데이터 생성 프로세스

일반적인 직관과 달리 데이터 생성의 첫 번째 단계는 데이터 수집이 아닙니다. 문제를 명확히 하기 위해 사용자로부터 거꾸로 작업하는 것이 중요합니다. 예를 들어 최종 아티팩트에서 사용자는 무엇에 관심을 가집니까? 전문가들은 사용 사례와 관련된 신호가 데이터의 어디에 있다고 생각합니까? 모델에 제공할 수 있는 사용 사례 환경에 대한 정보는 무엇입니까? 해당 질문에 대한 답을 모르더라도 걱정하지 마십시오. 뉘앙스를 이해하기 위해 사용자 및 현장 전문가와 이야기할 시간을 가지십시오. 이 초기 이해는 당신을 올바른 방향으로 인도하고 성공을 위한 준비를 할 것입니다.

이 게시물에서는 사용자 요구 사항 사양의 초기 프로세스를 다뤘다고 가정합니다. 다음 세 섹션에서는 계획, 소스 데이터 생성 및 데이터 주석과 같은 품질 데이터 생성의 후속 프로세스를 안내합니다. 데이터 생성 및 주석 단계의 파일럿 루프는 레이블이 지정된 데이터의 효율적인 생성을 보장하는 데 중요합니다. 여기에는 데이터 생성, 주석, 품질 보증 및 필요에 따라 파이프라인 업데이트 간의 반복이 포함됩니다.

다음 그림은 일반적인 데이터 생성 파이프라인에 필요한 단계의 개요를 제공합니다. 사용 사례에서 거꾸로 작업하여 필요한 데이터를 식별하고(요구 사항 사양), 데이터를 얻기 위한 프로세스를 구축하고(계획), 실제 데이터 수집 프로세스를 구현하고(데이터 수집 및 주석) 결과를 평가할 수 있습니다. 점선으로 강조 표시된 파일럿 실행을 통해 고품질 데이터 수집 파이프라인이 개발될 때까지 프로세스를 반복할 수 있습니다.

일반적인 데이터 생성 파이프라인에 필요한 단계에 대한 개요입니다.

계획

표준 데이터 생성 프로세스는 비효율적으로 수행될 경우 시간이 많이 걸리고 귀중한 인적 자원을 낭비할 수 있습니다. 시간이 많이 소요되는 이유는 무엇입니까? 이 질문에 답하려면 데이터 생성 프로세스의 범위를 이해해야 합니다. 귀하를 지원하기 위해 귀하가 고려해야 할 주요 구성 요소 및 이해 관계자에 대한 상위 수준 체크리스트와 설명을 수집했습니다. 이러한 질문에 답하는 것은 처음에는 어려울 수 있습니다. 사용 사례에 따라 이들 중 일부만 적용할 수 있습니다.

  • 필요한 승인을 위한 법적 연락 창구 식별 – 애플리케이션에 데이터를 사용하려면 회사 정책 및 사용 사례를 준수하는지 확인하기 위해 라이선스 또는 공급업체 계약 검토가 필요할 수 있습니다. 프로세스의 데이터 수집 및 주석 단계 전반에 걸쳐 법적 지원을 식별하는 것이 중요합니다.
  • 데이터 처리를 위한 보안 연락처 식별 – 구매한 데이터가 유출될 경우 회사에 심각한 벌금 및 불이익이 발생할 수 있습니다. 보안 관행을 보장하기 위해 데이터 수집 및 주석 단계 전반에 걸쳐 보안 지원을 식별하는 것이 중요합니다.
  • 사용 사례 요구 사항을 자세히 설명하고 소스 데이터 및 주석 지침 정의 – 요구되는 높은 특이도로 인해 데이터 생성 및 주석 달기가 어렵습니다. 데이터 생성자 및 주석자를 포함한 이해 관계자는 리소스 낭비를 방지하기 위해 완전히 정렬되어야 합니다. 이를 위해 주석 작업의 모든 측면(정확한 지침, 예외 사례, 예제 연습 등)을 지정하는 지침 문서를 사용하는 것이 일반적입니다.
  • 소스 데이터 수집에 대한 기대치 맞추기 - 다음을 고려하세요:
    • 잠재적인 데이터 소스에 대한 연구 수행 – 예를 들어, 공개 데이터 세트, 다른 내부 팀의 기존 데이터 세트, 자체 수집 또는 공급업체로부터 구매한 데이터.
    • 품질 평가 수행 – 최종 사용 사례와 관련하여 분석 파이프라인을 생성합니다.
  • 데이터 주석 생성에 대한 기대치에 맞춰 조정 - 다음을 고려하세요:
    • 기술 이해 관계자 식별 – 일반적으로 Ground Truth와 관련된 기술 문서를 사용하여 주석 파이프라인을 구현할 수 있는 회사의 개인 또는 팀입니다. 이러한 이해 관계자는 주석이 달린 데이터가 다운스트림 ML 애플리케이션의 요구 사항을 충족하는지 확인하기 위해 해당 데이터의 품질 평가도 담당합니다.
    • 데이터 어노테이터 식별 – 이 개인은 미리 결정된 지침을 사용하여 Ground Truth 내의 소스 데이터에 레이블을 추가합니다. 사용 사례 및 주석 지침에 따라 도메인 지식을 보유해야 할 수도 있습니다. 회사 내부 인력을 사용하거나 비용을 지불할 수 있습니다. 외부 공급업체가 관리하는 인력.
  • 데이터 생성 프로세스에 대한 감독 보장 – 앞서 살펴본 바와 같이 데이터 생성은 수많은 전문 이해 관계자가 참여하는 세부 프로세스입니다. 따라서 원하는 결과를 향해 끝까지 모니터링하는 것이 중요합니다. 전담 직원이나 팀이 프로세스를 감독하도록 하면 응집력 있고 효율적인 데이터 생성 프로세스를 보장하는 데 도움이 될 수 있습니다.

선택하는 경로에 따라 다음 사항도 고려해야 합니다.

  • 소스 데이터세트 만들기 – 기존 데이터가 당면한 작업에 적합하지 않거나 법적 제약으로 인해 사용할 수 없는 경우를 나타냅니다. 내부 팀 또는 외부 공급업체(다음 포인트)를 사용해야 합니다. 이는 고도로 전문화된 영역이나 공공 연구가 적은 영역의 경우에 종종 발생합니다. 예를 들어, 의사의 일반적인 질문, 의복 비우기 또는 스포츠 전문가. 내부 또는 외부일 수 있습니다.
  • 공급업체 조사 및 온보딩 프로세스 수행 – 외부 공급업체를 사용할 경우 두 엔터티 간에 계약 및 온보딩 프로세스를 설정해야 합니다.

이 섹션에서는 고려해야 할 구성 요소와 이해 관계자를 검토했습니다. 그러나 실제 프로세스는 어떻습니까? 다음 그림에서는 데이터 생성 및 주석을 위한 프로세스 워크플로를 간략하게 보여줍니다. 반복적 접근 방식은 파일럿이라고 하는 작은 데이터 배치를 사용하여 처리 시간을 줄이고 오류를 조기에 감지하며 저품질 데이터 생성 시 리소스 낭비를 방지합니다. 이 파일럿 라운드는 이 게시물의 뒷부분에서 설명합니다. 또한 데이터 생성, 주석 및 품질 관리에 대한 몇 가지 모범 사례를 다룹니다.

다음 그림은 데이터 생성 파이프라인의 반복적인 개발을 보여줍니다. 수직으로 데이터 소싱 블록(녹색)과 주석 블록(파란색)을 찾습니다. 두 블록 모두 독립적인 파일럿 라운드(데이터 생성/주석, QAQC 및 업데이트)가 있습니다. 점점 더 높은 출처의 데이터가 생성되고 점점 더 높은 품질의 주석을 구성하는 데 사용할 수 있습니다.

데이터 생성 또는 주석 파이프라인을 반복적으로 개발하는 동안 소규모 데이터 배치가 독립 파일럿에 사용됩니다. 각 파일럿 라운드에는 데이터 생성 또는 주석 단계, 결과에 대한 일부 품질 보증 및 품질 관리, 프로세스를 개선하기 위한 업데이트 단계가 있습니다. 이러한 프로세스가 연속적인 파일럿을 통해 미세화되면 대규모 데이터 생성 및 주석을 진행할 수 있습니다.

데이터 생성 파이프라인의 반복 개발 개요.

소스 데이터 생성

입력 생성 프로세스는 작업 유형에 따라 달라지는 관심 항목 준비를 중심으로 진행됩니다. 이미지(신문 스캔), 비디오(교통 장면), 3D 포인트 클라우드(의료 스캔) 또는 단순히 텍스트(자막 트랙, 전사)가 될 수 있습니다. 일반적으로 작업 관련 항목을 준비할 때 다음을 확인하십시오.

  • 최종 AI/ML 시스템에 대한 실제 사용 사례 반영 – 훈련 데이터의 이미지 또는 비디오 수집 설정은 실제 응용 프로그램의 입력 데이터 설정과 거의 일치해야 합니다. 이는 배치 표면, 광원 또는 카메라 각도가 일관적이어야 함을 의미합니다.
  • 변동성 원인 고려 및 최소화 - 다음을 고려하세요:
    • 데이터 수집 표준을 유지하기 위한 모범 사례 개발 – 사용 사례의 세분성에 따라 데이터 포인트 간의 일관성을 보장하기 위해 요구 사항을 지정해야 할 수 있습니다. 예를 들어 단일 카메라 지점에서 이미지 또는 비디오 데이터를 수집하는 경우 관심 개체의 일관된 배치를 확인하거나 데이터 캡처 라운드 전에 카메라 품질 검사가 필요할 수 있습니다. 이렇게 하면 카메라 기울기 또는 흐림과 같은 문제를 피할 수 있고 프레임 외부 또는 흐릿한 이미지를 제거하고 이미지 프레임을 관심 영역의 중앙에 수동으로 맞춰야 하는 것과 같은 다운스트림 오버헤드를 최소화할 수 있습니다.
    • 가변성의 사전 테스트 시간 소스 – 테스트 시간 동안 지금까지 언급된 속성의 변동성이 예상되는 경우 교육 데이터 생성 중에 해당 변동성 소스를 캡처할 수 있는지 확인하십시오. 예를 들어 ML 애플리케이션이 여러 다른 조명 설정에서 작동할 것으로 예상하는 경우 다양한 조명 설정에서 교육 이미지와 비디오를 만드는 것을 목표로 해야 합니다. 사용 사례에 따라 카메라 위치의 가변성도 라벨 품질에 영향을 줄 수 있습니다.
  • 가능한 경우 사전 도메인 지식 통합 - 다음을 고려하세요:
    • 오류 소스에 대한 입력 – 도메인 실무자는 다년간의 경험을 바탕으로 오류 원인에 대한 통찰력을 제공할 수 있습니다. 그들은 앞의 두 가지 사항에 대한 모범 사례에 대한 피드백을 제공할 수 있습니다. 실제 사용 사례를 가장 잘 반영하는 설정은 무엇입니까? 데이터 수집 중 또는 사용 시 변동성의 가능한 원인은 무엇입니까?
    • 도메인별 데이터 수집 모범 사례 – 기술 이해 관계자가 수집된 이미지 또는 비디오에서 초점을 맞춰야 할 기술적 측면에 대해 이미 잘 알고 있을 수 있지만, 도메인 실무자는 이러한 요구 사항을 충족할 수 있도록 데이터를 준비하거나 수집하는 최선의 방법에 대한 피드백을 제공할 수 있습니다.

생성된 데이터의 품질 관리 및 품질 보증

이제 데이터 수집 파이프라인을 설정했으므로 가능한 한 많은 데이터를 수집하고 싶을 수 있습니다. 잠깐 기다려요! 먼저 설정을 통해 수집된 데이터가 실제 사용 사례에 적합한지 확인해야 합니다. 일부 초기 샘플을 사용하고 해당 샘플 데이터를 분석하여 얻은 통찰력을 통해 설정을 반복적으로 개선할 수 있습니다. 파일럿 프로세스 중에 기술, 비즈니스 및 주석 이해 관계자와 긴밀하게 협력하십시오. 이렇게 하면 결과 파이프라인이 비즈니스 요구 사항을 충족하면서 최소한의 오버헤드 내에서 ML 지원 레이블이 지정된 데이터를 생성할 수 있습니다.

주석

입력의 주석은 데이터에 마법의 터치를 추가하는 곳인 레이블입니다! 작업 유형 및 데이터 생성 프로세스에 따라 수동 어노테이터가 필요하거나 기성 자동화 방법을 사용할 수 있습니다. 데이터 주석 파이프라인 자체는 기술적으로 어려운 작업일 수 있습니다. Ground Truth는 공통 데이터 소스에 대한 레이블 지정 워크플로의 기본 제공 레퍼토리. 몇 가지 추가 단계를 통해 사용자 지정 레이블 지정 워크 플로 사전 구성된 옵션 이상.

적절한 주석 워크플로를 개발할 때 다음 질문을 스스로에게 해보십시오.

  • 내 데이터에 수동 주석 처리가 필요합니까? 어떤 경우에는 자동화된 라벨링 서비스가 당면한 작업에 충분할 수 있습니다. 설명서 및 사용 가능한 도구를 검토하면 사용 사례에 수동 주석이 필요한지 식별하는 데 도움이 됩니다(자세한 내용은 데이터 라벨링이란 무엇입니까?). 데이터 생성 프로세스는 데이터 주석의 세분성과 관련하여 다양한 수준의 제어를 허용할 수 있습니다. 이 프로세스에 따라 수동 주석의 필요성을 우회할 수도 있습니다. 자세한 내용은 Amazon SageMaker Ground Truth를 사용하여 사용자 지정 Q&A 데이터 세트를 구축하여 Hugging Face Q&A NLU 모델 훈련.
  • 내 기준 진실을 형성하는 것은 무엇입니까? 대부분의 경우 기본 정보는 주석 프로세스에서 나옵니다. 이것이 요점입니다! 다른 사용자는 정답 레이블에 액세스할 수 있습니다. 이렇게 하면 품질 보증 프로세스의 속도를 크게 높이거나 여러 수동 주석에 필요한 오버헤드를 줄일 수 있습니다.
  • 내 실측 상태에서 벗어나는 정도의 상한선은 얼마입니까? 최종 사용자와 협력하여 이러한 레이블과 관련된 일반적인 오류, 이러한 오류의 원인 및 원하는 오류 감소를 이해합니다. 이렇게 하면 레이블 지정 작업의 어떤 측면이 가장 까다롭거나 주석 오류가 발생할 가능성이 있는지 식별하는 데 도움이 됩니다.
  • 이러한 항목에 레이블을 지정하기 위해 사용자 또는 현장 실무자가 사용하는 기존 규칙이 있습니까? 수동 어노테이터를 위한 일련의 지침을 작성하려면 이 지침을 사용하고 수정하십시오.

입력 주석 프로세스 파일럿

입력 주석 프로세스를 시험할 때 다음 사항을 고려하십시오.

  • 주석가 및 현장 실무자와 함께 지침 검토 – 지침은 간결하고 구체적이어야 합니다. 사용자(지침이 정확합니까? 현장 실무자가 아닌 사람도 이해할 수 있도록 지침을 수정할 수 있습니까?) 및 주석가(모든 것이 이해할 수 있습니까? 작업이 명확합니까?)로부터 피드백을 요청하십시오. 가능하면 애노테이터가 예상되는 것과 일반적인 레이블 지정 오류가 무엇인지 식별하는 데 도움이 되도록 레이블이 지정된 좋은 데이터와 나쁜 데이터의 예를 추가하세요.
  • 주석용 데이터 수집 – 고객과 함께 데이터를 검토하여 예상 표준을 충족하는지 확인하고 수동 주석의 예상 결과에 맞춰 정렬합니다.
  • 테스트 실행으로 수동 어노테이터 풀에 예제 제공 – 이 예제 세트에서 주석자 간의 일반적인 차이는 무엇입니까? 주어진 이미지 내에서 각 주석의 분산을 연구하여 주석가 간의 일관성 추세를 식별합니다. 그런 다음 이미지 또는 비디오 프레임의 분산을 비교하여 배치하기 어려운 레이블을 식별합니다.

주석의 품질 관리

주석 품질 관리에는 두 가지 주요 구성요소가 있습니다. 하나는 주석자 간의 일관성을 평가하고, 다른 하나는 주석 자체의 품질을 평가하는 것입니다.

동일한 작업에 여러 애노테이터를 할당하고(예: 세 명의 애노테이터가 동일한 이미지의 핵심 포인트에 레이블을 지정) 애노테이터 간에 이러한 레이블의 표준 편차와 함께 평균값을 측정할 수 있습니다. 이렇게 하면 지침을 수정하거나 특정 주석가에게 추가 교육을 제공하는 것과 같은 실행 가능한 결과를 안내할 수 있는 이상값 주석(잘못된 레이블이 사용되었거나 레이블이 평균 주석에서 멀리 떨어져 있음)을 식별하는 데 도움이 됩니다.

주석 자체의 품질을 평가하는 것은 주석자의 가변성 및 (사용 가능한 경우) 도메인 전문가 또는 실측 정보의 가용성과 관련이 있습니다. 어노테이터 간의 평균 편차가 일관되게 높은 특정 레이블(모든 이미지에 걸쳐)이 있습니까? 레이블이 있어야 하는 위치 또는 모양에 대한 예상과 멀리 떨어진 레이블이 있습니까?

우리의 경험에 따르면 데이터 주석을 위한 일반적인 품질 관리 루프는 다음과 같습니다.

  • 테스트 실행의 결과를 기반으로 지침 또는 이미지 스테이징을 반복합니다. – 가려진 물체가 있습니까, 아니면 이미지 스테이징이 주석가나 사용자의 기대와 일치하지 않습니까? 지침이 오해의 소지가 있거나 예시 이미지에서 레이블이나 일반적인 오류를 놓쳤습니까? 어노테이터에 대한 지침을 구체화할 수 있습니까?
  • 테스트 실행에서 문제를 해결한 데 만족하면 주석 일괄 처리를 수행합니다. – 배치의 결과를 테스트하기 위해 애노테이터 간 및 이미지 간 레이블 변동성을 평가하는 것과 동일한 품질 평가 접근 방식을 따릅니다.

결론

이 게시물은 비즈니스 이해 관계자가 AI/ML 애플리케이션을 위한 데이터 생성의 복잡성을 이해하는 데 도움이 됩니다. 설명된 프로세스는 또한 기술 실무자가 인력 및 비용과 같은 비즈니스 제약을 최적화하면서 품질 데이터를 생성할 수 있도록 가이드 역할을 합니다. 제대로 수행되지 않으면 데이터 생성 및 레이블 지정 파이프라인에 4-6개월 이상이 소요될 수 있습니다.

이 게시물에 설명된 지침과 제안을 통해 장애물을 사전에 예방하고 완료 시간을 단축하며 고품질 데이터를 생성하는 과정에서 비용을 최소화할 수 있습니다.


저자 소개

재슬린 그루왈 Amazon Web Services의 응용 과학자로 AWS 고객과 협력하여 정밀 의학 및 유전체학에 특히 중점을 두고 기계 학습을 사용하여 실제 문제를 해결합니다. 그녀는 생물정보학, 종양학 및 임상 유전체학에 대한 강력한 배경을 가지고 있습니다. 그녀는 AI/ML 및 클라우드 서비스를 사용하여 환자 치료를 개선하는 데 열정적입니다.

보리스 아론치크 Amazon AI Machine Learning Solutions Lab의 관리자로 ML 과학자 및 엔지니어 팀을 이끌고 AWS 고객이 AI/ML 솔루션을 활용하여 비즈니스 목표를 실현할 수 있도록 지원합니다.

미구엘 로메로 칼보 의 응용 과학자입니다. Amazon ML 솔루션 랩 여기서 그는 AWS 내부 팀 및 전략적 고객과 협력하여 ML 및 클라우드 채택을 통해 비즈니스를 가속화합니다.

린 리청 Amazon Web Services의 Amazon ML 솔루션 랩 팀의 선임 과학자이자 관리자입니다. 그녀는 전략적 AWS 고객과 협력하여 인공 지능 및 기계 학습을 탐색 및 적용하여 새로운 통찰력을 발견하고 복잡한 문제를 해결합니다.

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?