제퍼넷 로고

이 10가지 질문 없이 데이터 세트를 만지지 마십시오

시간

이 10가지 질문 없이 데이터 세트를 만지지 마십시오

AI 프로젝트의 성공을 위해서는 올바른 데이터 세트를 선택하는 것이 중요합니다.


By Sandeep Uttamchandani, Ph.D., 제품 / 소프트웨어 빌더 (Engg 부사장) 겸 전사적 데이터 / AI 이니셔티브 (CDO) 운영의 리더

데이터 탐색

데이터는 AI 제품의 핵심입니다. 모델을 조정하는 대신 데이터를 조정하는 것이 점점 더 강조되고 있습니다. Andrew Ng가 다음과 같이 만들었습니다. 데이터 중심 AI. 내 경험상 AI 프로젝트의 성공 또는 실패는 사용 중인 데이터 세트로 예측할 수 있습니다. 

새로운 모델을 구축하려는 데이터 과학자/AI 엔지니어 또는 AI 프로젝트를 위한 파이프라인 구축 작업을 하는 데이터 엔지니어인 경우 후보 목록에 포함된 모든 데이터 세트에 대해 다음 질문을 하여 AI 수명 주기 후반에 골치 아픈 문제와 기대치를 놓치는 일이 없도록 하십시오.

1. 데이터세트 속성의 의미가 문서화되어 있습니까?

 
빅 데이터 시대 이전에는 데이터가 중앙 데이터웨어 하우스에 추가되기 전에 큐레이팅되었습니다. 이를 쓰기시 스키마라고합니다. 오늘날 데이터 레이크의 접근 방식은 먼저 데이터를 집계 한 다음 소비 당시 데이터의 의미를 추론하는 것입니다. 이를 읽기시 스키마라고합니다.

데이터 속성이 제대로 문서화되지 않거나 최신 상태로 유지되는 경우는 거의 없습니다. 문서화를 갖는 것은 프로젝트 속도를 늦추는 단계로 볼 수 있지만 실제로는 모델 디버깅 중에 매우 중요해집니다. 데이터 세트를 소유한 데이터 관리자를 식별하고 가장 정확한 문서를 제공할 수 있는지 확인합니다.

2. 데이터세트의 집계/파생 메트릭이 표준화되었습니까?

 
파생 데이터 또는 메트릭에는 여러 출처의 진실과 비즈니스 정의가 있을 수 있습니다. 메트릭에 명확한 문서화된 비즈니스 정의가 있는지 확인합니다(때로는 ETL 내에서 암시적임).

3. 데이터 세트가 데이터 권리 규정(예: GDPR, CCPA 등)을 준수합니까?

 
데이터 권리 규정은 이제 중요해지고 있습니다. 모델 교육 및 재교육 중에 이를 추적하고 시행하는 것이 중요합니다. 그림과 같이 GDPR, CCPA, 브라질 일반 데이터 보호법, 인도 개인 데이터 보호 법안 및 기타 여러 가지와 같은 데이터 권리 규정이 증가하고 있습니다. 이러한 법률은 고객 데이터를 기본 설정에 따라 수집, 사용 및 삭제할 것을 요구합니다. 있다 다른 측면 데이터 권한, 즉: 데이터 권한 수집, 데이터 권한 사용, 데이터 권한 삭제, 데이터 권한에 대한 액세스.

4. 데이터 세트 스키마/정의 변경 사항이 모든 소비자에게 통지되도록 명확한 변경 관리 프로세스가 있습니까?

 
소스의 스키마 변경이 다운스트림 처리와 조정되지 않는 것은 매우 일반적입니다. 변경 사항은 스키마 변경(기존 파이프라인 중단)에서 데이터 속성에 대한 의미적 변경을 감지하기 어려운 것까지 다양합니다. 또한 비즈니스 메트릭이 변경되면 정의의 버전 관리가 부족합니다.

5. 데이터 세트가 수집된 컨텍스트는 무엇입니까?

  
데이터 세트는 통계적 관점에서 궁극적인 진실을 포착하는 경우가 거의 없습니다. 애플리케이션 소유자가 해당 사용 사례에 대해 당시에 요구한 속성만 캡처합니다. 편향 및 누락된 데이터에 대해 데이터 세트를 분석하는 것이 중요합니다. 데이터 세트의 컨텍스트를 이해하는 것은 매우 중요합니다.

6. 데이터가 IID입니까? 

  
XNUMXD덴탈의 암묵적 가정 모델 훈련의 데이터는 아이디 (독립적이고 동일하게 배포됨). 또한 데이터에는 만료 날짜가 있습니다. 10년 전의 고객 행동 기록은 대표하지 않을 수 있습니다. 

7. 데이터 수집의 체계적인 오류에 대해 데이터 세트를 테스트/검증합니까?

 
데이터 세트의 오류가 무작위인 경우 모델 학습에 덜 해롭습니다. 그러나 특정 행이나 열이 체계적으로 누락되는 등의 버그가 있는 경우 데이터 세트에 편향이 발생할 수 있습니다. 예를 들어 버그로 인해 사용자 범주에 대한 고객 클릭의 장치 세부 정보가 누락된 경우 데이터 세트는 현실을 나타내지 않습니다.

8. 급격한 분포 변화에 대해 데이터 세트를 모니터링합니까?

 
데이터 세트는 끊임없이 진화하고 있습니다. 데이터 분포 분석은 모델 생성 시에만 필요한 일회성 활동이 아닙니다. 대신, 특히 온라인 교육의 경우 드리프트에 대해 데이터 세트를 지속적으로 모니터링해야 합니다.

9. 데이터세트에서 이상치는 어떻게 처리됩니까?

 
이상값이 반드시 나쁜 것은 아니며 모델을 올바르게 작성하는 데 필수적인 경우도 있습니다. 수집하는 동안 이상치가 필터링되는지와 논리/기준이 무엇인지 이해하는 것이 중요합니다. 

10. 데이터 세트에 할당된 데이터 스튜어드가 있습니까? (대규모 팀에 적용 가능)

  
데이터 세트는 이해할 수 없으면 쓸모가 없습니다. 열의 의미를 리버스 엔지니어링하려는 시도는 종종 '패배'입니다. 핵심은 문서 세부 정보를 업데이트하고 발전시키기 위해 데이터 세트를 담당하는 데이터 관리자가 있는지 확인하는 것입니다.

 
내 경험상 이러한 질문에 대한 답변은 알려진 알려진, 알려진 알려지지 않은 및 알려지지 않은 알려지지 않은 데이터 세트에서. 각 질문에 긍정적인 대답이 있는 것은 중요하지 않습니다. 오히려 이러한 응답을 고려하면 AI 수명 주기를 가속화하고 사각 지대를 방지하는 데 도움이 될 수 있습니다.

 
바이오 : Sandeep Uttamchandani, Ph.D.: 데이터 + AI / ML — 제품 / 소프트웨어 빌더 (Engg 부사장)이자 전사적 데이터 / AI 이니셔티브 (CDO) 운영의 리더 | O'Reilly 도서 작가 | 설립자 – DataForHumanity (비영리)

관련 :


PlatoAi. Web3 재창조. 데이터 인텔리전스 증폭.
액세스하려면 여기를 클릭하십시오.

출처: https://www.kdnuggets.com/2021/09/dataset-asking-10-questions.html

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?