제퍼넷 로고

기계 학습에서 데이터 부족을 처리하는 5가지 방법

시간

기계 학습에서 데이터 부족을 처리하는 5가지 방법
편집자별 이미지
 

제가 수행한 많은 프로젝트에서 기업들은 환상적인 AI 비즈니스 아이디어를 가지고 있음에도 불구하고 충분한 데이터가 없다는 것을 알게 되면 서서히 좌절하는 경향을 보입니다. 하지만 솔루션은 존재합니다! 이 기사의 목적은 기존 솔루션을 모두 나열하는 것이 아니라 그 중 일부(실무에서 효과가 입증된 것)를 간략하게 소개하는 것입니다.

데이터가 모든 AI 프로젝트의 핵심이기 때문에 데이터 부족 문제는 매우 중요합니다. 데이터세트의 크기 ML 프로젝트의 성능 저하에 대한 책임이 있는 경우가 많습니다.

대부분의 경우 데이터 관련 문제는 훌륭한 AI 프로젝트를 수행할 수 없는 주된 이유입니다. 일부 프로젝트에서는 관련 데이터가 없거나 수집 프로세스가 너무 어렵고 시간이 많이 걸린다는 결론에 도달했습니다.

지도 머신 러닝 모델은 모든 범위의 비즈니스 과제에 대응하는 데 성공적으로 사용되고 있습니다. 그러나 이러한 모델은 데이터를 많이 사용하며 성능은 사용 가능한 훈련 데이터의 크기에 크게 의존합니다. 대부분의 경우 충분히 큰 학습 데이터 세트를 생성하기 어렵습니다.

언급할 수 있는 또 다른 문제는 프로젝트 분석가가 일반적인 비즈니스 문제를 처리하는 데 필요한 데이터의 양을 과소평가하는 경향이 있다는 것입니다. 큰 훈련 데이터 세트를 모으느라 고생했던 기억이 납니다. 대기업에서 일할 때 데이터를 수집하는 것은 훨씬 더 복잡합니다.

얼마나 많은 데이터가 필요합니까?

글쎄요, 모델에 있는 자유도보다 약 10배 많은 예가 필요합니다. 모델이 복잡할수록 과적합되는 경향이 있지만 검증을 통해 피할 수 있습니다. 그러나 사용 사례에 따라 훨씬 적은 수의 데이터를 사용할 수 있습니다.

과적합: 학습 데이터를 너무 잘 모델링하는 모델을 말합니다. 모델이 새로운 데이터에 대한 모델의 성능에 부정적인 영향을 미칠 정도로 교육 데이터의 세부 사항과 노이즈를 학습할 때 발생합니다.

누락된 값을 처리하는 문제도 논의할 가치가 있습니다. 특히 데이터에서 누락된 값의 수가 충분히 큰 경우(5% 초과).

다시 한 번 누락된 값을 처리하는 것은 특정 '성공' 기준에 따라 달라집니다. 더욱이, 이러한 기준은 서로 다른 데이터 세트와 인식, 분할, 예측 및 분류(동일한 데이터 세트가 주어짐)와 같은 서로 다른 응용 프로그램(인식, 분할, 예측, 분류)에 대해서도 다릅니다.

누락된 데이터를 처리하는 완벽한 방법이 없다는 것을 이해하는 것이 중요합니다.

다양한 솔루션이 존재하지만 시계열 분석, ML, 회귀 등 문제의 종류에 따라 다릅니다.

예측 기술의 경우 누락된 값이 완전히 무작위로 관찰되지 않고 그러한 누락된 값과 어떤 관계가 있다고 귀속시키기 위해 변수를 선택한 경우에만 사용되며, 그렇지 않으면 부정확한 추정치가 나올 수 있습니다.

일반적으로 다른 기계 학습 알고리즘을 사용하여 결측값을 결정할 수 있습니다. 이는 누락된 기능을 레이블 자체로 전환하고 이제 누락된 값이 없는 열을 사용하여 누락된 값이 있는 열을 예측하는 방식으로 작동합니다.

내 경험에 따르면 AI 기반 솔루션을 구축하기로 결정하면 어느 시점에서 데이터 부족 또는 데이터 누락에 직면하게 될 것입니다. 하지만 다행스럽게도 마이너스를 플러스로 바꾸는 방법이 있습니다.

 

 

위에서 언급했듯이 AI 프로젝트에 필요한 최소한의 데이터 양을 정확하게 추정하는 것은 불가능합니다. 분명히 프로젝트의 특성이 필요한 데이터의 양에 상당한 영향을 미칩니다. 예를 들어 텍스트, 이미지 및 비디오에는 일반적으로 더 많은 데이터가 필요합니다. 그러나 정확한 추정을 위해서는 다른 많은 요소를 고려해야 합니다.

  • 예측할 범주 수
    모델의 예상 출력은 무엇입니까? 기본적으로 숫자나 범주가 적을수록 좋습니다.
  • 모델 성능
    제품을 생산할 계획이라면 더 많은 것이 필요합니다. 작은 데이터 세트는 개념 증명에 충분할 수 있지만 프로덕션에서는 훨씬 더 많은 데이터가 필요합니다.

일반적으로 작은 데이터 세트에는 복잡성이 낮은 모델이 필요합니다(또는 높은 편향) 피하다 과적 합 모델을 데이터로.

 

 

기술 솔루션을 살펴보기 전에 데이터 세트를 개선하기 위해 무엇을 할 수 있는지 분석해 보겠습니다. 당연하게 들릴 수 있지만 AI를 시작하기 전에 데이터 수집을 염두에 두고 외부 및 내부 도구를 개발하여 가능한 한 많은 데이터를 얻으십시오. 기계 학습 알고리즘이 수행할 것으로 예상되는 작업을 알고 있는 경우 데이터 수집 메커니즘을 미리 만들 수 있습니다.

조직 내에서 실제 데이터 문화를 확립하도록 노력하십시오.

ML 실행을 시작하기 위해 오픈 소스 데이터에 의존할 수 있습니다. ML에 사용할 수 있는 많은 데이터가 있으며 일부 회사는 이를 제공할 준비가 되어 있습니다.

프로젝트에 외부 데이터가 필요한 경우 관련 데이터를 얻기 위해 다른 조직과 파트너십을 형성하는 것이 유리할 수 있습니다. 파트너십을 형성하는 데는 분명히 시간이 좀 걸리지만 얻은 독점 데이터는 모든 경쟁사에 대한 자연스러운 장벽을 구축할 것입니다.

 

spot_img

최신 인텔리전스

spot_img