제퍼넷 로고

성공적인 AI/ML 모델링을 위한 데이터 품질의 중요성

시간

성공적인 AI/ML 모델링을 위한 데이터 품질의 중요성
일러스트 : © IoT For All

인공 지능(AI) 및 머신 러닝(ML) 기술은 많은 산업 분야를 획기적으로 혁신할 수 있는 잠재력을 가지고 있습니다. 그러나 AI와 ML에는 소수의 사람들이 이야기하는 아킬레스건이 있습니다. 2019년 Refiniv에서 실시한 연구 더 똑똑한 인간, 더 똑똑한 기계: 인공 지능/머신 러닝 글로벌 연구, 인공 지능 및 기계 학습의 배포 및 채택에 가장 큰 장벽은 나쁜 데이터 품질이라고 밝혔습니다. 대체 자원 및 구조화되지 않은 데이터의 데이터는 점점 더 중요해지고 있지만 통찰력이 진정으로 가치 있게 사용되기 전에 "정제"되어야 합니다. 

"쓰레기 입력, 쓰레기 출력"이라는 말은 AI/ML 배포에 적용됩니다. 모델에 잘못된 데이터를 제공하면 분석 및 결과도 수준 이하가 됩니다. Refiniv 설문 조사에 따르면 응답자의 66%가 낮은 데이터 품질이 기계 학습 및 인공 지능 기술을 배포하는 능력에 영향을 미친다고 말했습니다. 이 보고서는 또한 ML 모델에서 새로운 데이터로 작업할 때의 80가지 과제 중 90가지가 데이터 품질과 관련이 있다고 제안합니다. 이러한 문제에는 기록, 적용 범위, 데이터 모집단에 대한 정확한 정보, 불완전하거나 손상된 기록 식별, 데이터 정리 및 관리가 포함됩니다. 데이터 과학자가 직면한 가장 큰 문제 중 하나는 양질의 데이터를 찾는 것입니다. 잘못된 데이터를 정리하고 정규화하는 데 시간의 XNUMX~XNUMX%를 소비해야 하기 때문입니다.

데이터 품질이 중요한 이유는 무엇입니까?

데이터 분석을 수행할 때 데이터 품질은 용도에 관계없이 매우 중요합니다. 인공 지능 아니면. 데이터 품질에는 두 가지 구성 요소가 있습니다.

  1. 누락 된 데이터
  2. I엔코르데이터 수정

두 문제 모두 매우 문제가 많으며 각 문제의 영향은 경우에 따라 결정될 수 있습니다. 데이터 품질이 ML 모델에서 판매되지 않으면 오해와 잘못된 추론으로 이어집니다. 연구에 따르면 기업은 자체 회사 데이터와 함께 시장 데이터 및 비정형 데이터를 분석합니다. 이는 세 가지 다른 데이터 소스를 결합하여 통찰력을 얻고 있음을 의미합니다. 전통적으로 구조화된 데이터는 강력한 양적 분석의 핵심이었습니다. 그러나 구조화되지 않은 데이터는 기업의 주요 과제입니다. 대체 소스의 데이터는 대부분 구조화되지 않았으며 정확도를 위해 정제하고 검증해야 합니다.  

자연어 처리(NLP)와 같은 머신 러닝 접근 방식은 텍스트 기반 데이터를 구조화하고 세분화하는 데 사용됩니다. Facebook과 Google은 구조화되지 않은 데이터에 많은 노력을 기울여 왔습니다. 이들의 성공은 구조화되지 않은 데이터를 보다 쉽고 정확하며 효과적으로 만들고 있습니다. 그리고 ML이 구조화되지 않은 데이터 소스에서 정보를 추출하는 것을 더 쉽게 만들었지만 여전히 시간이 걸리는 프로세스이며 ML 모델을 교육하는 데 많은 기술과 인내가 필요합니다.

데이터가 다음과 같은지 확인하는 가장 좋은 방법 양질 쉽게 액세스할 수 있는 신뢰할 수 있는 소스에서 가져오는 것입니다. 신뢰할 수 있는 소스의 경우 모바일 앱을 사용하는 것이 한 가지 방법이 될 수 있습니다. 모바일 앱 많은 조직에서 여전히 사용하는 기존의 종이 양식보다 데이터 품질을 더 잘 제어할 수 있으며 필요할 때마다 디지털 데이터에 쉽게 액세스할 수 있습니다. 

모바일 앱은 데이터 품질을 향상시킬 수 있으므로 인공 지능 구현의 핵심입니다. 기존 데이터는 종종 수작업으로 오류가 발생하기 쉬운 종이 기반 프로세스에서 가져옵니다. 데이터 품질이 나쁘면 종이 양식을 사용할 때 직면하게 될 정보 손실이나 시간 지연은 말할 것도 없고 인공 지능도 저하됩니다. 이러한 프로세스를 모바일 앱 기반 디지털 양식으로 대체하면 오류가 제거되고 데이터 품질이 향상됩니다. 모바일 앱은 시간, 위치 및 데이터와 같은 정보를 자동으로 캡처하고 계산, 디지털 서명, 바코드 및 판독값을 검증할 수도 있습니다. 특히 현장 데이터가 모델의 핵심 데이터 소스로 사용될 때 현장 데이터를 수집하는 모바일 앱은 성공적인 AI 구현에 매우 중요합니다.

잘못된 데이터의 실제 비용

우리는 깨닫지 못할 수도 있지만 나쁜 데이터 비용이 많이 들 수 있습니다(레코드당 최대 $10). 데이터 품질 회사의 보고서 "잘못된 데이터의 실제 비용,” 직원이 수집한 정보의 최대 20%가 부정확하다고 지적합니다. 이 보고서는 정보를 확인하는 데 기록당 최대 XNUMX달러의 비용이 들 수 있다고 제안합니다. 이 돈은 직원 급여, 컴퓨터 운영 비용, 유효성 검사 솔루션 사용에 사용됩니다. 

그러나 유효성 검사에 일괄 처리를 사용하면 비용이 크게 증가하므로 레코드당 10달러는 오해의 소지가 있는 것처럼 보일 수 있습니다. 그러면 비용은 기록당 100달러로 증가할 것이며 회사에 기록을 확인하는 메커니즘이 없다면 그 수치조차 과소평가될 것입니다. 반송 메일, 잘못된 배송, 마케팅 기회 손실로 인해 레코드당 $XNUMX에 달할 수 있습니다. 즉, 수익을 잃고 운송 과정에 막대한 비용을 지출해야 합니다. 간단히 말해서 불량 데이터는 정제 및 수리에 비용이 들 뿐 아니라 회사가 고객에게 전달하고 잠재 고객에게 도달할 수 없기 때문에 수익 손실을 초래합니다. 

불량 데이터를 최소화하는 가장 좋은 방법은 종이를 사용하지 않고 모든 프로세스를 디지털화하는 것입니다. 종이를 사용하지 않고 생산성을 개선하며 불량 데이터를 처리하는 숨겨진 비용을 줄임으로써 많은 비용을 절약할 수 있습니다. 강력한 앱을 구축하면 회사에서 시간을 절약하고 비용을 절감할 수 있습니다. 종이 기반 프로세스는 사람의 개입을 최소화하면서 모든 것을 디지털화할 수 있을 때 관리하는 데 많은 시간과 노력이 필요합니다. 

모바일 앱 빌더

비즈니스 프로세스를 용이하게 할 수 있는 모바일 앱을 만들려면 모든 모바일 장치용 모바일 양식을 작성하고 종이를 사용하지 않는 올바른 앱 빌더가 필요합니다. 이를 위해서는 로우 코드 개발 플랫폼이 이상적일 수 있습니다. 시민 개발자 엔터프라이즈 앱을 구축합니다. 많은 로우 코드 개발 플랫폼은 최신 모바일 앱 기능(예: GPS, 카메라 등)을 사용하여 몇 분 만에 모바일 기반 양식을 개발하여 데이터를 정확하고 빠르게 캡처할 수 있습니다. 

spot_img

최신 인텔리전스

spot_img