제퍼넷 로고

지저분한 데이터는 아름답다

시간


지저분한 데이터는 아름답다

이러한 유형의 데이터가 정리되면 정리된 데이터 세트를 표시하는 것 이상의 작업을 수행합니다. 이는 무한한 가능성을 드러내며, AI 분석은 이러한 가능성을 이전보다 더 빠르고 효율적으로 드러낼 수 있습니다.


스폰서 포스트.

영상

데이터 과학자는 항상 데이터를 '아하' 순간으로 선별하고 더 많은 비즈니스 대상에게 다가갈 수 있는 스토리를 전달해야 한다고 기대해 왔습니다. 그런데 이 큐레이션의 비용은 얼마일까요?

진짜 신호는 잡음 속에 있다

깔끔한 데이터는 그다지 도움이 되지 않습니다.

데이터 세트에서 수행되는 모든 집계 및 피벗은 분석에 사용할 수 있는 전체 정보 양을 줄입니다. 자유 텍스트 필드에 대한 영리한 NLP 주제 마이닝은 의심할 바 없이 매우 유용했지만 원시 텍스트가 더 흥미롭습니다. 아마도 그 '의미 없는' 원시 센서 로그가 바로 그것일 수도 있고 아닐 수도 있습니다.

우리가 본 지저분한 데이터의 몇 가지 예는 다음과 같습니다.

  • 대출 신청서의 철자 오류
  • 유지보수 담당자의 오류 보고
  • 우물의 진동 압력 변화
  • 세탁실과 식료품점의 근접성
  • 고객 이탈을 유발하는 앱의 손상된 기능

이러한 유형의 데이터가 정리되면 정리된 데이터 세트를 표시하는 것 이상의 작업을 수행합니다. 이는 무한한 가능성을 보여주며, AI 분석은 이러한 가능성을 이전보다 더 빠르고 효율적으로 드러낼 수 있습니다(뱅킹에서 방법을 확인하세요). 여기에서 지금 확인해 보세요.).

예제

이해하기 어려운 센서 데이터가 있다고 가정해 보겠습니다. 일반적으로 센서 배열은 일반적으로 읽을 수 없는 많은 양의 데이터를 생성합니다.

분석팀은 상세한 조사를 통해 센서 중 하나가 지속적으로 높은 판독값을 나타내고 높은 변동성이 한 가지 유형의 기계적 결함을 예측하는 것으로 보인다는 사실을 발견했습니다. 결과적으로 이제 이 센서의 3시간 이동 평균과 1시간 이동 변동에 대한 보고서가 생성됩니다.

이러한 지표는 설명하기 쉬우며 고위 경영진부터 수리 직원까지 모든 사람이 자신이 측정하는 내용을 이해합니다. 그런데 이렇게 데이터를 큐레이팅하는 데 드는 비용은 얼마였나요?

깔끔한 데이터는 훌륭하고 설명 가능한 스토리를 제공하지만, 결코 고려되지 않은 가설을 배제하는 대가를 치르게 됩니다. 그리고 바로 여기에 실제 근본적인 문제가 있을 수 있습니다.

대신, 강력한 AI 기반 분석 플랫폼은 이 센서와 다른 모든 센서 판독값, 기하급수적 이동 평균, 근 및 FFT에 다양한 기능을 적용할 수 있습니다. 그런 다음 분석가는 다양한 임계값을 시도하여 이를 날씨 또는 맞춤형 도메인 지식과 같은 컨텍스트 데이터 세트와 비교할 수 있습니다.

고유한 통찰력을 포착하고 지저분한 데이터에 깊이 묻혀 있는 숨겨진 패턴을 밝혀냄으로써 새로운 트렌드를 파악하고 새로운 행동과 고객 요구 사항을 식별할 수 있습니다.

주요 은행에서 이것이 어떻게 작동하는지 알아보세요.


PlatoAi. Web3 재창조. 데이터 인텔리전스 증폭.
액세스하려면 여기를 클릭하십시오.

출처: https://www.kdnuggets.com/2021/09/sparkbeyond-messy-data-is-beautiful.html

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?