제퍼넷 로고

불량 데이터의 영향 이해 – DATAVERSITY

시간

낮은 데이터 품질로 인해 발생하는 비용을 알고 계십니까? 아래에서는 데이터 관측 가능성의 중요성, 불량 데이터의 위험을 완화할 수 있는 방법, ROI 측정 방법을 살펴봅니다. 불량 데이터의 영향을 이해하고 효과적인 전략을 구현함으로써 조직은 데이터 품질 이니셔티브의 이점을 극대화할 수 있습니다. 

데이터는 현대 의사 결정의 필수적인 부분이 되었으며, 따라서 데이터 품질은 비즈니스 이해관계자가 정확한 결론을 내리는 데 매우 중요합니다. 

그러나 모든 현대 데이터 리더가 말하는 요점은 다음과 같습니다. 데이터 품질 관리는 어렵습니다. 시간과 노력이 필요합니다. 게다가 ROI(투자 수익)를 측정하기 어려운 경우가 많습니다. 

나쁜 데이터는 얼마나 나쁜가?

잘못된 데이터는 심각한 재정적 손실로 이어질 수 있습니다. Gartner는 매년 열악한 데이터 품질로 인해 조직이 평균적으로 $ 12.9 만. 2022 년 Unity 소프트웨어 매출 110억 4.2천만 달러, 시가총액 XNUMX억 달러의 손실을 보고했습니다. 회사는 “대규모 고객으로부터 잘못된 데이터를 수집한 결과”라고 밝혔습니다. 마찬가지로 잘못된 데이터로 인해 에퀴 팩스, 공개 거래 신용 보고 기관은 대출 기관에 부정확한 신용 점수를 보냅니다. 수백만 고객의. 최근에는 데이터 사고로 인해 영국과 아일랜드 항공 교통이 크게 중단되었습니다. 2,000편 이상의 항공편이 취소되어 수십만 명의 여행객이 발이 묶인 것으로 보고되었으며, 항공사의 누적 재정적 손실은 126.5억 XNUMX만 달러로 추산됩니다.

잘못된 데이터의 의미 

데이터는 모든 현대 비즈니스의 핵심입니다. 데이터 팀의 주요 책임은 내부 및 외부 고객에게 제공되는 데이터 제품을 구축하고 유지하는 동시에 조직이 목표를 확장하고 달성할 수 있도록 하는 것입니다. 

조직의 데이터 이니셔티브가 성공할 수 있도록 준비하는 데 있어 데이터 팀의 몇 가지 기본 기대 사항은 다음과 같이 요약될 수 있습니다.

  • 가동 시간 : 데이터는 서비스이므로 필요할 때 사용할 수 있도록 보장하는 것이 중요합니다.
  • 보안 : 규정(예: GDPR 또는 HIPAA)을 준수합니다. 팀은 민감한 정보를 보호하고 데이터 개인정보 보호를 유지하기 위한 조치와 관행을 구현하는 일을 담당합니다.
  • 신뢰성: 데이터와 데이터 플랫폼 모두. 이 중 일부는 가동 시간으로 다루어지지만 전통적인 의미의 데이터 품질과 정확성도 포함됩니다. 
  • 규모 : 데이터 플랫폼은 증가하는 데이터 볼륨, 사용 사례 수 및 비즈니스 요구 사항을 수용할 수 있는 확장성을 허용해야 합니다.
  • 혁신: 데이터는 혁신을 주도해야 하며, 이는 데이터 팀이 데이터 관행 안팎으로 혁신을 가져와 모범을 보이는 것이 중요한 영역입니다. 

데이터 관찰성을 통해 데이터 품질 달성

데이터 관찰 가능성은 수명주기 전반에 걸쳐 데이터 상태를 사전에 모니터링하고 유지 관리하는 솔루션입니다. 로깅, 추적 및 모니터링 기술을 구현함으로써 조직은 데이터 스트림에 대한 가시성을 확보하고 데이터 품질 문제를 신속하게 식별 및 해결하며 분석 대시보드의 중단을 방지합니다. 데이터 활용 능력데이터 소싱, 해석 및 전달과 관련된 작업은 의사 결정자가 데이터를 비즈니스 가치로 효과적으로 변환하는 데 필수적입니다. 데이터 중심 문화를 조성하고 올바른 도구에 투자하는 것은 데이터 관찰 가능성을 통해 데이터 품질을 달성하는 데 중요한 단계입니다. 

데이터 관찰 가능성의 ROI 정량화

데이터 가시성의 ROI를 측정하면 비즈니스 리더가 이 관행에 대한 투자와 관련된 가치와 이점을 이해하는 데 도움이 됩니다. 발생률이나 연간 사건 수, 감지 시간, 해결 시간 등 불량 데이터 비용을 평가하기 위한 출발점으로 정량화할 수 있는 여러 지표가 사용될 수 있습니다.

임팩트 데이터 품질 문제 사업 운영의 규모와 복잡성에 따라 달라질 수 있습니다. 피해를 평가하고 데이터 관측 솔루션에 대한 강력한 사례를 구축하기 위해 우리는 데이터 실무자가 내부적으로 사례를 지원하는 데 사용할 수 있고 쉽게 구현하고 모니터링할 수 있는 5가지 주요 지표를 제안합니다.

  1. 사건의 수와 빈도: 일부 회사에서는 매일 데이터 사고가 발생하는 반면, 다른 회사에서는 몇 주가 아니더라도 며칠 동안 데이터 사고가 발생하지 않을 수도 있습니다. 사고의 중요성은 오랫동안 아무도 사용하지 않은 대시보드에 연결된 오래된 데이터와 같은 "사소한" 것에서부터 서버의 과충전을 유발하고 궁극적으로 다운되는 데이터 중복 문제까지 다양할 수 있습니다(실화, 넷플릭스 2016). 우리는 이것이 데이터 플랫폼의 규모 및 복잡성, 회사 산업(일부 산업은 본질적으로 다른 산업보다 데이터 성숙도가 더 높음), 데이터 아키텍처 유형(중앙 집중형, 분산형, 하이브리드) 등과 연관되어 있는 경우가 많다는 것을 발견했습니다. 다음에 하나의 사건이 발생했을 때 무엇을 찾아야 할지 더 잘 알 수 있으며, 반복되는 사건은 종종 밑에 있는 무언가에 세심한 주의가 필요하다는 좋은 지표입니다.  
  2. 사건 분류: 모든 데이터 사고의 심각도가 동일한 것은 아닙니다. 일부는 사소하고 쉽게 완화될 수 있지만 다른 일부는 심각한 결과를 초래할 수 있습니다. 적절한 에스컬레이션과 우선순위 지정을 위해서는 사고의 중요성을 문서화하는 것이 중요합니다. 이는 데이터 계보를 통해 사고의 다운스트림 영향을 평가하여 중요성을 더 잘 이해할 수 있으므로 중요한 역할을 할 수 있습니다. CEO가 즐겨 사용하는 대시보드나 생산 데이터베이스, 중요한 데이터 제품과 연결된 사고는 심각도가 높을 가능성이 높습니다. 
  3. 평균 감지 시간(MTTD): 데이터와 데이터 팀에 대한 신뢰를 구축하는 데 있어 모든 데이터 실무자의 악몽은 비즈니스 이해관계자가 데이터 품질 문제를 가장 먼저 발견하는 것입니다. 이는 팀의 신뢰성과 회사의 진정한 데이터 기반 역량에 큰 타격을 줄 수 있습니다. 사건을 문서화하고 심각도를 분류하기 시작하면 사건이 어떻게 감지되었는지, 데이터 팀이 이를 확인하는 데 걸린 시간을 추적하는 것도 중요합니다. 이 지표는 사고 관리의 견고성을 나타내는 좋은 지표일 수 있지만 이를 줄이면 사고로 인해 더 많은 피해가 발생할 수 있는 위험이 줄어듭니다. 
  4. 평균 해결 시간(MTTR): 사건이 보고되면 어떻게 되나요? MTTR은 데이터 사고를 인지하고 해결하는 데 소요되는 평균 시간입니다. 해결 시간은 사건의 중요성과 데이터 플랫폼의 복잡성에 의해 크게 영향을 받습니다. 이것이 바로 우리가 이 프레임워크의 목적을 위해 평균을 고려하는 이유입니다.
  5. 평균 생산 시간(MTTP) 새로운 데이터 제품을 출시하는 데 걸리는 평균 시간, 즉 데이터 제품이 출시되는 평균 시간입니다. 이는 분석가가 데이터 과학 모델용 데이터를 "정리"하는 데 소요되는 시간일 수 있습니다. 실제로 따르면 포브스, 데이터 준비는 데이터 과학자 작업의 약 80%를 차지합니다. 데이터를 하나의 제품으로 취급하려는 세상에서는 데이터 품질을 개선하면 출시 시간을 단축하는 데 직접적인 영향을 미칠 수 있습니다. 

위의 정량화 가능한 지표 외에도, 정량화하기는 쉽지 않지만 그만큼 중요한 다른 지표도 불량 데이터의 비용을 살펴볼 때 고려해 볼 가치가 있습니다.

  • 신뢰의 침식: 데이터에서 데이터 팀. 제 생각에는 이는 잘못된 데이터의 가장 위험한 결과입니다. 이는 데이터 팀의 이직이나 회사의 데이터 기반 능력과 진화하는 디지털 환경을 따라잡는 능력에 대한 신뢰 상실과 같은 더 큰 문제를 초래할 수 있습니다. 그리고 한번 깨진 신뢰는 다시 회복하기가 매우 어렵습니다. 이전 경험에서 나는 매우 불안정한 주식 거래 환경에서 데이터가 부정확할 가능성이 높다는 것을 알면서 데이터를 사용하기보다는 오히려 데이터를 사용하지 않고 '경험'과 '직감'에 의존하는 데이터 소비자를 대상으로 작업했습니다. . 
  • 생산성 손실: 잘못된 데이터로 인해 팀은 오류가 발생하면 총격전을 벌이고 수정해야 합니다. 이렇게 계속되는 소방 활동은 지칠 뿐만 아니라 비생산적이기도 합니다. 전략적 계획 및 성장 이니셔티브에 소비할 수 있는 귀중한 시간은 문제 해결에 낭비되어 더 중요한 작업에서 리소스를 전환합니다.
  • 규제 및 평판 위험: 재무 보고에 오류가 있거나 개인 데이터를 잘못 처리하면 막대한 벌금이 부과되거나 법적 분쟁이 발생할 수 있습니다. 규정 준수 문제를 처리하는 것은 재정적 부담은 말할 것도 없고 생산성을 크게 저하시킵니다.
  • 부진한 사업 성과: 데이터 팀 내 생산성 저하 외에도 잘못된 데이터는 회사가 고객 앞에서 디지털 준비 상태와 신뢰성을 확보하는 데 어려움을 겪고 외부 위협에 취약해짐에 따라 전반적인 비즈니스 성과를 방해할 수 있습니다. 

데이터 품질 문제는 데이터에 대한 신뢰 상실, 팀 생산성 및 사기 저하, 규정 위반, 의사결정 품질 저하 등 다양한 문제를 초래할 수 있습니다. 부서 또는 사업부 내에 데이터가 고립되어 있으면 조직의 데이터 환경을 전체적으로 파악하기가 어렵습니다. 이는 비효율적인 의사 결정으로 이어지고, 데이터 문화를 방해하며, GDPR 및 HIPAA와 같은 규정 준수를 위태롭게 할 수 있습니다. 더욱이, 데이터 팀은 데이터 문제를 해결하는 데 과도한 시간을 소비하여 업무 만족도에 부정적인 영향을 미치고 잠재적으로 직원 이탈로 이어질 수 있어 좌절감을 느낄 수 있습니다. 

1x10x100 규칙

사고 관리에서 널리 알려진 원칙인 1x10x100 규칙은 불량한 데이터 품질과 관련된 비용 증가를 강조합니다. 이 규칙에 따르면 진입 시점에서 데이터 품질 문제를 해결하는 데 드는 비용은 원래 비용의 약 1배입니다. 문제가 감지되지 않고 시스템 내에서 확산되면 수정 및 교정 노력을 포함하여 비용이 약 10배까지 증가합니다. 그러나 열악한 데이터 품질이 최종 사용자 또는 의사 결정 단계에 도달하면 운영 중단, 기회 손실, 고객 불만 등 중대한 비즈니스 결과로 인해 비용이 초기 비용의 100배까지 치솟을 수 있습니다. 이 규칙은 나쁜 데이터 품질이 기하급수적으로 미치는 영향을 강조하므로 조직이 데이터 관찰 가능성에 투자하는 것이 중요합니다. 이는 문제가 발생할 경우 다운스트림이 아닌 근본 원인에 더 가깝게 유지하는 데 도움이 됩니다.

결론

데이터 품질 문제는 비즈니스에 큰 영향을 미쳐 리소스 낭비와 기회 상실로 이어집니다. 불량 데이터와 관련된 위험을 예방하고 완화하려면 데이터 관측 가능성에 투자하는 것이 필수적입니다. 정량화 가능한 지표를 활용하고 정량화할 수 없는 요소를 고려함으로써 조직은 데이터 관찰 가능성의 ROI를 측정하고 그 가치를 의사 결정자에게 보여줄 수 있습니다. 데이터 신뢰를 보장하고, 효과적인 도메인 의사결정을 촉진하고, 규정을 준수하고, 만족스러운 데이터 팀을 육성하는 것은 모두 데이터 품질 이니셔티브의 이점을 극대화하는 데 있어 중요한 측면입니다. 데이터 관측 가능성을 수용하는 것은 오늘날의 데이터 중심 세계에서 데이터의 정확성, 신뢰성 및 활용도를 보호하는 전략적 투자입니다. 

풍부한 관찰 가능성 프랙티스를 구축한 조직은 복잡하게 얽혀 있는 환경에 대한 더 많은 가시성을 갖게 되며, 이는 가동 중단 감소, 더 빠른 문제 해결, 앱 안정성에 대한 더 큰 확신, 그리고 궁극적으로 더 많은 수익과 더 행복한 고객으로 이어집니다.

spot_img

최신 인텔리전스

spot_img