제퍼넷 로고

데이터 분석 패브릭 개념 소개 – DATAVERSITY

시간

영리 및 비영리 조직을 막론하고 전 세계의 조직은 비즈니스 성과 개선을 위해 데이터 분석을 활용하는 방법을 모색하고 있습니다. 다음에서 얻은 결과 맥킨지 설문조사 데이터 기반 조직은 고객을 확보할 가능성이 23배, 고객을 유지할 가능성이 19배, 수익성이 1배 더 높다는 것을 나타냅니다[XNUMX]. MIT의 연구 디지털적으로 성숙한 기업은 동종 기업보다 수익성이 26% 더 높은 것으로 나타났습니다[2]. 그러나 많은 기업은 데이터가 풍부함에도 불구하고 비즈니스 요구 사항, 사용 가능한 기능 및 리소스 간의 우선순위 상충으로 인해 데이터 분석을 구현하는 데 어려움을 겪고 있습니다. 가트너의 연구 데이터 및 분석 프로젝트의 85% 이상이 실패한다는 사실이 밝혀졌습니다[3]. 공동 보고서 IBM과 Carnegie Melon의 연구에 따르면 조직 내 데이터의 90%는 어떤 전략적 목적으로도 성공적으로 사용되지 않습니다[4].

이러한 배경에서 우리는 (a) 비즈니스 요구 사항이나 목표, (b) 사람/기술과 같은 사용 가능한 기능을 기반으로 데이터 분석이 효과적으로 작동할 수 있도록 하는 생태계 또는 구조로서 "데이터 분석 패브릭(DAF)" 개념을 소개합니다. , 프로세스, 문화, 기술, 통찰력, 의사 결정 역량 등 (c) 리소스(즉, 기업이 비즈니스를 운영하는 데 필요한 구성 요소).

데이터 분석 패브릭을 도입하는 우리의 주요 목표는 다음과 같은 근본적인 질문에 대답하는 것입니다. "의사 결정 시스템을 효과적으로 구축하려면 무엇이 필요합니까?" 데이터 과학 비즈니스 성과를 측정하고 개선하는 알고리즘이 있습니까?” 데이터 분석 패브릭과 그 다섯 가지 주요 표현은 아래에 표시되고 논의됩니다.

이미지 소스 : DBP 연구소

1. 측정 중심

분석의 핵심은 데이터를 사용하여 비즈니스 성과를 측정하고 개선하는 통찰력을 얻는 것입니다[5]. 비즈니스 성과를 측정하고 개선하기 위한 세 가지 주요 분석 유형이 있습니다.

  • 설명 적 분석 “무슨 일이 있었나요?”라고 질문합니다. 설명 분석은 탐색적, 연관적, 추론적 데이터 분석 기술을 사용하여 과거 데이터를 분석하여 패턴, 추세 및 관계를 식별하는 데 사용됩니다. 탐색적 데이터 분석 기술은 데이터 세트를 분석하고 요약합니다. 연관 기술 분석은 변수 간의 관계를 설명합니다. 추론적 설명 데이터 분석은 샘플 데이터 세트를 기반으로 더 큰 모집단에 대한 추세를 추론하거나 결론을 내리는 데 사용됩니다. 
  • 예측 분석 “무슨 일이 일어날까요?”라는 질문에 대답하는 것입니다. 기본적으로 예측 분석은 데이터를 사용하여 미래 추세와 이벤트를 예측하는 프로세스입니다. 예측 분석은 수동(일반적으로 분석가 중심 예측 분석이라고 함)으로 수행하거나 다음을 사용하여 수행할 수 있습니다. 기계 학습 알고리즘 (데이터 기반 예측 분석이라고도 함) 어느 쪽이든 과거 데이터를 사용하여 미래를 예측합니다.
  • 처방적 분석 “어떻게 하면 실현할 수 있나요?”라는 질문에 답하는 데 도움이 됩니다. 기본적으로 규범적 분석은 최적화 및 시뮬레이션 기술을 사용하여 앞으로 나아가기 위한 최선의 조치를 권장합니다. 일반적으로 예측 분석과 처방 분석은 함께 사용됩니다. 예측 분석은 잠재적인 결과를 찾는 데 도움이 되고, 처방 분석은 이러한 결과를 살펴보고 더 많은 옵션을 찾기 때문입니다.

2. 가변 중심

사용 가능한 변수의 수를 기반으로 데이터를 분석할 수도 있습니다. 이와 관련하여 변수의 수에 따라 데이터 분석 기술은 일변량, 이변량 또는 다변량일 수 있습니다.

  • 일변량 분석: 일변량 분석에는 중심성(평균, 중앙값, 모드 등) 및 변동(표준편차, 표준 오차, 분산 등) 측정값을 사용하여 단일 변수에 존재하는 패턴을 분석하는 작업이 포함됩니다.
  • 이변량 분석: 분석에는 원인과 두 변수 사이의 관계와 관련된 두 가지 변수가 있습니다. 이 두 변수는 서로 종속적이거나 독립적일 수 있습니다. 상관관계 기법은 가장 많이 사용되는 이변량 분석 기법이다.
  • 다변량 분석: 이 기술은 두 개 이상의 변수를 분석하는 데 사용됩니다. 다변량 설정에서 우리는 일반적으로 예측 분석 분야에서 작업하며 선형 회귀, 로지스틱 회귀, 회귀 트리, 지원 벡터 머신 및 신경망과 같은 잘 알려진 대부분의 기계 학습(ML) 알고리즘이 일반적으로 다변량에 적용됩니다. 환경.

3. 감독 중심

세 번째 유형의 데이터 분석 패브릭은 입력 데이터 또는 특정 출력(예: 종속 변수)에 대해 레이블이 지정된 독립 변수 데이터의 훈련을 다룹니다. 기본적으로 독립변수는 실험자가 통제하는 변수이다. 종속변수는 독립변수에 따라 변화하는 변수이다. 감독 중심 DAF는 두 가지 유형 중 하나일 수 있습니다.

  • 인과 관계: 자동 또는 수동으로 생성된 레이블이 지정된 데이터는 지도 학습에 필수적입니다. 레이블이 지정된 데이터를 사용하면 종속 변수를 명확하게 정의할 수 있으며, 레이블(종속 변수)과 독립 변수 집합 간의 관계를 구축하는 AI/ML 도구를 구축하는 것은 예측 분석 알고리즘의 문제입니다. 종속 변수의 개념과 독립 변수 집합 사이에 뚜렷한 구분이 있다는 사실을 통해 관계를 가장 잘 설명하기 위해 "인과성"이라는 용어를 도입할 수 있습니다.
  • 비인과성: 우리가 차원으로 "감독 중심"을 나타낼 때 "감독의 부재"를 의미하기도 하며 이는 비인과 모델을 논의에 포함시킵니다. 비인과 모델은 레이블이 지정된 데이터가 필요하지 않기 때문에 언급할 가치가 있습니다. 여기서의 기본 기술은 클러스터링이며 가장 널리 사용되는 방법은 k-Means 및 Hierarchical Clustering입니다.  

4. 데이터 유형 중심

데이터 분석 패브릭의 이러한 차원 또는 표현은 통찰력을 도출하기 위해 데이터 분석 기술에 사용되는 독립 변수와 종속 변수 모두와 관련된 세 가지 다른 유형의 데이터 변수에 중점을 둡니다. 

  • 공칭 데이터 데이터에 라벨을 붙이거나 분류하는 데 사용됩니다. 이는 숫자 값을 포함하지 않으므로 명목 데이터로는 통계 계산이 불가능합니다. 명목 데이터의 예로는 성별, 제품 설명, 고객 주소 등이 있습니다. 
  • 순서 또는 순위 데이터 값의 순서이지만 각 값 간의 차이점은 실제로 알려져 있지 않습니다. 여기서 일반적인 예로는 시가총액, 공급업체 지불 조건, 고객 만족도 점수, 배송 우선순위 등을 기준으로 회사 순위를 매기는 것입니다. 
  • 수치 데이터 소개가 필요 없으며 가치가 수치입니다. 이러한 변수는 모든 유형의 알고리즘을 모델링하는 데 사용할 수 있는 가장 기본적인 데이터 유형입니다.  

5. 결과 중심

이러한 유형의 데이터 분석 패브릭은 분석에서 파생된 통찰력을 통해 비즈니스 가치를 제공할 수 있는 방식을 살펴봅니다. 분석을 통해 비즈니스 가치를 창출할 수 있는 방법에는 두 가지가 있으며, 이는 제품이나 프로젝트를 통해 이루어집니다. 제품은 사용자 경험 및 소프트웨어 엔지니어링과 관련된 추가적인 영향을 해결해야 할 수 있지만 모델을 도출하기 위해 수행되는 모델링 작업은 프로젝트와 제품 모두에서 유사합니다.

  • A 데이터 분석 제품 비즈니스의 장기적인 요구 사항을 충족하는 재사용 가능한 데이터 자산입니다. 관련 데이터 소스에서 데이터를 수집하고, 데이터 품질을 보장하고, 처리하며, 필요한 사람은 누구나 액세스할 수 있도록 합니다. 제품은 일반적으로 페르소나를 위해 설계되며 제품 가치가 실현되는 여러 수명주기 단계 또는 반복을 갖습니다.
  • 데이터 분석 프로젝트 특정하거나 고유한 비즈니스 요구를 해결하도록 설계되었으며 사용자 기반이나 목적이 정의되거나 한정되어 있습니다. 기본적으로 프로젝트는 예산 내에서 시간 내에 정의된 범위에 대한 솔루션을 제공하기 위한 일시적인 노력입니다.

조직이 점점 더 데이터와 분석을 사용하여 통찰력을 얻고 비즈니스 성과를 측정하고 개선하기 위한 의사결정을 내리게 되면서 세계 경제는 향후 몇 년 동안 극적으로 변화할 것입니다. 맥킨지 통찰력 중심 기업은 EBITDA(이자, 세금, 감가상각 및 상각 전 수익)가 최대 25% 증가한 것으로 나타났습니다[5]. 그러나 많은 조직에서는 비즈니스 성과 개선을 위해 데이터와 분석을 성공적으로 활용하지 못하고 있습니다. 그러나 데이터 분석을 제공하는 하나의 표준적인 방법이나 접근 방식은 없습니다. 데이터 분석 솔루션의 배포 또는 구현은 비즈니스 목표, 기능 및 리소스에 따라 달라집니다. 여기에서 설명하는 DAF와 XNUMX가지 표현을 통해 비즈니스 요구 사항, 사용 가능한 기능 및 리소스를 기반으로 분석을 효과적으로 배포할 수 있습니다.

참고자료

  1. mckinsey.com/capability/growth-marketing-and-sales/our-insights/five-facts-how-customer-analytics-boosts-corporate-performance
  2. ide.mit.edu/insights/digitally-mature-firms-are-26-more-profitable-than-their-peers/
  3. gartner.com/en/newsroom/press-releases/2018-02-13-gartner-says-nearly-half-of-cios-are-planning-to-deploy-artificial-intelligence
  4. forbes.com/sites/forbestechcouncil/2023/04/04/three-key-misconceptions-of-data-quality/?sh=58570fc66f98
  5. Southekal, Prashanth, "분석 모범 사례", Technics, 2020
  6. mckinsey.com/capability/growth-marketing-and-sales/our-insights/insights-to-impact-creating-and-sustaining-data-driven-commercial-growth
spot_img

VC 카페

VC 카페

최신 인텔리전스

spot_img