Logo Zephyrnet

Giới thiệu Khái niệm kết cấu phân tích dữ liệu – DATAVERSITY

Ngày:

Các tổ chức trên toàn thế giới – cả tổ chức lợi nhuận và tổ chức phi lợi nhuận – đang xem xét việc tận dụng phân tích dữ liệu để cải thiện hiệu quả kinh doanh. Những phát hiện từ một Cuộc khảo sát của McKinsey chỉ ra rằng các tổ chức dựa trên dữ liệu có khả năng thu hút khách hàng cao gấp 23 lần, khả năng giữ chân khách hàng cao gấp 19 lần và mang lại lợi nhuận cao hơn 1 lần [XNUMX]. Nghiên cứu của MIT nhận thấy rằng các công ty trưởng thành về mặt kỹ thuật số có lợi nhuận cao hơn 26% so với các công ty cùng ngành [2]. Nhưng nhiều công ty, mặc dù có nguồn dữ liệu phong phú, vẫn gặp khó khăn trong việc triển khai phân tích dữ liệu do các ưu tiên xung đột giữa nhu cầu kinh doanh, khả năng sẵn có và nguồn lực. Nghiên cứu của Gartner nhận thấy rằng hơn 85% dự án dữ liệu và phân tích thất bại [3] và báo cáo chung từ IBM và Carnegie Melon cho thấy 90% dữ liệu trong một tổ chức không bao giờ được sử dụng thành công cho bất kỳ mục đích chiến lược nào [4].

Với bối cảnh này, chúng tôi giới thiệu khái niệm “kết cấu phân tích dữ liệu (DAF)”, như một hệ sinh thái hoặc cấu trúc cho phép phân tích dữ liệu hoạt động hiệu quả dựa trên (a) nhu cầu hoặc mục tiêu kinh doanh, (b) các khả năng sẵn có như con người/kỹ năng , quy trình, văn hóa, công nghệ, hiểu biết sâu sắc, năng lực ra quyết định, v.v. và (c) nguồn lực (tức là các thành phần mà doanh nghiệp cần để vận hành doanh nghiệp).

Mục tiêu chính của chúng tôi khi giới thiệu cơ cấu phân tích dữ liệu là để trả lời câu hỏi cơ bản này: “Cần những gì để xây dựng hiệu quả một hệ thống hỗ trợ quyết định từ Khoa học dữ liệu thuật toán để đo lường và cải thiện hiệu quả kinh doanh?” Cấu trúc phân tích dữ liệu và năm biểu hiện chính của nó được trình bày và thảo luận bên dưới.

Nguồn hình ảnh: Viện DBP

1. Tập trung vào đo lường

Về cốt lõi, phân tích là sử dụng dữ liệu để rút ra thước đo hiểu biết sâu sắc và cải thiện hiệu suất kinh doanh [5]. Có ba loại phân tích chính để đo lường và cải thiện hiệu quả kinh doanh:

  • Phân tích mô tả đặt câu hỏi, "Chuyện gì đã xảy ra?" Phân tích mô tả được sử dụng để phân tích dữ liệu lịch sử nhằm xác định các mẫu, xu hướng và mối quan hệ bằng cách sử dụng các kỹ thuật phân tích dữ liệu khám phá, kết hợp và suy luận. Kỹ thuật phân tích dữ liệu thăm dò phân tích và tóm tắt các tập dữ liệu. Phân tích mô tả kết hợp giải thích mối quan hệ giữa các biến. Phân tích dữ liệu mô tả suy luận được sử dụng để suy luận hoặc kết luận xu hướng về dân số lớn hơn dựa trên tập dữ liệu mẫu. 
  • Phân tích dự đoán xem xét việc trả lời câu hỏi, “Điều gì sẽ xảy ra?” Về cơ bản, phân tích dự đoán là quá trình sử dụng dữ liệu để dự báo các xu hướng và sự kiện trong tương lai. Phân tích dự đoán có thể được tiến hành thủ công (thường được gọi là phân tích dự đoán do nhà phân tích điều khiển) hoặc sử dụng thuật toán học máy (còn được gọi là phân tích dự đoán dựa trên dữ liệu). Dù bằng cách nào, dữ liệu lịch sử sẽ được sử dụng để đưa ra dự đoán trong tương lai.
  • Phân tích mô tả giúp trả lời câu hỏi “Làm thế nào chúng ta có thể biến điều đó thành hiện thực?” Về cơ bản, phân tích theo quy định đề xuất phương án hành động tốt nhất để tiến về phía trước bằng cách sử dụng các kỹ thuật mô phỏng và tối ưu hóa. Thông thường, phân tích dự đoán và phân tích theo quy định đi đôi với nhau vì phân tích dự đoán giúp tìm ra các kết quả tiềm năng, trong khi phân tích theo quy định xem xét các kết quả đó và tìm ra nhiều lựa chọn hơn.

2. Tập trung vào biến đổi

Dữ liệu cũng có thể được phân tích dựa trên số lượng biến có sẵn. Về vấn đề này, dựa trên số lượng biến, các kỹ thuật phân tích dữ liệu có thể là đơn biến, hai biến hoặc đa biến.

  • Phân tích đơn biến: Phân tích đơn biến bao gồm việc phân tích mẫu có trong một biến duy nhất bằng cách sử dụng các thước đo về mức độ trung tâm (trung bình, trung vị, chế độ, v.v.) và độ biến thiên (độ lệch chuẩn, sai số chuẩn, phương sai, v.v.).
  • Phân tích nhị biến: Có hai biến trong đó việc phân tích có liên quan đến nguyên nhân và mối quan hệ giữa hai biến. Hai biến này có thể phụ thuộc hoặc độc lập với nhau. Kỹ thuật tương quan là kỹ thuật phân tích hai biến được sử dụng nhiều nhất.
  • Phân tích đa biến: Kỹ thuật này được sử dụng để phân tích nhiều hơn hai biến. Trong cài đặt đa biến, chúng tôi thường hoạt động trong lĩnh vực phân tích dự đoán và hầu hết các thuật toán học máy (ML) nổi tiếng như hồi quy tuyến tính, hồi quy logistic, cây hồi quy, máy vectơ hỗ trợ và mạng thần kinh thường được áp dụng cho đa biến cài đặt.

3. Tập trung vào giám sát

Loại kết cấu phân tích dữ liệu thứ ba liên quan đến việc đào tạo dữ liệu đầu vào hoặc dữ liệu biến độc lập đã được gắn nhãn cho một đầu ra cụ thể (tức là biến phụ thuộc). Về cơ bản, biến độc lập là biến mà người thử nghiệm kiểm soát. Biến phụ thuộc là biến thay đổi theo biến độc lập. DAF tập trung vào giám sát có thể là một trong hai loại.

  • nhân quả: Dữ liệu được gắn nhãn, dù được tạo tự động hay thủ công, đều cần thiết cho việc học có giám sát. Dữ liệu được gắn nhãn cho phép người ta xác định rõ ràng một biến phụ thuộc và sau đó, thuật toán phân tích dự đoán sẽ xây dựng một công cụ AI/ML để xây dựng mối quan hệ giữa nhãn (biến phụ thuộc) và tập hợp các biến độc lập. Thực tế là chúng tôi có ranh giới rõ ràng giữa khái niệm biến phụ thuộc và tập hợp các biến độc lập, chúng tôi cho phép mình đưa ra thuật ngữ “quan hệ nhân quả” để giải thích rõ nhất mối quan hệ.
  • Tính không nhân quả: Khi chúng tôi chỉ ra “tập trung vào giám sát” là khía cạnh của chúng tôi, chúng tôi cũng muốn nói đến “sự vắng mặt của giám sát” và điều đó đưa các mô hình phi nhân quả vào cuộc thảo luận. Các mô hình phi nhân quả đáng được đề cập vì chúng không yêu cầu dữ liệu được dán nhãn. Kỹ thuật cơ bản ở đây là phân cụm và các phương pháp phổ biến nhất là k-Means và Phân cụm phân cấp.  

4. Tập trung vào kiểu dữ liệu

Thứ nguyên hoặc biểu hiện này của kết cấu phân tích dữ liệu tập trung vào ba loại biến dữ liệu khác nhau liên quan đến cả biến độc lập và biến phụ thuộc được sử dụng trong kỹ thuật phân tích dữ liệu để thu được thông tin chi tiết. 

  • Dữ liệu ẩn danh được sử dụng để ghi nhãn hoặc phân loại dữ liệu. Nó không liên quan đến giá trị số và do đó không thể tính toán thống kê với dữ liệu danh nghĩa. Ví dụ về dữ liệu danh nghĩa là giới tính, mô tả sản phẩm, địa chỉ khách hàng và những thứ tương tự. 
  • Dữ liệu thứ tự hoặc xếp hạng là thứ tự của các giá trị, nhưng sự khác biệt giữa mỗi giá trị không thực sự được biết đến. Các ví dụ phổ biến ở đây là xếp hạng các công ty dựa trên vốn hóa thị trường, điều khoản thanh toán của nhà cung cấp, điểm hài lòng của khách hàng, mức độ ưu tiên giao hàng, v.v. 
  • Dữ liệu số không cần giới thiệu và có giá trị bằng số. Các biến này là loại dữ liệu cơ bản nhất có thể được sử dụng để mô hình hóa tất cả các loại thuật toán.  

5. Tập trung vào kết quả

Loại kết cấu phân tích dữ liệu này xem xét các cách thức mà giá trị doanh nghiệp có thể được phân phối từ những hiểu biết sâu sắc thu được từ phân tích. Có hai cách mà giá trị doanh nghiệp có thể được thúc đẩy bởi phân tích và đó là thông qua các sản phẩm hoặc dự án. Mặc dù các sản phẩm có thể cần giải quyết các phân nhánh bổ sung xung quanh trải nghiệm người dùng và công nghệ phần mềm, nhưng bài tập lập mô hình được thực hiện để tạo ra mô hình sẽ giống nhau ở cả dự án và sản phẩm.

  • A sản phẩm phân tích dữ liệu là tài sản dữ liệu có thể tái sử dụng để phục vụ nhu cầu lâu dài của doanh nghiệp. Nó thu thập dữ liệu từ các nguồn dữ liệu có liên quan, đảm bảo chất lượng dữ liệu, xử lý dữ liệu và giúp bất kỳ ai cần dữ liệu đều có thể truy cập được. Các sản phẩm thường được thiết kế dành cho cá nhân và có nhiều giai đoạn hoặc vòng đời lặp lại để tạo ra giá trị sản phẩm.
  • dự án phân tích dữ liệu được thiết kế để giải quyết một nhu cầu kinh doanh cụ thể hoặc duy nhất và có cơ sở hoặc mục đích người dùng được xác định hoặc thu hẹp. Về cơ bản, dự án là một nỗ lực tạm thời nhằm cung cấp giải pháp cho một phạm vi xác định, trong phạm vi ngân sách và đúng thời hạn.

Nền kinh tế thế giới sẽ chuyển đổi đáng kể trong những năm tới khi các tổ chức sẽ ngày càng sử dụng dữ liệu và phân tích để rút ra những hiểu biết sâu sắc và đưa ra quyết định nhằm đo lường và cải thiện hiệu quả kinh doanh. McKinsey nhận thấy rằng các công ty có báo cáo dựa trên cái nhìn sâu sắc EBITDA (thu nhập trước lãi vay, thuế, khấu hao và khấu hao) tăng lên tới 25% [5]. Tuy nhiên, nhiều tổ chức không thành công trong việc tận dụng dữ liệu và phân tích để cải thiện kết quả kinh doanh. Nhưng không có một cách hay cách tiếp cận tiêu chuẩn nào để cung cấp phân tích dữ liệu. Việc triển khai hoặc triển khai các giải pháp phân tích dữ liệu phụ thuộc vào mục tiêu, khả năng và nguồn lực kinh doanh. DAF và năm biểu hiện của nó được thảo luận ở đây có thể cho phép triển khai phân tích một cách hiệu quả dựa trên nhu cầu kinh doanh, khả năng sẵn có và tài nguyên.

dự án

  1. mckinsey.com/capabilities/growth-marketing-and-sale/our-insights/XNUMX-facts-how-customer-analytics-boosts-corporate-performance
  2. ide.mit.edu/insights/digitally-mature-firms-are-26-more-profitable-than-their-peers/
  3. gatner.com/en/newsroom/press-releases/2018-02-13-gartner-says-near-half-of-cios-are-planning-to-deploy-artificial-intelligence
  4. forbes.com/sites/forbestechcouncil/2023/04/04/three-key-misconceptions-of-data-quality/?sh=58570fc66f98
  5. Southekal, Prashanth, “Các phương pháp hay nhất về phân tích”, Kỹ thuật, 2020
  6. mckinsey.com/capabilities/growth-marketing-and-sale/our-insights/insights-to-impact-creating-and-sustaining-data-driven-commercial-growth
tại chỗ_img

Tin tức mới nhất

tại chỗ_img