I.はじめに
データは、データサイエンスと機械学習で中心的な役割を果たします。 ほとんどの場合、分析またはモデル構築に使用されるデータはすぐに利用でき、無料であると想定しています。 データがない場合があり、完全なデータセットを取得できない場合や、収集に時間がかかりすぎる場合があります。 この場合、迅速かつ効率的に取得できるデータの最良のサブセットを収集する方法を設計する必要があります。 データを収集するための実験を設計するプロセスは、 実験計画。 実験計画の例としては、調査や臨床試験があります。
この記事では、データ収集のための実験を設計および実行する際に留意すべき4つの主な要因について説明します。
II。 データ収集のための実験を設計する際に留意すべき要因
このセクションでは、データ収集のための実験を設計する際に考慮すべき4つの主な要因について説明します。
1。 時間
妥当な期間内に実験を設計および実装できることを確認する必要があります。 たとえば、特定の組織のカスタマーサービス部門が通話数の急激な増加を経験しているとします。 組織は、従業員と顧客が参加できる調査を設計できます。 これは迅速かつタイムリーな方法で行う必要があります。これにより、収集されたデータを分析し、顧客体験の向上に役立つデータ駆動型の意思決定に使用できます。 実験の計画と収集されたデータの分析がタイムリーに実行されないと、売上と利益に悪影響を及ぼす可能性があります。
2.データ量
実験の設計では、実験から収集したデータが、必要な質問に答えるのに十分であることを確認する必要があります。 収集されるデータの量は、母集団に比べて少なくなければなりません。そうでなければ、収集に時間がかかりすぎます。 サンプルデータは、母集団全体を表すものでなければなりません。 たとえば、医薬品の有効性を研究するために設計された実験は、人口統計学的に代表的なものである必要があります(さまざまな年齢層、性別、民族性などを含める必要があります)。
3.重要な要素を決定する
データ収集のための実験を設計する場合、従属変数または予測子が何であるかを決定する必要があります。 たとえば、実験の目的が特定の地域の住宅価格を推定できるデータを収集することである場合、寝室数、浴室数などの予測子または機能に基づいて住宅価格を予測することができます。平方フィート、郵便番号、学区、建設年、HOAなど。重要な機能と制御機能を理解することが重要です。
4。 コスト
データを収集するための実験の設計は非常にコストがかかる可能性があります。 実験の実行にはコストも伴います。 たとえば、調査に参加している参加者は、参加を奨励するインセンティブとして報酬を受けることができます。 実験を設計する前に、実験を実行するためのコストを見積もり、実験のメリットがリスクを上回るかどうかを確認することが重要です。 たとえば、調査の結果が顧客体験を改善し、利益を増やすことができる場合、投資は価値があります。
III。 概要
要約すると、データ収集の実験を設計するときに考慮しなければならないいくつかの要因について説明しました。 主な目標は、データの最良のサブセットを迅速かつ効率的に収集する方法を設計することです。
追加のデータサイエンス/機械学習リソース
- データサイエンス最小:データサイエンスを始めるために知っておくべき10の必須スキル
- データサイエンスカリキュラム
- 機械学習に不可欠な数学のスキル
- 3 Best Data Science MOOCスペシャライゼーション
- データサイエンスに入るための5つの最高の学位
- 5年にデータサイエンスの旅を開始すべき2020つの理由
- データサイエンスの理論的基盤—実践的なスキルを重視するか、単に集中するべきか?
- 機械学習プロジェクトの計画
- データサイエンスプロジェクトを整理する方法
- 大規模データサイエンスプロジェクトの生産性向上ツール
- データサイエンスポートフォリオは、履歴書よりも価値があります
- データサイエンス101 — RおよびPythonコードを含む中規模プラットフォームの短期コース
質問やお問い合わせはメールでお願いします:benjaminobi@gmail.com
バイオ: ベンジャミン・オビ・タヨ博士 セントラルオクラホマ大学の物理学教授であり、データサイエンス、機械学習、AI、PythonおよびR、予測分析、材料科学、生物物理学に関心を持つデータサイエンスの教育者およびライターです。
元の。 許可を得て転載。
関連する
過去30日間の人気記事
|
|
出典:https://www.kdnuggets.com/2020/09/design-experiments-data-science.html