ゼファーネットのロゴ

Excelでの予測モデリング–ゼロから線形回帰モデルを作成する方法

日付:


概要

  • わずか数ステップでExcelで予測モデリングを実行できます
  • Excelで線形回帰モデルを構築する方法と、結果を解釈する方法に関するステップバイステップのチュートリアルは次のとおりです

概要

予測モデリングのためのExcel? 本当に?

それは私が主題を持ち出すとき私が通常得る最初の反応です。 Excelの柔軟な性質を活用してデータサイエンスおよび分析プロジェクトの予測モデルを構築する方法を示すと、これに続いて驚異的な外観が続きます。

質問させてください。あなたの周りのショップが顧客データを収集し始めたら、彼らは彼らの商品を販売するためにデータベースの戦略を採用できますか? 彼らは売上を予測したり、販売される可能性のある製品の数を見積もったりできますか?

今、あなたはこれらのことを予測できる複雑な統計モデルを世界でどのように構築するのでしょうか? また、アナリティクスの学習やアナリストの採用は、その範囲を超えている場合があります。 ここに良い知らせがあります-彼らは必要ありません。 Microsoft Excelは、ほとんどの人の頭の上を飛ぶ複雑なコードを記述する必要なく、予測モデルを呼び出す機能を提供します。

MS Excelの線形回帰のような単純なモデルを簡単に構築でき、いくつかの簡単な手順で分析を実行できます。 予測モデリングを実行するために、ExcelやStatisticsのマスターである必要はありません。

この記事では、Excelで線形回帰モデルを構築する方法と、結果を分析してスーパースターアナリストになる方法を説明します。

これは、私のExcel for AnalystsシリーズのXNUMX番目の記事です。 以前の記事を読んで、より効率的なアナリストになることを強くお勧めします。

ExcelとBusiness Analyticsの初心者は、以下のリソースを確認することをお勧めします。

目次

  1. 線形回帰とは何ですか?
  2. Excelですべての重要なAdd Analytics ToolPakを取得する
  3. Excelでの線形回帰の実装
  4. 予測モデルの結果の解釈
  5. モデルをどのように改善できますか?
  6. Excelで予測!

線形回帰とは何ですか?

線形回帰は、ほとんどの人が学ぶ最初の機械学習手法です。 また、業界で最も一般的に使用されている教師あり学習手法です。

しかし、線形回帰とは何ですか?

これは、従属変数(予測する変数)と独立変数(予測に使用される因子)の間の関係を統計的にモデル化する線形アプローチです。 線形回帰により、次のような方程式が得られます。

ここでは、従属変数としてYがあり、Xは独立変数で、すべてのCは係数です。 係数は、基本的に、重要度に基づいて機能に割り当てられた重みです。

回帰を実行する最も一般的な方法は、OLS(通常の最小二乗)です。 その目標は、平方和を減らして、次のような最適なラインを生成することです。

線形回帰について詳しく知りたい場合は、次のリソースをご覧ください。

重要な分析ツールパックExcelアドインの入手

Excelで回帰分析を実行するには、まずExcelの 分析ツールパックアドイン。 ExcelのAnalysisToolPakは、統計分析およびエンジニアリング分析用のデータ分析ツールを提供するアドインプログラムです。

ブックに追加するには、次の手順に従います。

ステップ1-Excelオプション

に行く -> オプション:

ステップ2 –分析ツールパックを見つける

に行く アドイン 左側のパネル-> Excelアドインを管理する -> Go:

ステップ3 –分析ツールパックを追加する

"を選択します。分析ツール」を押して OK:

Excelに分析ツールパックを追加しました。 あなたはに行くことによってそれを確認することができます 且つ リボンのバー。

Excelで予測モデルの構築を始めましょう!

Excelでの線形回帰の実装

これまでのところ、多くのものは理論的なものでした。 では、Excelを詳しく見て、線形回帰分析を実行しましょう。

これが私たちが取り組む問題文です:

ウィンデンの町には靴の販売会社があります。 同社は、次の要因を考慮して、各顧客の売上を予測したいと考えています。顧客の収入、店からの家までの距離、顧客の週あたりの実行頻度。

ステップ1 –回帰を選択

に行く 且つ -> データ解析:

Data ToolPakのData Analysisに移動し、Regressionを選択して、 OK:

ステップ2 –オプションを選択

このステップでは、次のような分析に必要なオプションをいくつか選択します。

  • 入力y範囲–独立因子の範囲
  • 入力x範​​囲–従属因子の範囲
  • 出力範囲–結果を表示するセルの範囲

その他のオプションは任意であり、特定の目的に合わせて選択できます。

イベント OK そして、ついにXNUMXつのステップでExcelで回帰分析を行いました! 簡単ではなかったですか? これで、回帰分析の結果がExcelで表示されます。

Excelで予測モデルの結果を分析する

線形回帰モデルの実装は簡単な部分でした。 ここで、分析のトリッキーな側面が現れます。Excelで予測モデルの結果を解釈します。

要約では、3つのタイプの出力があり、それらをXNUMXつずつ説明します。

  • 回帰統計表
  • 分散分析表
  • 回帰係数表
  • 残差テーブル

回帰統計表

回帰統計表は、最適な線が独立変数と従属変数間の線形関係をどの程度適切に定義しているかを示しています。 最も重要なXNUMXつの指標は、R二乗値と調整済みR二乗値です。

  R-二乗 統計はの指標です フィット感 これは、どの程度の分散が最良適合線によって説明されるかを示します。 R二乗値の範囲は0〜1です。この場合、R二乗値は0.953です。これは、ラインが分散の95%を説明できることを意味します。これは良い兆候です。

しかし、問題があります。変数を追加し続けると、変数の効果がなくてもRのXNUMX乗値が増加し続けます。 調整済みR二乗 この問題を解決し、はるかに信頼性の高いメトリックです。

分散分析表

ANOVAは分散分析の略です。 この表は、二乗和をそのコンポーネントに分解して、モデル内の変動の詳細を示します。

非常に重要な指標が含まれています 有意性F (または P値)、モデルが統計的に有意であるかどうかを示します。 簡単に言えば、結果はランダム性ではなく、根本的な原因による可能性が高いことを意味します。 p値に最も使用されるしきい値は0.05です。 これよりも小さい値を取得している場合は、実行しても問題ありません。 そうでなければ、独立変数の別のセットを選択する必要があります。

私たちのケースでは、0.05のしきい値をはるかに下回る値があります。 すばらしい、これで前進できます!

回帰係数表

係数テーブルは、係数の形で回帰直線の構成要素を分類します。 これらから多くのことが理解できます。

ウィンデンシューズ会社の場合、ユニットごとに 収入、販売は0.08単位増加し、XNUMX単位の増加 店舗からの距離 508単位増加します!

の増加のようです 実行頻度 売り上げは24単位減少しますが、実際にこの機能を信じられますか? 上の画像を見ると、p値が0.5より大きいことがわかります。つまり、統計的に有意ではありません。 この状況をどのように処理できるかについては、次のセクションで説明します。

残差テーブル

残差テーブルは、予測値が実際の値とどの程度異なるかを反映しています。 これは、モデルによって予測された値で構成されています。

モデルをどのように改善できますか?

以前に見たように、変数のp値 実行頻度 は0.05を超えるため、分析からこの変数を削除して結果を確認してみましょう。

上記のすべての手順に従いますが、実行周波数の列は含めません。

ここでは、調整されたR二乗の値が0.920から0.929にわずかに改善したことに気づきました。

Excelで予測!

回帰分析の準備ができたので、今何ができますか? どれどれ。

あなたのAleksanderという名前の古い顧客が入り、私たちは彼からの売上を予測したいと考えています。 線形回帰モデルのデータから数値を接続するだけで、準備完了です。

Aleksanderの収入は40万人で、店舗から2 km離れた場所に住んでいます。 予想売上高は?

方程式は次のようになります。

ここで、私たちのモデルは、アレクサンダー氏が新しい靴を購入するために4218ユニットを支払うと見積もっています! これが、Microsoft Excelで簡単に実行できる線形回帰の威力です。

エンドノート

この記事では、Excelで線形回帰モデルを構築する方法と、結果を解釈する方法を学びました。 このガイドが、アナリストまたはデータサイエンティストとしてより良いものになるのに役立つことを願っています。

Analytics ToolPakは、Excelの他の多くの分析選択肢で構成されています。 あなたはあなたの日常生活の中で他の多くの統計分析を試すことができます!

この記事は、モバイルアプリでも読むことができます。 Googleのプレイでそれを取得する

関連記事

出典:https://www.analyticsvidhya.com/blog/2020/06/predictive-modeling-excel-linear-regression/

スポット画像

最新のインテリジェンス

スポット画像