アマゾン予測 は機械学習(ML)を使用して高度に正確な予測を生成するフルマネージドサービスで、事前のML経験は必要ありません。 予測は、エネルギー需要の予測、製品需要の見積もり、人員計画、クラウドインフラストラクチャの使用状況の計算など、さまざまなユースケースに適用できます。
Forecastでは、プロビジョニングするサーバーや手動で構築するMLモデルはありません。 さらに、使用した分に対してのみお支払いいただきます。最低料金や事前の約束はありません。 予測を使用するには、予測対象の履歴データと、オプションで予測に影響を与える可能性があると思われる追加データを提供するだけで済みます。 この関連データには、価格、イベント、天気などの時変データと、色、ジャンル、地域などのカテゴリデータの両方が含まれます。 このサービスは、データに基づいてMLモデルを自動的にトレーニングしてデプロイし、予測を取得するためのカスタムAPIを提供します。
電力および公益事業のプロバイダーにはいくつかの予測ユースケースがありますが、それらの主なものは、顧客レベルと総計レベルの両方でエネルギー消費量を予測することです。 エネルギー消費を正確に予測することは、顧客がサービスの中断に直面せず、低価格を維持しながら安定したグリッドシステムを提供するために重要です。
この投稿では、Forecastを使用して、過去の時系列データを気象などの重要な外生変数と組み合わせることにより、このユースケースに対処する方法について説明します。
ユースケースの背景
電力会社が日常業務を効率的に実行できるようにするには、正確なエネルギー予測が不可欠です。 需要は動的であり、季節の気象変化が影響を与える可能性があるため、エネルギー予測は特に困難です。 次に、最も一般的なXNUMXつの使用例を示します。
- 消費者レベルでの消費電力予測 –多くの国では、競争の激しい小売市場で電力が供給されています。 消費者は電気を購入する選択肢があり、高額な電気代を受け取ったり、顧客体験が悪い場合、プロバイダーを切り替えることができます。 ユーティリティプロバイダーは、顧客サービスを改善し、将来の請求支出アラートに積極的に連絡することで、顧客のチャーンを減らすことができます。 これらのアラートは、個々の顧客レベルでの電力消費を正確に予測することに基づいています。
- 需要と供給をより適切に管理するための総消費電力予測 –電力会社として、総需要と供給のバランスをとる必要があります。 ピーク需要を満たすためにエネルギーを購入したり、スポット市場で余剰容量を販売したりすることがよくあります。 さらに、需要予測は次のような課題に直面しています。
- 風力や太陽光などの再生可能エネルギー資源の導入。 これらは電力会社と最終消費者の両方が所有しており、天候の変化の影響を受けやすく、常に安定した電力を生成するわけではありません。
- 電気自動車の購入の増加と、自動車の所有者が自宅で電気自動車を充電したいという未知の性質。 予測の改善により、より費用対効果の高い先物契約を構築するための事前計画が可能になります。
この投稿では、消費者レベルでの最初のユースケースのソリューションに焦点を当てています。
最初のステップは、データをセットアップして準備することです。 データレイクは、ユーティリティにとって革命的であることが証明されています。 データウェアハウスは、特定の目的で既に処理された構造化およびフィルター処理されたデータのリポジトリです。 対照的に、データレイクは、必要になるまでネイティブ形式で膨大な量の生データを保持するストレージリポジトリです。 これは、何百万もの顧客からのメーターの読み取り値を収集、保存、処理する電力会社や電力会社にとって非常に価値があります。
ソリューションのアーキテクチャ
次の図は、顧客に請求アラートを表示するために実装できるソリューションのアーキテクチャを示しています。
アーキテクチャには次の手順が含まれます。
- 通常、住宅のユーティリティメーターは、エネルギーをXNUMX時間にXNUMX回以上記録し、少なくとも毎日毎日電力会社に報告します。
- さまざまなチャネルを介してデータの取り込みを実装できます。 オンプレミスのデータセンターでデータを収集する場合、データをAWSに送信できます AWSダイレクトコネクト。 メーターにIoT機能がある場合、データを AWS IoTコア MQTTトピック経由。 MQTTは、マシンツーマシン(M2M)/ IoT接続プロトコルです。 非常に軽量なパブリッシュおよびサブスクライブメッセージングトランスポートとして設計されました。 これは、小さなコードフットプリントを必要とする、またはネットワーク帯域幅が貴重なリモートロケーションでの接続に役立ちます。
- あなたが使う アマゾンS3 未加工のメーターデータを保存するにはAmazon S3ベースのデータレイクソリューションは、Amazon S3をプライマリストレージプラットフォームとして使用します。 Amazon S3は、無制限のスケーラビリティーにより、データレイクに最適な基盤を提供します。 ストレージをギガバイトからペタバイトにシームレスに増やし、使用した分だけ支払うことができます。 Amazon S3は、99.999999999%の耐久性を提供するように設計されています。 データをアーカイブするライフサイクルポリシーを設定できます アマゾンS3氷河、より費用対効果が高いです。 詳細については、 最大の柔軟性を実現するビッグデータストレージソリューション(データレイク)の構築.
- 取り込まれたデータは、 生ゾーン。 データが利用可能になると、Amazon S3トリガーが AWSラムダ 関数を処理し、データを別のS3バケットに移動します。 処理済みゾーン.
- あなたはAmazon S3のデータをクエリすることができます アマゾンアテナ。 Athenaは、標準SQLを使用してAmazon S3で直接データを簡単に分析できるインタラクティブなクエリサービスです。 Athenaは、クエリ結果と、Amazon S3で指定できるクエリ結果の場所で実行される各クエリのメタデータ情報を自動的に保存します。
- クエリ結果バケットにアクセスするには アマゾンクイックサイト。 Amazon QuickSightは、視覚化の構築、アドホック分析の実行、およびデータからのビジネスインサイトの取得に使用できるビジネス分析サービスです。 AWSデータソースを自動的に検出し、データソースを操作することもできます。
- Amazon S3からの処理済みデータを使用して、Forecastで予測を行うことができます。 住宅顧客はこれらの結果を使用して将来のエネルギー消費量を確認できます。これにより、エネルギーコストを計算し、より効率的な料金プランに移行したり、必要に応じて将来の使用量を変更したりできます。 あなたは使うことができます クエリAPI そしてそれをモバイルまたはWebアプリケーションと統合して、顧客に将来の需要を可視化し、消費の促進を支援します。 Forecast関連のワークフローの自動化の詳細については、 Lambda、Step Functions、およびCloudWatch Eventsルールを使用してAmazon Forecastワークフローを自動化する.
予測の設定
この投稿では、個別の顧客レベルでエネルギー消費を予測するXNUMXつの異なるアプローチを評価します。XNUMXつは関連する時系列情報なし、もうXNUMXつは関連する時系列データありです。
問題の予測では、 関連する時系列 は、天候や価格などの変数であり、目標値と相関し、統計的強度を目標値(この投稿ではエネルギー需要)の予測に使用します。 より正確には、Forecastは関連する時系列を次のように扱います 外生変数。 これらの変数はモデル仕様の一部ではありませんが、それらを使用して、関連する時系列の現在の値とターゲットの時系列の対応する値の間の相関をキャプチャできます。
関連する時系列を組み込むことによって、常に精度を向上させるとは限りません。 したがって、関連する時系列の追加はすべて、バックテストに基づいて、全体の精度が改善されているか、それを追加しても変化がないかどうかを確認する必要があります。 予測には関連する時系列は必要ありませんが、目標時系列が必要です。 関連する時系列に欠損値やその他の品質の問題がある場合、モデルにノイズが混入しないように、それらを含めない方がよい場合があります。 基本的に、どの関連する時系列が有用であるか、またはそれらを効果的に使用する方法を決定することは、主要な機能エンジニアリングタスクです。
詳細については、を参照してください。 関連する時系列データセットの使用.
ARIMAを使用したエネルギー消費予測モデルの作成
自己回帰統合移動平均(ARIMA)は、時系列の古典的な統計モデルです。 時系列値を、遅れた値と予測誤差の線形結合で表現することにより、過去の値を使用して未来を説明します。 ARIMAは、説明変数付きの自己回帰統合移動平均(ARIMAX)モデルで、または関連する時系列変数や回帰変数なしで使用できます。 ARIMAモデルを適用するとき、適切なモデルの順序を選択するのは難しい場合があります。これは、手動の主観的なプロセスです。 予測では、 auto.arima
データに最適なARIMAモデルを自動的に検索します。
使用される入力データは、個々のエネルギー消費データです。 これは、XNUMXつの属性を持つCSVファイルです。 <CustomerID>
, <Date>
, <Energy consumption amount>
。 エネルギー消費量はkWh(キロワット時)です。 この投稿は557日間の毎日の履歴データを使用しますが、業界ではより一般的な毎時のデータを簡単に使用できます。 Forecastがサポートする周波数の詳細については、 FeaturerizationConfig。 選択したS3バケットにデータファイルをアップロードします。
次のスクリーンショットは、顧客データのスナップショットの例を示しています。
次のグラフは、そのサンプルデータを視覚化したものです。
リソースの作成の詳細については、以下を参照してください。 Amazon Forecast –正式リリース。 主な手順は次のとおりです。
- Amazon Forecastコンソールで、 データセットグループを作成する.
- 名前と予測ドメインを入力します。
- ターゲットの時系列データセットを指定します。
Item_id
ユーティリティです<CustomerID>
.timestamp
日付です<YYYY-MM-DD>
、これは毎日の消費データです。Target_value
消費されるエネルギーです。
- 履歴データをインポートするインポートジョブを作成します。 IAMロールがCSVファイルがアップロードされているS3バケットにアクセスできることを確認してください。
- データをインポートすると、ターゲットの時系列データのステータスがアクティブとして表示されます。
- ソフトウェア設定ページで、下図のように ダッシュボード、 下 予測子をトレーニングする、選択する 開始.
- アルゴリズムについては、この投稿ではARIMAを使用しています。
- 予測変数のトレーニングが完了すると、ダッシュボードのステータスがアクティブとして表示されます。
- 予測を作成します。
予測を正常に作成した後、特定の顧客IDに対してクエリを実行するか、エクスポートジョブを実行してすべての顧客IDの結果を生成できます。 次のスクリーンショットは、IDの予測エネルギー消費量を示しています test
.
このウォークスルーには温度などの要素は含まれていませんでしたが、これは開始して、ターゲットの時系列データを使用してベースラインモデルを確立するための優れた方法です。 また、総需要と供給を満たすためのユーティリティとして、すべての顧客データを潜在的に集計し、将来の消費を予測して、それに応じて供給を計画できます。
DeepAR +を使用したエネルギー消費予測モデルの作成
Forecast DeepAR +アルゴリズムは、リカレントニューラルネットワーク(RNN)を使用してスカラー(XNUMX次元)時系列を予測するための教師あり学習アルゴリズムです。 ARIMAや指数平滑法(ETS)などの従来の予測方法は、単一のモデルを個々の時系列に適合させます。 対照的に、DeepAR +は、時系列全体で学習する潜在的な利点を備えたグローバルモデル(すべての時系列に対してXNUMXつのモデル)を作成します。
DeepAR +モデルは、特定の時系列が限られた量の情報しか持たない、ターゲットの時系列の大規模なコレクション(数千以上)を操作する場合に特に役立ちます。 たとえば、各世帯のエネルギー消費量を予測するために、DeepAR +などのグローバルモデルは、より有益なものの統計的強度を使用して、新しい世帯をよりよく予測できます。 さらに、DeepAR +は関連する時系列を考慮に入れることができるため、予測の改善に役立ちます。
このユースケースは、エネルギー消費量との相関関係を考慮して、気象データを追加します。 主な手順は次のとおりです。
- 新しいデータセットインポートジョブを作成して、関連する時系列データでデータセットグループを更新します。このモデルでは、次のフィールド(
timestamp
&CustomerID
):dayofweek
dailyaveragedrybulbtemperature
dailycoolingdegreedays
dailydeparturefromnormalaveragetemperature
dailyaveragenormaltemp
dailyheatingdegreedays
dailymaximumdrybulbtemperature
dailyminimumdrybulbtemperature
length_of_day_hours
次の表は、公共の気象情報源からのシアトルのデータ(このデータセットの顧客がその都市に居住している場合)をまとめたものです。
曜日 毎日の平均乾球温度 毎日の冷却度 通常の平均気温から毎日出発 日平均平常気温 毎日暖房度日 毎日最高乾球温度 毎日の最小気温 一日の長さ 7 53 0 -3.1 56.1 12 60 46 15.03 1 55 0 -1.3 56.3 10 60 49 15.08 2 51 0 -5.5 56.5 14 55 47 15.12 3 50 0 -6.7 56.7 15 53 46 15.15 4 53 0 -3.9 56.9 12 60 46 15.2 5 57 0 -0.1 57.1 8 64 50 15.25 6 62 0 4.7 57.3 3 73 50 15.28 7 64 0 6.5 57.5 1 72 56 15.32 1 64 0 6.3 57.7 1 76 51 15.35 2 69 4 11.1 57.9 0 82 55 15.4 3 67 2 8.9 58.1 0 81 53 15.43 - 更新されたデータセットを使用して新しい予測子を作成します。
- 新しいモデルを生成します。
- 新しい予測を作成します。
次のスクリーンショットは、同じ場合の予測エネルギー消費量を示しています test
新しいモデルを使用した顧客ID。
5つのモデル(ARIMAおよびDeepAR +と関連する時系列)の結果を、11日間の予測範囲(この投稿では、2019年15月2019日からXNUMX年XNUMX月XNUMX日)にわたる実際のエネルギー消費量で評価できます。
この評価を行うには、wQL [0.5] / MAPEメトリックを使用します。 ARIMAで計算されたMAPEメトリックは0.25ですが、気象データが含まれるDeepAR +モデルのMAPEは0.04です。 モデルの評価について詳しくは、こちらをご覧ください。 気象を含むDeepAR +モデルは、モデルの精度を84%向上させました。 次の表は、この比較の詳細をまとめたものです。
日付 | ARIMA(kWh) | DeepAR +(kWh) | 実際のエネルギー消費量(kWh) |
11/11/2019 | 43.5 | 44.1 | 46 |
11/12/2019 | 49.1 | 59 | 59.6 |
11/13/2019 | 49.5 | 69 | 70 |
11/14/2019 | 48.8 | 73.5 | 75 |
11/15/2019 | 48.4 | 68.1 | 67 |
次のグラフは、比較したデータを視覚化したものです。
まとめ
この投稿では、スマートメーターデータを使用して個々の顧客のエネルギー需要を予測するために、Forecastとその基盤となるシステムアーキテクチャを使用する方法について説明しました。 DeepAR +と気象データを使用してモデルの精度を高め、約96%の予測精度を達成できます(MAPEにより決定)。
著者について
ニーラムコシヤ AWSのエンタープライズソリューションアーキテクトです。 彼女の現在の焦点は、戦略的なビジネス成果のためのクラウド導入の旅で企業顧客を支援することです。 余暇には、読書やアウトドアを楽しんでいます。
ロヒト・メノン は、AWSでのAmazon Forecastの現在の主要な製品マネージャーです。 現在の焦点は、機械学習を使用して時系列予測を民主化することです。 暇なときは、ドキュメンタリーを読んだり見たりします。
ユヤン(バーニー)ワン Amazon AI Labsの上級機械学習科学者であり、主に大規模な確率的機械学習を予測に応用して取り組んでいます。 彼の研究対象は、統計的機械学習、数値線形代数、およびランダム行列理論です。 予測において、Yuyangは実用的な応用から理論的基礎に至るまで、あらゆる側面に取り組んできました。