完全な相互検証と時系列モデルの学習曲線の生成

データモデルがシーケンシャルであるため、時系列データに対する標準の相互検証は不可能であり、データを統計的に有用なトレーニングセットと検証セットに分割するのに適していません。ただし、再構成的相互検証と呼ばれる新しいアプローチは、時間データセットを使用した予測モデルに対してこの種の重要な分析を実行するための道を開く可能性があります。

注釈

By メフメット・スーゼン、理論物理学者 | 研究員.

時系列分析これは、時間の経過とともにデータ (時間データセット) を収集するほぼすべての定量的分野および現実のシステムで必要となります。システムの将来の進化を考慮して時系列データセットに予測モデルを構築することは、通常、と呼ばれます。予報。このようなモデルの検証は、標準ホールドアウト方式教師あり学習で使用されるトレーニング、テスト、および検証セットをランダムに素のまま分割すること。これは、時系列が順序付けされており、順序によって保持されるべきあらゆる種類の統計的特性が引き起こされるという事実に由来しています。このため、申請すると、 直接相互検証 時系列モデルの構築は不可能であり、時間セットのエンドテールを単一のテストセットとして使用するアウトオブサンプル (OOS) 検証にのみ制限されます。最近の研究では、時系列の完全な相互検証を達成するという既知の制限を克服するアプローチが提案されました。このアプローチにより、時系列モデルの学習曲線も作成できる可能性が広がりますが、これも同様の理由で通常は不可能です。

再構成的相互検証 (rCV): メタアルゴリズム設計原則

rCV は最近、次のタイトルの論文で提案されました。時系列の一般化された学習: オーンスタイン・ウーレンベック過程。時系列の rCV の設計原則は、次の原則を目的としています。

Fig1 スキーマの受信

図 1: 時系列相互検証と学習曲線のための rCV メタアルゴリズム。

論理的には標準の相互検証に近い: 任意のテストセットのサイズとフォールド数。
相関関係とデータの順序を維持します。
未来のデータから過去を予測するという不条理は生じません。
学習アルゴリズムに関係なく、一般的な方法で適用できます。
多次元時系列に適用可能。
評価指標にとらわれない。

欠損データを導入するアイデア: 時間的相互検証と学習曲線

rCV の重要なアイデアは、所定の程度の欠損率 (つまり、ランダムなデータポイントの削除) で欠損データセットを K 回 (K 倍) 作成することによって相互検証セットを作成することです。各フォールドには、結合されていない欠落データポイントのセットが含まれます。代入法により、K 個の互いに素な欠損データセットを埋めて、K 個の異なるトレーニングデータセットを生成します。これにより、K 個の異なるモデルを使用できるようになり、アウトオブサンプル (OOS) テストセットで一次モデルの予測をテストすることで、モデリングアプローチの一般化されたパフォーマンスを測定できるようになります。～についての混乱を避けるために モデルとは何ですか？、私たちが達成しようとしているのは、仮説を見つけること、つまりモデリングアプローチです。欠損データの比率を変更して相互検証を繰り返すことにより、この演習では、導入された欠損データと欠損データの比率とそれに対応する rCV 誤差のセットが得られます。プロットは教師あり学習の観点からの学習曲線にすぎません。代入モデルと予測モデルは異なるモデルであることに注意してください。私たちが構築しようとしている主なモデルは、OOS 予測を生成するために使用した予測モデルです。手順を図 1 にまとめます。

図 2 の受信プロセス

図 2: 合成データと再構成。

オーンシュタイン・ウーレンベック過程のガウス過程モデルを使用したショーケース

rCV の有用性を実証するために、前述の論文では、オーンシュタイン・ウーレンベックプロセス、つまり特定のパラメーター設定を備えたガウスプロセスによって生成された合成データが使用されています。図 2 は、合成データと、生成された欠落データセットの再構成エラーの位置の例を示しています。図 3 は、欠損データ設定のさまざまな比率に応じた学習曲線を示しています。

Rcv Fig3 学習曲線
図 3: rCV によって生成されたガウス過程モデルの学習曲線。