제퍼넷 로고

시계열 모델에 대한 전체 교차 검증 및 학습 곡선 생성

시간

시계열 모델에 대한 전체 교차 검증 및 학습 곡선 생성

시계열 데이터에 대한 표준 교차 유효성 검사는 데이터 모델이 순차적이므로 데이터를 통계적으로 유용한 교육 및 유효성 검사 세트로 분할하는 데 적합하지 않기 때문에 불가능합니다. 그러나 Reconstructive Cross-validation이라는 새로운 접근 방식은 시간 데이터 세트를 사용하는 예측 모델에 대해 이러한 유형의 중요한 분석을 수행할 수 있는 길을 열어줄 수 있습니다.


By 메멧 수젠, 이론 물리학자 | 연구 과학자.

시계열 분석 시간이 지남에 따라 데이터를 수집하는 모든 양적 필드 및 실생활 시스템, 즉 시간 데이터 세트에서 거의 필요합니다. 고려 중인 시스템의 미래 발전을 위해 시간 데이터 세트에 예측 모델을 구축하는 것을 일반적으로 호출합니다. 예측. 그러한 모델의 검증은 표준 홀드아웃 방법 감독 학습에 사용되는 훈련, 테스트 및 검증 세트의 임의의 분리된 분할을 갖는 것. 이는 시계열이 정렬되고 순서가 유지되어야 하는 모든 종류의 통계적 속성을 유도한다는 사실에서 비롯됩니다. 이러한 이유로 신청 직접 교차 검증 시계열 모델 구축은 불가능하며 임시 세트의 끝 꼬리를 단일 테스트 세트로 사용하는 OOS(out-of-sample) 검증으로만 제한됩니다. 최근 작업에서는 시계열에 대한 완전한 교차 검증을 달성하는 알려진 한계를 극복하는 접근 방식을 제안했습니다. 이 접근 방식은 시계열 모델에 대한 학습 곡선을 생성할 수 있는 가능성을 열어 주는데, 이는 일반적으로 비슷한 이유로 불가능합니다.

재구성 교차 검증(rCV): 메타 알고리즘 설계 원칙

rCV는 최근 논문에서 제안되었습니다. 시계열 일반화 학습: Ornstein-Uhlenbeck 과정. 시계열에 대한 rCV의 설계 원칙은 다음 원칙을 목표로 합니다.

Rcv Fig1 스키마

그림 1: 시계열 교차 검증 및 학습 곡선을 위한 rCV 메타 알고리즘.

  1. 표준 교차 검증에 논리적으로 근접: 임의의 테스트 세트 크기 및 폴드 수.
  2. 상관 관계 및 데이터 순서를 유지합니다.
  3. 미래 데이터에서 과거를 예측하는 부조리를 만들지 않습니다.
  4. 학습 알고리즘에 관계없이 일반적인 방식으로 적용 가능합니다.
  5. 다차원 시계열에 적용할 수 있습니다.
  6. 평가 메트릭에 구애받지 않습니다.

누락된 데이터 도입 아이디어: 임시 교차 검증 및 학습 곡선

rCV의 핵심 아이디어는 주어진 누락 비율, 즉 무작위 데이터 포인트 제거를 사용하여 K-폴드에서와 같이 누락 데이터 세트를 K회 생성하여 교차 검증 세트를 생성하는 것입니다. 각 폴드에는 누락된 데이터 포인트의 분리된 세트가 있습니다. 대치 방법으로 K-disjoint 누락 데이터 세트를 채우고 K-다른 교육 데이터 세트를 생성합니다. 이를 통해 우리는 K개의 다른 모델을 가질 수 있으며 OOS(Out-of-sample) 테스트 세트에서 기본 모델의 예측을 테스트하여 모델링 접근 방식의 일반화된 성능을 측정할 수 있습니다. 에 대한 혼동을 피하기 위해 모델이란 무엇입니까?, 우리가 달성하려는 것은 가설, 즉 모델링 접근법을 찾는 것입니다. 누락된 데이터의 비율을 변경하고 교차 검증을 반복함으로써 연습은 도입된 누락-누락 데이터의 비율과 해당 rCV 오류의 집합을 산출합니다. 여기서 플롯은 지도 학습 관점에서 학습 곡선일 뿐입니다. 대치 모델과 예측 모델은 서로 다른 모델입니다. 우리가 구축하려는 기본 모델은 OOS 예측을 생성하는 데 사용한 예측 모델입니다. 절차는 그림 1에 요약되어 있습니다.

Rcv Fig2 프로세스

그림 2: 합성 데이터 및 재구성.

Ornstein-Uhlenbeck 프로세스에 대한 가우시안 프로세스 모델 쇼케이스

rCV의 유용성을 입증하기 위해 언급된 논문은 Ornstein-Uhlenbeck 프로세스, 즉 특정 매개변수 설정이 있는 가우시안 프로세스에 의해 생성된 합성 데이터를 사용합니다. 그림 2는 생성된 누락 데이터 세트의 재구성 오류에 대한 합성 데이터 및 예제 위치를 보여줍니다. 그림 3은 누락 데이터 설정의 비율에 따른 학습 곡선을 보여줍니다.

Rcv Fig3 학습 곡선
그림 3: rCV에서 생성된 가우시안 프로세스 모델의 학습 곡선.

결론

rCV는 시계열에서 교차 검증을 실행하는 논리적으로 일관된 방법을 제공합니다. 일반적으로 시계열 모델에 대해 동일한 시간 창에서 학습 곡선을 생성하는 것은 불가능하지만 누락된 데이터의 비율이 다른 rCV를 사용하면 이를 달성할 수도 있습니다. rCV는 시계열에 대한 일반화된 학습을 수행할 수 있는 방법을 제공합니다.

추가 읽기

종이 외에 시계열 일반화 학습: Ornstein-Uhlenbeck 과정, Python 프로토타입 구현으로 결과를 재현할 수 있습니다. 여기를 눌러 더 많은 정보를 찾으세요..

실물. 허가를 받아 다시 게시했습니다.

관련 :


PlatoAi. Web3 재창조. 데이터 인텔리전스 증폭.
액세스하려면 여기를 클릭하십시오.

출처: https://www.kdnuggets.com/2021/07/full-cross-validation-learning-curves-time-series.html

spot_img

최신 인텔리전스

spot_img