时间序列数据的分层交叉验证[英] Stratified Cross validation of timeseries data

本文是小编为大家收集整理的关于时间序列数据的分层交叉验证的处理方法,想解了时间序列数据的分层交叉验证的问题怎么解决?时间序列数据的分层交叉验证问题的解决办法?那么可以参考本文帮助大家快速定位并解决问题。

问题描述

我想根据组(GRP列)进行时间序列交叉验证.在以下样本数据中,温度是我的目标变量

import numpy as np
import pandas as pd
timeS=pd.date_range(start='1980-01-01 00:00:00', end='1980-01-01 00:00:05', 
freq='S')
df = pd.DataFrame(dict(time=timeS, grp=['A']*3 + ['B']*3, material=[1,2,3]*2,
temperature=['2.4','5','9.9']*2))


    grp material    temperature    time
0   A   1       2.4                1980-01-01 00:00:00
1   A   2       5                  1980-01-01 00:00:01
2   A   3       9.9                1980-01-01 00:00:02
3   B   1       2.4                1980-01-01 00:00:03
4   B   2       5                  1980-01-01 00:00:04
5   B   3       9.9                1980-01-01 00:00:05

我正在计划使用此代码添加一些基于GRP的滞后功能.

df.groupby("grp")['temperature'].shift(-1)
0      5
1    9.9
2    NaN
3      5
4    9.9
5    NaN
Name: temperature, dtype: object

我现在遇到的问题是,当我进行交叉验证时,我可以从sklearn sklearn.model_selection.timeseriessplit 中使用此功能,但它不考虑组效应.谁能告诉我如何进行每组的简历拆分(例如分层拆分)?如果有帮助,我将使用xgboost.cv进行简历.

编辑:每组的时间更改.时间在组中均匀增加(每秒)

推荐答案

以下要做:

    series = Series.from_csv('yourfile.csv', header=0)
    X = series.values
    n_train = 500
    n_records = len(X)
    for i in range(n_train, n_records):
        train, test = X[0:i], X[i:i+1]
        print('train=%d, test=%d' % (len(train), len(test)))

本文地址:https://www.itbaoku.cn/post/1728067.html