Jeu de données divisé pour tester et former MATLAB

Je souhaite diviser un ensemble de données très volumineux (plus d'un million d'observations) en un ensemble de tests et de trains. Comme, vous pouvez voir que j'ai déjà réussi à effectuer quelque chose de similaire dans le code ci-dessous avec l'utilisation de dividerand.Jeu de données divisé pour tester et former MATLAB

Ce que le code fait est que nous avons un très grand ensemble X, à chaque itération nous sélectionnons N = 1700 variables, puis je les divise dans un rapport 7/3 - train/test. Mais, ce que je voudrais encore faire, c'est au lieu d'utiliser %'s avec le dividerand pour utiliser des valeurs spécifiques. Par exemple, divisez les données en mini-lots de taille 2000, puis utilisez 500 pour le test et 1500 pour la formation. Encore une fois, dans la prochaine boucle, nous allons sélectionner les données (2001: 4000) et les diviser en 500 test et 1500 train etc.

Encore une fois, dividerand permet de faire cela avec des ratios, mais je voudrais utiliser des valeurs réelles.

X = randn(10000,9); 
mu_6 = zeros(510,613); % 390/802 - 450/695 - 510/613 - Test/Iterations 
s2_6 = zeros(510,613); 
nl6 = zeros(613,1); 
RSME6 = zeros(613,1); 
prev_batch = 0; 

inf = @infGaussLik; 
meanfunc = [];     % empty: don't use a mean function 
covfunc = @covSEiso;    % Squared Exponential covariance 
likfunc = @likGauss;    % Gaussian likelihood 


for k=1:613 
    new_batch = k*1700; 
    X_batch = X(1+prev_batch:new_batch,:); 
    [train,~,test] = dividerand(transpose(X_batch),0.7,0,0.3); 
    train = transpose(train); 
    test = transpose(test); 
    x_t = train(:,1:8); % Train batch we get 910 values 
    y_t = train(:,9); 
    x_z = test(:,1:8); % Test batch we get 390 values 
    y_z = test(:,9); 

    % Calculations for Gaussian process regression 
    if k==1 
     hyp = struct('mean', [], 'cov', [0 0], 'lik', -1); 
    else 
     hyp = hyp2; 
    end 
    hyp2 = minimize(hyp, @gp, -100, inf, meanfunc, covfunc, likfunc, x_t, y_t); 
    [m4 s4] = gp(hyp2, inf, meanfunc, covfunc, likfunc, x_t, y_t, x_z); 
    [nlZ4,dnlZ4] = gp(hyp2, inf, meanfunc, covfunc, likfunc, x_t, y_t); 
    RSME6(k,1) = sqrt(sum(((m4-y_z).^2))/450); 
    nl6(k,1) = nlZ4; 
    mu_6(:,k) = m4; 
    s2_6(:,k) = s4; 
    % End of calculations 

    prev_batch = new_batch; 
    disp(k); 
end

Source

2017-08-13 Jespar

Que diriez-vous:

[~, idx] = sort([randn(2000,1)]); 
group1_idx = idx(1:1500); 
group2_idx = idx(1501:end);

Source

2017-08-17 12:08:29 Zep

Jeu de données divisé pour tester et former MATLAB

Répondre

Questions connexes