2017-08-22 5 views
0

Eh bien, je suis curieux d'un problème qui serait utile et qui permettrait de gagner du temps, sinon ce n'est pas la fin du monde.Partitionnement de scripts R et/ou R (environnement)

J'ai fait des recherches un peu, mais je ne pouvais pas trouver ce que je veux littéralement. Aussi, Running multiple R scripts/sessions J'ai vérifié ce lien, mais encore une fois cela ne m'aide pas beaucoup. La situation est que j'ai un gros ensemble de données (les données de test que j'essaie d'utiliser ont environ 6.5m lignes et 50 colonnes, j'ai aussi du mal à implémenter l'ensemble de données en R, j'utilise maintenant 60k lignes pour l'analyse et modèles statistiques (j'essaie de voir comment les données peuvent être manipulées et de comprendre son comportement, et j'espère intégrer ces modèles et manipulations tout ce que j'ai fait avec le grand ensemble de données même si toutes les lignes de 6,5 m, 1 ok pour moi si je peux)

De toute façon, un autre gros problème est mon environnement R. Comme les données sont tellement énormes, cela demande de la diligence et beaucoup de travail. Le script de code est comme 3500 lignes et pas même 15% de Le problème réside dans la création de nouveaux jeux de données, l'attribution de nouveaux modèles, la vérification de l'adéquation des modèles et de nouveaux modèles. etc tout me coûte une nouvelle substance dans l'environnement, et mon environnement est comme 750mb (la session R/profil). J'espérais que je pourrais diminuer la taille de l'environnement (le profil) si je divise les scripts ou les environnements.

Toutes les idées seraient géniales. Apprécié pour toute aide. Edit: Après avoir créé un script propre et démarré avec un environnement propre, l'implémentation de la base de données a eu lieu sans erreur. Juste au cas où ceux qui souffrent de cette question de mise en œuvre comme moi. Ne pas le dire est la seule et exacte manière, cependant.

+1

"mon environnement est comme 750mb" qui est plutôt petit. Votre question n'est pas très claire et un peu décousue. Je suggère que vous envisagiez de construire un paquet (qui vous forcerait également à suivre le paradigme de la programmation fonctionnelle et qui pourrait vous aider dans votre environnement global encombré). – Roland

+1

6,5 millions x 50 n'est pas vraiment énorme. Si cela vous donne déjà des problèmes, je vous suggère un voyage rapide dans le magasin d'électronique pour acheter plus de RAM. – Roland

+0

Je suis d'accord, j'ai eu des objets simples de la taille de plusieurs GB. Lorsque vous manipulez des données volumineuses dans R, vous aurez besoin d'au moins 16 Go de RAM. – LAP

Répondre

0

Pour ce problème, j'écris généralement des scripts qui produisent un espace de travail spécifique, puis conserve un autre script qui contient le chemin d'accès à tous les scripts et aux espaces de travail enregistrés.

Imaginez ce script:

## Dataset x 
# Run script to create dataset x 
source("pathtoscript.R") 

# Save dataset x environment 
save.image("pathtodatasetx.Rdata") 

# Load dataset x environment 
load("pathtodatasetx.Rdata") 

De cette façon, je peux rapidement courir et sauver un environnement si je faisais des changements, ou tout simplement le charger dans ma session en cours.