2017-08-22 4 views
-3

Bloqué dans un problème. Il y a deux ensembles de données A et B. Disons qu'il s'agit d'ensembles de données de deux usines. L'usine A fonctionne très bien alors que l'usine B ne l'est pas. J'ai l'ensemble de données de l'usine A (données provenant des unités de fabrication) ainsi que l'usine B, les deux ayant les mêmes variables. Comment puis-je identifier la variable problématique dans l'usine B qui doit être réparée pour que l'usine B commence à fonctionner correctement? Par conséquent, j'ai besoin d'identifier la variable problématique qui nécessite une attention immédiate.Comparaison entre un bon et un mauvais ensemble de données en utilisant R

Dans l'attente de votre réponse.

p.s: langage de codage utilisé est R

Répondre

1

Eh bien, c'est prise sans vergogne pour le paquet dataMaid que j'ai aidé à écrire et qui ne sorte de ce que vous demandez. L'idée du package dataMaid est de lancer une batterie de tests sur les variables dans une trame de données et de produire un rapport qu'un chercheur humain (de préférence quelqu'un ayant des connaissances sur le contexte) peut examiner afin d'identifier les problèmes potentiels.

Une façon super simple pour commencer est de charger le package et utiliser la fonction clean sur une trame de données (si vous essayez de nettoyer les mêmes données cadre plusieurs fois il peut être nécessaire d'ajouter le replace=TRUE l'argument écraser le rapport existant).

devtools::install_github("ekstroem/dataMaid") 
library(dataMaid) 
data(trees) 
clean(trees) 

Cela va créer un rapport avec des résumés et des contrôles d'erreur pour chaque variable dans la trame de données trees. Un résumé de toutes les variables est fourni et pour les données trees il ressemble à ce

enter image description here

tandis que les informations de chaque variable peut ressembler à ceci

enter image description here

Ici, nous avons un statut à propos du type de variable, des statistiques récapitulatives, d'une intrigue et - dans ce cas - d'un indicateur indiquant qu'il pourrait y avoir un problème avec les valeurs aberrantes.

Le paquet dataMaid peut également être utilisé de manière interactive en exécutant des contrôles pour les variables individuelles ou pour toutes les variables du jeu de données

data(toyData) 
check(toyData$var2) # Individual check of var2 
check(toyData)  # Check all variables at once 

Par défaut, la batterie standard de tests est exécuté en fonction du type de variable , mais il est possible d'étendre le paquet en fournissant vos propres chèques.

Dans votre cas, j'exécuterais le paquet sur les deux ensembles de données pour obtenir deux rapports, et toute différence majeure dans ceux-ci soulèverait un drapeau sur ce qui pourrait être problématique.

+0

Merci pour votre réponse. J'ai essayé mais cela ne répond pas à mes exigences. Étant donné que je crée une interface utilisateur pour la comparaison des ensembles de données pour les utilisateurs professionnels, je dois leur montrer une sortie simple en disant: «La variable X est problématique, rectifiez-la.» Tout le traitement se fera en back-end et sera gagné. t être montré à l'utilisateur. –

+0

Le PDF cette sortie est très utile, mais seulement pour les scientifiques/analystes de données comme nous qui peuvent lire le document et déduire ce qui ne va pas. –

+0

Appréciez votre aide si. Merci encore. Je ne savais pas à propos de cette bibliothèque avant. Faites-moi savoir si vous avez d'autres suggestions. –