Eh bien, c'est prise sans vergogne pour le paquet dataMaid
que j'ai aidé à écrire et qui ne sorte de ce que vous demandez. L'idée du package dataMaid
est de lancer une batterie de tests sur les variables dans une trame de données et de produire un rapport qu'un chercheur humain (de préférence quelqu'un ayant des connaissances sur le contexte) peut examiner afin d'identifier les problèmes potentiels.
Une façon super simple pour commencer est de charger le package et utiliser la fonction clean
sur une trame de données (si vous essayez de nettoyer les mêmes données cadre plusieurs fois il peut être nécessaire d'ajouter le replace=TRUE
l'argument écraser le rapport existant).
devtools::install_github("ekstroem/dataMaid")
library(dataMaid)
data(trees)
clean(trees)
Cela va créer un rapport avec des résumés et des contrôles d'erreur pour chaque variable dans la trame de données trees
. Un résumé de toutes les variables est fourni et pour les données trees
il ressemble à ce
tandis que les informations de chaque variable peut ressembler à ceci
Ici, nous avons un statut à propos du type de variable, des statistiques récapitulatives, d'une intrigue et - dans ce cas - d'un indicateur indiquant qu'il pourrait y avoir un problème avec les valeurs aberrantes.
Le paquet dataMaid
peut également être utilisé de manière interactive en exécutant des contrôles pour les variables individuelles ou pour toutes les variables du jeu de données
data(toyData)
check(toyData$var2) # Individual check of var2
check(toyData) # Check all variables at once
Par défaut, la batterie standard de tests est exécuté en fonction du type de variable , mais il est possible d'étendre le paquet en fournissant vos propres chèques.
Dans votre cas, j'exécuterais le paquet sur les deux ensembles de données pour obtenir deux rapports, et toute différence majeure dans ceux-ci soulèverait un drapeau sur ce qui pourrait être problématique.
Merci pour votre réponse. J'ai essayé mais cela ne répond pas à mes exigences. Étant donné que je crée une interface utilisateur pour la comparaison des ensembles de données pour les utilisateurs professionnels, je dois leur montrer une sortie simple en disant: «La variable X est problématique, rectifiez-la.» Tout le traitement se fera en back-end et sera gagné. t être montré à l'utilisateur. –
Le PDF cette sortie est très utile, mais seulement pour les scientifiques/analystes de données comme nous qui peuvent lire le document et déduire ce qui ne va pas. –
Appréciez votre aide si. Merci encore. Je ne savais pas à propos de cette bibliothèque avant. Faites-moi savoir si vous avez d'autres suggestions. –