2014-06-19 1 views
2

Quelles sont les directives à suivre pour que les données puissent être prévisualisées correctement dans l'outil CKAN Data Preview? Je travaille sur CKAN et je télécharge des données ou je les relie à des sites Web externes. Certains pourraient être bien visionnés, d'autres non. Je fais des recherches en ligne sur la lisibilité des machines et je n'ai trouvé aucune ressource relative à CKAN qui indique la bonne façon de structurer les données de sorte qu'elles puissent être prévisualisées correctement sur CKAN. J'espère recueillir des réponses de vous tous sur les choses à faire et à ne pas faire pour que cela soit utile aux éditeurs et aux développeurs de CKAN à l'avenir. Par exemple, les données doivent être dans un format tabulaire avec des lignes et des colonnes étiquetées. Les données doivent être stockées dans le premier onglet de la feuille de calcul car les autres onglets ne peuvent pas être prévisualisés. La feuille de calcul ne peut pas contenir de formules ou de macros. Les données doivent être stockées dans le bon format de fichier (référez-vous à un autre sujet à moi: Which file formats can be previewed on CKAN Data Preview tool?)Lisibilité à la machine: Directives à suivre pour que les données puissent être prévisualisées correctement sur CKAN

Merci!

Répondre

3

Puisque CKAN est un système de gestion de données open source, il n'a pas de directives spécifiques sur la lisibilité des données par la machine. Au lieu de cela, vous pouvez jeter un oeil à la norme actuelle pour l'ouverture des données et la lisibilité des machines ici: http://5stardata.info

La mise en œuvre de CKAN au Royaume-Uni comprend également un ensemble de plugins permettant d'évaluer l'ouverture des données en fonction des 5 étoile système de données ouvert ici: https://github.com/ckan/ckanext-qa

1
  1. Consulter les fichiers journaux de Pusher de données - Lorsque vous hébergez des fichiers dans le magasin de données CKAN - l'outil qui charge les données dans des journaux qui - ces révéleront des problèmes avec le format des données. Stocker les données localement - Si possible stocker les données localement - parce que les données stockées ailleurs doivent passer par le processus proxy (https://github.com/okfn/dataproxy) qui est plus lent et est bien sûr soumis à la disponibilité du site externe. En fonction de la taille du fichier et de la connectivité - Conservez une taille de fichier suffisamment petite pour votre installation et votre connectivité afin qu'elle ne soit pas dépassée lors du chargement dans l'explorateur de données CKAN. Si le fichier est hébergé de manière externe et est volumineux et que l'accès au fichier est lent (mauvaise connectivité ou charge insuffisante), les délais d'attente sont expirés car le proxy doit lire le fichier entier avant de le présenter à l'aperçu. De nouveau, l'hébergement local des données devrait signifier un meilleur contrôle de la charge sur la ressource de calcul et garantir que l'explorateur de données fonctionne de manière cohérente. Utiliser les formats de fichiers ouverts - Si vous utilisez CKAN pour publier des données ouvertes, la communauté considère généralement qu'il est préférable de publier des données dans des formats ouverts (par exemple CSV, TXT) plutôt que propriétaires (par exemple XLS). Au-delà de l'augmentation de l'accès aux données pour tous les utilisateurs - et de la réduction des risques que les données ne soient pas correctement structurées pour la prévisualisation - cela présente d'autres avantages. Par exemple, il est plus difficile de publier accidentellement information que vous ne vouliez pas.
  2. Validez vos données -Utilisez des outils tels que CSVKIT pour vérifier que vos données sont en bon état.
1

La meilleure façon d'obtenir de bonnes expériences de prévisualisation est de commencer à utiliser le DataStore. Lors de l'affichage de données à distance, CKAN doit utiliser DataProxy pour faire de son mieux pour deviner les types de données et convertir les données en une forme prévisualisable. Si vous placez les données dans le DataStore, ce n'est pas nécessaire car les données seront déjà dans une bonne structure et les types auront été définis (par exemple, vous saurez que cette colonne est une date plutôt qu'un nombre).

Questions connexes