2009-04-24 8 views
4

J'ai un site où les utilisateurs entrent des données de certains produits qu'ils achètent. Comment puis-je m'assurer de l'exactitude des données entrées par crowdsourcing (permettant aux utilisateurs de voter/éditer des produits) en minimisant la quantité de travail qui doit être faite par l'administrateur? Je cherche des tutoriels, des bonnes pratiques, etc.Comment garantir l'exactitude des données collectées via le crowdsourcing?

+0

C'est un "crowdsourcing". Si vous corrigez la faute de frappe, la question sera plus facile à trouver avec les moteurs de recherche. :) – Tomalak

+0

orthographe fixe .... –

+0

@Yuval A: Ah, bien. Vous avez oublié de regarder l'étiquette mal orthographiée. – Tomalak

Répondre

0

Comme des données de haut niveau peuvent être recueillies à partir de la «foule» avec une valeur d'exactitude associée. En regardant SO, une réponse ou une réponse de quelqu'un avec 1000+ rep, a plus de poids qu'un utilisateur occasionnel. Cherchez les validations et la triangulation, si c'est une seule voix dans la foule que vous écoutez aussi, alors ça ne vaut probablement pas grand-chose. Si d'autres voix se joignent alors vous savez que vous êtes sur quelque chose, encore une fois en termes de SO, nous avons tous une chance de poser des questions upvote.

J'ai récemment vu de très bonnes applications pour iPhone qui utilisent le crowd-sourcing pour leurs données, puis les valident en demandant aux autres utilisateurs si c'est correct.

1

Assurez-vous de garder un journal des adresses IP avec chaque action effectuée, les utilisateurs malveillants ou les robots pourraient piétiner les données de session ou les cookies. Cela garantit qu'une seule entité ne peut pas biaiser les résultats ou faire quoi que ce soit de drastique en apparaissant être plusieurs utilisateurs.

2

Quel type de données recueillez-vous?

Vous parlez de crowdsourcing, et donc (je suppose) d'agrégation de données dans cette foule. Comme ils parlent de produits qu'ils achètent, je soupçonne que vous allez être en train d'athering des attributs et des prix des produits.

Quelques approches possibles. Si vous entrez des données non numériques (par exemple, des couleurs), il vous suffit d'enregistrer les entrées les plus courantes ou le mode (le plus couramment entré). Si elles saisissent des données numériques, éliminez les valeurs aberrantes. c'est-à-dire les résultats les plus bas et les plus élevés, et la moyenne du reste (vous pourriez le faire pour les prix, disons: c'est l'approche que les échanges électroniques utilisent pour résoudre les cours de clôture de nombreuses transactions). En fonction de votre application, vous pouvez avoir un biais historique pour les entrées les plus récentes. Mais tout cela dépend de votre application, et de la quantité de stockage et de calcul des données que vous êtes prêt à faire.

+0

en fait, nous recueillons des listes d'ingrédients de produits comestibles, nous identifions chaque ingrédient entré nous aurions soit la situation où certains ingrédients apparaissent/disparaissent dans le produit ou l'entrée des ordures ce dont nous avons vraiment besoin est la liste complète correcte, pas seulement les entités les plus communes ... – miceuz

Questions connexes