Nous allons entreprendre un projet de préservation des connaissances pour la numérisation de plus de 1 million de livres. Nous avons besoin de quelques suggestions sur la mise en œuvre de la base de données pour le stockage et la récupération des métadonnées ainsi que l'utiliser pour le suivi de l'état de balayage de chaque objet (livre)
Pouvez-vous les gars suggérer devrions-nous aller pour SQL ou NoSQL (Les métadonnées peuvent varier d'un projet à dire que ce projet pourrait avoir 15 champs)
nous pensons quelque chose basé sur Lucene/Solr ou une base de données RDF évolutive
Toute solution open source où nous avons la possibilité de définir des métadonnées personnalisées champs et stocker des informations avec une fonction de recherche?
Nous pensions à Apache Cassandra, à Apache Jackrabbit, à OpenCalais, à ApacheUIMA, à MongoDB, à CouchDB, à Doap, à okfn (fondation de connaissances ouvertes), à Lucène (Nutch, Solr, Hounder), Sphinx, zettair, Terrier, Galago , Minnion, MG4J, Wumpus, RDBMS (mysql, sqlite), Indri, Xapian, grep, Blacklight, OKKAM (projet de recherche, un projet d'intégration à grande échelle fournissant une infrastructure évolutive et durable, appelé Entity Name System (ENS), pour rendre plus systématique la réutilisation des identificateurs d'entités globaux et uniques) –
Encore plus - SIREn: Recherche d'information semi-structurée efficace pour Lucene, hxxp: //sig.ma/, SCRIBO - Extraction semi-automatique et collaborative d'informations basées sur des ontologies, AllegroGraph RDFStore est une base de données de graphes RDF moderne, performante et persistante, hxxp: //openpipe.berlios.de (openpip), –
Pouvez-vous donner une idée de la charge prévue, en termes de fréquence d'ajout de livres, et de la fréquence des requêtes? Attendez-vous des dizaines d'utilisateurs simultanés, ou des millions? – DNA