2017-03-31 1 views
1

Je ne suis pas sûr que cette question ait déjà été posée par le passé. J'écris un webcrawler, destiné à extraire des informations de plusieurs sites Web pour les promotions, les prix et les descriptions de produits.Choix de la base de données pour la sémantique des pages analysées

Quel choix de base de données serait idéal pour faire une comparaison en mémoire sur les données des promotions et des prix, basée sur l'identification du même produit à partir de plusieurs sites Web.

Je sais que le design va être complexe pour le Scraper, le HTMLDataProcessor et le Storage pour le wrangling. Mais, je cherche une solution pour le choix de la couche de données.

Appréciez l'aide à ce sujet.

Répondre

0

Je vous suggère d'abord vous créer votre modèle d'objet ou d'un diagramme de la relation Entité pour toutes les entités (aka diagramme ER)

Par exemple, vous pouvez voir le tutoriel ici. http://creately.com/blog/diagrams/er-diagrams-tutorial/

Une fois que vous avez la diagramme et les relations entre votre entité, vous pouvez alors choisir si vous avez besoin de base de données relationnelle ou non.

Vous devez répondre à la question comme:

  1. -vous souciez de contraintes FK (clé étrangère)?

  2. Quelle est la requête la plus courante et vous souciez-vous de ses performances?

  3. Une base de données en mémoire est-elle suffisante ou avez-vous besoin de données persistantes?

Pensez le long de ces lignes.

+0

J'ai fait un choix d'ElasticSearch. – uniqrish