2015-04-21 1 views
0

Je veux analyser (beaucoup) les flux rss/atom/rdf en utilisant Tika 1.7 (fonctionne plutôt bien mais pas parfait) et télécharger des données dans Solr 5.1.0. automatiquement.Tika 1.7 intégration à Solr 5.1.0

Je peux voir les données dans mon terminal - c'est plutôt joli, chaque élément analysé: titre, lien, description, etc. - mais je ne sais pas comment charger les données automatiquement dans Solr.

Toute aide est la bienvenue, Cordialement, Christian

Répondre

1

Il y a un module contrib appelé "SolrCell" qui est une bibliothèque d'extraction de contenu. Cela fonctionne exactement comme vous voulez, et utilise Tika dans les coulisses, pour l'extraction de texte et de métadonnées.

Plus d'informations ici: https://cwiki.apache.org/confluence/display/solr/Uploading+Data+with+Solr+Cell+using+Apache+Tika

+0

Salut, chose est qu'il me semble que le "SolrCell" Parse uniquement les fichiers PDF et HTML. J'ai besoin d'analyser les fichiers de flux (rss/atom/rdf et autres fichiers de type xml) et cela ne semble pas fonctionner ... J'ai réussi à graver la sortie d'analyse dans le terminal dans Tika 1.8 mais j'ai besoin de capturer la sortie ... peut-être dans un fichier xml que je cand plus tard télécharger dans Solr en utilisant curl ... s'il vous plaît conseiller – user3260152

+0

SolrCell fait ce que fait Tika. Bien que je ne me souviens pas de toute la liste des formats pris en charge, il ne se limite pas à ces 2 .... il y a beaucoup plus – Andrea

+0

si quelqu'un peut me montrer comment télécharger des flux rss/atom/rdf dans Solr en utilisant SolrCell - qui J'ai essayé mais échoué - ce serait génial! S'il vous plaît aider! – user3260152