J'essaie d'ajouter des documents à Solr (5.3.2) avec pysolr. Je génère un simple objet JSON contenant un gros texte et quelques métadonnées (date, auteur ...) puis j'essaye d'ajouter ça à Solr. Mon problème est qu'au-delà d'une certaine taille, Solr ne parviendra pas à indexer le document et renvoyer l'erreur suivante:Index grand document avec Solar provoque une exception
Solr responded with an error (HTTP 400): [Reason: Exception writing document id e2699f18-ab5f-47f6-a450-60db5621879c to the index; possible analysis error.]
Il semble vraiment être une limite hardcoded quelque part sur la longueur du champ, mais je ne peux pas trouver il.
En jouant en python j'ai découvert que:
default_obj['content'] = content[:13260]
fonctionnera bien en
default_obj['content'] = content[:13261]
provoquera une erreur.
Le champ de contenu est défini dans mon fichier schema.xml comme un type normal = champ "text_general".
Edit: Voici les définitions de SCHEMA.XML
<field name="content" type="text_general" indexed="true" stored="true" multiValued="true"/>
<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>
J'ai essayé d'ajouter le contenu manuellement via l'interface d'administration web de Solr, mais je reçois exactement le même problème.
pouvez-vous partager votre schéma.xml pour le champ que vous essayez d'ajouter ce contenu – Mysterion
a modifié mon message avec l'information schema.xml – user2969402