0

J'ai lu par Stackoverflow peut-être que les projets es-hadoop/es-spark utilisent l'indexation en bloc. Si c'est le cas, la taille par défaut est définie par BulkProcessor (5Mb). Y at-il une configuration pour changer cela.Elasticsearch hadoop configurer la taille de lot en vrac

J'utilise JavaEsSparkSQL.saveToEs(dataset,index) dans mon code et je veux savoir quelles sont les configurations disponibles disponibles pour optimiser la performance. Est-ce lié au partitionnement de l'ensemble de données également.

Répondre

0

paramètres trouvés sur leur page de configuration

es.batch.size.bytes (default 1mb) 

Taille (en octets) pour le lot en utilisant l'API écrit en vrac ElasticSearch. Notez que la taille en masse est allouée par instance de tâche. Toujours multiplier par le nombre de tâches dans un travail Hadoop pour obtenir la taille totale en vrac lors de l'exécution de Elasticsearch. Taille (en entrées) pour les écritures par lots utilisant l'API de masse Elasticsearch (0 la désactive). Compatibilité avec es.batch.size.bytes, une fois la correspondance trouvée, la mise à jour par lots est exécutée. Similaire à la taille, ce paramètre est par instance de tâche; il est multiplié à l'exécution par le nombre total de tâches Hadoop en cours d'exécution.