2015-03-25 1 views
4

J'ai récemment rencontré un problème et j'aimerais avoir des commentaires sur ce sujet.Lucene: migration des versions Java sans réindexation

Précondition:

  • Lucene Version de mise en œuvre: 2.9.1
  • Solr: 1.4
  • Java 6
  • indice grand et lourd en magasin :)

Idée principale: Modifier la version JDK de 1.6 à 1 .8. Donc, est-ce que cette modification nécessite une réindexation de l'index ou et non?

La première chose que j'ai trouvée était le document JRE_VERSION_MIGRATION. Mais il ne parle que d'un problème connu lié aux changements de la version Unicode et de la transition de Java 1.4 vers Java 5. Je n'ai pas trouvé d'autres problèmes connus avec les versions Unicode dans différentes versions de JDK, qui peuvent nécessiter une réindexation complète pour l'index Lucene existant.

En outre, quelqu'un connaît-il des problèmes liés aux différentes versions d'Unicode dans JKD 1.6 et JDK 1.7 (1.8)?

Merci!

P.S. De plus, ceci est une liste de tous les analyseurs et les filtres utilisés pour:

  • WhitespaceTokenizerFactory
  • WordDelimiterFilterFactory
  • LowerCaseFilterFactory
  • SnowballPorterFilterFactory
  • RemoveDuplicatesTokenFilterFactory
  • ElisionFilterFactory
  • CJKTokenizerFactory
  • ThaiWordFilterFactory
  • ChineseSentenceTokenizerFactory
  • ChineseWordTokenFilterFactory
+1

Je doute que cela nécessite une réindexation. Pourquoi ne pas l'essayer? – femtoRgon

Répondre

0

Je doute que vous aurez besoin réindexation. Unicode 6.1 ajoute ces symboles qui pourraient être « vu » par l'analyseur de CJC:

CJK Compatibility Ideographs {F900..FAFF} : 2 characters (U+FA2E and U+FA2F) 
CJK Unified Ideographs {4E00..9FFF} : 1 character (U+9FCC = Adobe-Japan1-6 CID+20156, a variant of U+6DBC 涼) 

D'autres changements ne seront même pas affecter théoriquement ces analyseurs.

Unicode version 6.2 est encore plus simple, il vient d'avoir un nouveau personnage

U+20BA TURKISH LIRA SIGN  

Je ne vois pas besoin de réindexer. Les jetons ci-dessus reposent sur la méthode Character.isLetter() qui n'a pas été affectée par les modifications ci-dessus. Je doute sérieusement que l'un des personnages énumérés dans les changements soit dans l'index.