bonjour: Je suis en train d'écrire du code en Java pour nutch (moteur de recherche open source) pour enlever les mouvements de mots arabes dans l'indexeur. Je ne sais pas quelle est l'erreur. Lla est le code:a écrit le code en java pour nutch
package com.mycompany.nutch.indexing;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.io.Text;
import org.apache.log4j.Logger;
import org.apache.nutch.crawl.CrawlDatum;
import org.apache.nutch.crawl.Inlinks;
import org.apache.nutch.indexer.IndexingException;
import org.apache.nutch.indexer.IndexingFilter;
import org.apache.nutch.indexer.NutchDocument;
import org.apache.nutch.parse.getData().parse.getData();
public class InvalidUrlIndexFilter implements IndexingFilter {
private static final Logger LOGGER =
Logger.getLogger(InvalidUrlIndexFilter.class);
private Configuration conf;
public void addIndexBackendOptions(Configuration conf) {
// NOOP
return;
}
public NutchDocument filter(NutchDocument doc, Parse parse, Text url,
CrawlDatum datum, Inlinks inlinks) throws IndexingException {
if (url == null) {
return null;
}
char[] parse.getData() = input.trim().toCharArray();
for(int p=0;p<parse.getData().length;p++)
if(!(parse.getData()[p]=='َ'||parse.getData()[p]=='ً'||parse.getData()[p]=='ُ'||parse.getData()[p]=='ِ'||parse.getData()[p]=='ٍ'||parse.getData()[p]=='ٌ' ||parse.getData()[p]=='ّ'||parse.getData()[p]=='ْ' ||parse.getData()[p]=='"'))
new String.append(parse.getData()[p]);
return doc;
}
public Configuration getConf() {
return conf;
}
public void setConf(Configuration conf) {
this.conf = conf;
}
}
Je pense que l'erreur est à utiliser parse.getdata()
mais je ne sais pas ce que je devrais utiliser au lieu de?
Quel problème avez-vous? Exception? Ne pas obtenir les résultats escomptés? quelle? btw, ce nouveau String.append (parse.getData() [p]); ne signifie rien ... car vous n'attribuez pas la chaîne à quelque chose. – MeBigFatGuy
merci pour votre commentaire j'ai 2 erreurs comment je peux attribuer la nouvelle valeur des mots dans l'indexeur à l'indexeur ?? – moneera
Pour ajouter des mots, vous avez la méthode doc.add (nom, valeur) qui prend deux chaînes. – Howard