Je construis un index inversé, mais je n'arrive pas à obtenir les bonnes fréquences lorsque je vérifie la base de données. J'ai lu partout que vous devriez utiliser un HashMap, mais je ne suis pas sûr si c'est la bonne méthode pour le faire. Des idées?Comment déterminer la fréquence à terme des termes dans chaque document?
public class Tokenize {
public static void createIndex() throws Exception{
ArrayList<Dokument> dok = new QueryHandler().getDokuments();
ArrayList<String> queries = new ArrayList<String>();
ArrayList<String> queries2 = new ArrayList<String>();
HashMap<String, Integer> frek = new HashMap<String, Integer>();
for(int d = 0; d < dok.size(); d++){
String token = "";
int frekvens = 0;
try{
Dokument document = dok.get(d);
StringTokenizer st = new StringTokenizer(document.dokument());
while (st.hasMoreTokens()) {
token = st.nextToken();
token.replaceAll("[']", "");
token.replaceAll("[,]", "");
token.replaceAll("[)]", "");
token.replaceAll("[(]", "");
token.replaceAll("[.]", "");
frekvens ++;
frek.put(token, frekvens);
queries.add("INSERT IGNORE INTO termindeks (docID, term) values ("+document.docID()+", '"+token+"')");
queries2.add("INSERT IGNORE INTO invertedindeks (term, docID, termfrekvens) values ('"+token+"', "+document.docID()+", "+ frekvens+")");
}
}
catch (Exception e) {
e.printStackTrace();
System.out.println(token);
}
}
String[] ffs = new String[queries.size()];
ffs = queries.toArray(ffs);
getDB().runQueriesIgnoreException(queries.toArray(ffs));
String[] ffs2 = new String[queries2.size()];
ffs2 = queries2.toArray(ffs2);
getDB().runQueriesIgnoreException(queries2.toArray(ffs2));
}
}
Cela a fonctionné parfaitement, merci beaucoup. – Ostepop
+1 Totalement oublié que get() pouvait renvoyer une valeur null. – helpermethod