Etant donné le document D1: contenant les mots (w1, w2, w3) et le document D2 et les mots (w2, w3 ..) et le document Dn et les mots (w1, w2, WN)Cooccurrence de mots dans des documents avec un grand tableau Google
Puis-je structurer mes données en grande table pour répondre aux questions telles que: quels mots se produisent le plus souvent avec w1, ou que les mots se produisent le plus souvent avec w1 et w2.
Ce que je suis en train de réaliser est de trouver le troisième mot Wx (suggestion) qui ocures le plus souvent dans les documents togehter avec des mots W1 et W2
données Je sais la solution dans SQL, mais est-il possible avec Google -grande table?
Je sais que je dois construire mes indices par moi-même, la question est de savoir comment dois-je les structurer pour éviter une explosion de l'indice
grâce Almir
merci j'ai oublié de mentionner que je cherche le troisième mot qui n'apparaît pas dans la requête mais est souvent trouvé avec les mots W1 et W2, j'ai ajusté ma question – zebra
'et word = 'W3'' ferait l'affaire, mais avez-vous besoin de le faire en ligne? Je pense que c'est une meilleure idée de faire ce genre de traitement hors ligne, en mémoire. – jbochi
mais j'ai besoin de 'W3' à la suite de la requête, pas comme entrée de requête, il devrait "suggérer" les mots co-occurrents avec d'autres deux – zebra