j'ai fait même l'exploration de données et a tiré toutes les questions d'entrevue de Google et Microsoft sur glassdoor: http://letschat.info/?p=34algorithme pour trouver la similarité de questions
Je les deux listes là-bas.
Ce que je veux faire est peut-être tirer quelques questions d'entrevue d'autres entreprises et essayer de trouver des questions similaires entre plusieurs sources.
Je l'ai fait quelques recherches sur Google et j'ai trouvé ce projet:
http://lucene.apache.org/core/
et je pouvais faire ce qui suit: http://javatechniques.com/blog/lucene-in-memory-text-search-example/
Cependant, cela semble exagéré. Existe-t-il un algorithme plus simple qui pourrait m'aider à trouver des questions similaires? Quel algorithme utilise le débordement de pile? Je pensais à peut-être générer un score basé sur le nombre de mots qui correspondent entre deux questions et le filtrer de cette façon.
Je veux essayer de réduire la liste de questions à une liste de questions uniques.
Mise à jour:
J'ai décidé d'utiliser lucene. Je mets toute ma liste dans un index et la parcourir dans la liste et j'utilise lucene pour chercher 10 items comme ça. J'ajoute ensuite le score des 10 résultats aussi voir quelles questions ont été les plus posées.
Voici le lien vers le code réel: http: //letschat.info/ranking-of-reduced-amazon-questions/
Il est pas trop compliqué. Voici un exemple des résultats: http://letschat.info/ranking-of-reduced-amazon-questions/
de la source d'origine: http://letschat.info/list-of-amazon-questions/
J'aime votre idée d'obtenir un score basé sur le nombre de mots. Chaque fois qu'une question est ajoutée à la liste, vous devez enregistrer la question avec le score sur la base de données. Ensuite, il s'agit d'une requête simple à mesure que de nouvelles questions arrivent? – Induster