Ces derniers jours, j'ai beaucoup étudié ce sujet, j'ai lu tellement de choses que je suis maintenant plus confus que jamais. Comment trouve-t-on la plus longue sous-chaîne commune dans un grand ensemble de données? L'idée est de supprimer le contenu en double de cet ensemble de données (de différentes longueurs, de sorte que l'algo devra fonctionner en continu). Par grand ensemble de données, je veux dire environ 100mb de texte.Trouver la plus longue sous-chaîne commune dans un ensemble de données volumineux
Suffixe? Suffixe tableau? Rabin-Karp? Quelle est la meilleure façon? Et y a-t-il une bibliothèque qui peut m'aider? En espérant vraiment une bonne réponse, j'ai vraiment mal à la tête. Je vous remercie! :-)
Pourquoi doit-il fonctionner en continu? Les données changent-elles? – jonderry
Pourquoi ne pas utiliser un logiciel de compression disponible sur le marché? –
jonderry: Je n'étais probablement pas clair, je voulais dire qu'après chaque passage, il devra trouver la prochaine sous-chaîne la plus longue, et ainsi de suite. – diffuse