J'expérimente un peu avec la détection textuelle/détection de plagiat basique, et je veux essayer ceci sur une base de site-à-site Web. Cependant, je suis un peu coincé dans la recherche d'un moyen approprié pour traiter le texte.Comparer le contenu textuel des sites Web
Comment traiter et comparer le contenu de deux sites Web pour le plagiat?
Je pense quelque chose comme ce pseudo-code:
// extract text
foreach website in websites
crawl website - store structure so pages are only scanned once
extract text blocks from all pages - store this is in list
// compare
foreach text in website1.textlist
compare with all text in website2.textlist
Je me rends compte que cette solution pourrait très rapidement accumuler une grande quantité de données, de sorte qu'il pourrait être possible de ne faire fonctionner avec des sites très petits .
Je n'ai pas encore décidé de l'algorithme de comparaison de texte, mais pour le moment, je suis plus intéressé par le fonctionnement de l'algorithme de processus.
Je pense que ce serait une bonne idée d'extraire tout le texte en tant que pièces individuelles (à partir de paragraphes, de tableaux, d'en-têtes, etc.), car le texte peut se déplacer sur les pages. Je l'implémente en C# (peut-être ASP.NET).
Je suis très intéressé par toute contribution ou conseil que vous pourriez avoir, alors s'il vous plaît tirer! :)
Il est également possible d'utiliser un service tiers pour réaliser cette opération avec votre propre logique. Je peux vous recommander sur https://api.copyleaks.com qui est prêt à utiliser avec l'implémentation .NET (via Nuget ou Github). Lire la suite ici: https://github.com/Copyleaks/.NET-Plagiarism-Checker – No1Lives4Ever