Je cherche un moyen de nettoyer les chaînes de leur plus long motif répétitif.Trouver un motif répétitif dans une liste de chaînes
J'ai une liste d'environ 1000 titres de pages Web, et ils partagent tous un suffixe commun, qui est le nom du site Web.
Ils suivent ce modèle:
['art gallery - museum and visits | expand knowledge',
'lasergame - entertainment | expand knowledge',
'coffee shop - confort and food | expand knowledge',
...
]
Comment pourrais-je dépouiller automatiquement toutes les chaînes de leur suffixe commun " | expand knowledge"
?
Merci!
Editer: Désolé, je ne me suis pas suffisamment expliqué. Je n'ai aucune information sur le suffixe " | expand knowledge"
à l'avance. Je veux être en mesure d'effacer une liste de chaînes d'un suffixe commun potentiel, même si je ne sais pas ce que c'est.
pouvez-vous développer un peu vos besoins. En ce moment, il semble que vous demandiez quelque chose qui prendra un temps de calcul fou. –
@SamIam Je travaille sur un crawler besoin de connaissances minimales sur la structure HTML du site Web cible. Je raccroche le titre d'une page de la balise HTML