Possible en double:
Wikipedia : Java library to remove wikipedia text markup removaljava regex pour effacer les balises MediaWiki
Je dois nettoyer une partie du contenu qui vient de Confluence. Ce contenu est presque propre; Cependant, il y a des choses comme:
- [lien |]: Un lien sans la partie url
- * [lien |] *: Un lien (sans la partie url) en gras
- texte * *: texte en gras
- _ * _ * texte: italic texte en gras
Et ainsi de suite. Je dois écrire un regex qui nettoient tout cela, donc, je l'ai fait quelque chose comme:
String wikiCleanMarkupRegex = "\\\\[(.*?)[\\\\|.*?]?\\\\]|\\\\*(.*?)\\\\*|_(.*?)_";
Mais tout cela ne pas propre, je veux dire, si je lui donne le lien dans # 2, je obtenez:
[link |]
ce qui est pas ce que je veux, je veux « lien » ... donc, je dois réanalyser la chaîne encore et encore jusqu'à ce qu'aucun autre match se trouve.
Ceci est vraiment lent car il y a des millions d'enregistrements à nettoyer, donc, est-il possible de faire une regex qui fait tout en même temps?
Merci beaucoup.
également , si j'ai quelque chose comme \ _ \ * \ [link | \] \ * \ _: Un lien (sans la partie url) en gras et en italique, je vais devoir l'analyser 3 fois, enlever l'italique, autre pour enlever le gras et le dernier pour enlever les parenthèses ... c'est trop lent pour ce dont j'ai besoin – user1739166