Je travaille dans l'indexation de flux à partir d'Internet. Je voudrais supprimer le code html qui apparaît dans certains d'entre eux. J'ai utilisé l'expression régulière pour ceux que j'ai vus, mais je voudrais trouver un moyen de tous les supprimer automatiquement, car je ne sais pas si j'ai vu tout le code html possible dans mes flux. Y a-t-il une possibilité? ajouter un exemple de choses que je voudrais supprimer: /0831/oly_g_liukin_576.jpg » height = "49" width = "41"/> BEIJING - 15 août: Nastia Liukin du ...Supprimer le code html dans un texte sans expression régulière
1
A
Répondre
0
En C# il pourrait ressembler (il supprimera les balises HTML) ceci:
public static String RemoveHtmlTagsFromString(String source)
{
char[] array = new char[source.Length];
int arrayIndex = 0;
bool inside = false;
foreach (char let in source)
{
if (let == '<')
{
inside = true;
continue;
}
if (let == '>')
{
inside = false;
continue;
}
if (!inside)
{
array[arrayIndex] = let;
arrayIndex++;
}
}
return new string(array, 0, arrayIndex);
}
2
Utilisez l'utilitaire Jsoup, très bon util pour dépouiller le code HTML d'une chaîne
Questions connexes
- 1. Expression régulière pour supprimer les chaînes HTML
- 2. Expression régulière pour obtenir html sans commentaires
- 3. Javascript Expression régulière [Supprimer événements]
- 4. expression régulière pour supprimer un commentaire javascript
- 5. PHP expression régulière pour supprimer les balises dans le document HTML
- 6. Expression régulière pour analyser html
- 7. expression régulière pour supprimer les liens
- 8. expression régulière supprimer balise de commentaire
- 9. ruby on rails expression régulière pour supprimer les balises html et son contenu du texte
- 10. expression régulière pour supprimer li en php
- 11. Valider une expression régulière sans attraper d'exception?
- 12. Expression régulière pour les objets HTML
- 13. expression régulière pour analyser des liens html
- 14. Python expression régulière correspondant à un bloc multiligne de texte, mais sans le remplacer
- 15. Expression régulière Python pour l'analyse HTML (BeautifulSoup)
- 16. Expression régulière pour la reconnaissance de citations dans le texte
- 17. expression régulière dans asp.net
- 18. VB6 expression régulière pour Dissolvant les espaces blancs HTML
- 19. Expression régulière pour supprimer l'extension d'un fichier
- 20. Expression régulière dans Asp.Net
- 21. Zone de texte ASP.NET et expression régulière
- 22. Expression régulière pour extraire des données dans un code html php
- 23. Expression régulière pour trouver une expression régulière?
- 24. Vérifier le texte pour le HTML avec l'expression régulière
- 25. Expression régulière dans XSLT
- 26. expression régulière pour saisir du texte cité dans le code PHP
- 27. expression régulière, multiligne
- 28. .net Expression régulière impliquant des balises html
- 29. expression régulière aide
- 30. PHP: Expression régulière pour supprimer le texte d'une chaîne si la condition est vraie
Je travaille sur java, mais en tout cas, j'ai eu une expression régulière pour, mais je cherchais quelque chose de plus efficace pour supprimer des choses comme je l'ai écrit dans l'exemple. Suppression de tout le code "pas beau" dans le flux. Tx! –
Blanca
@Blanca, que voulez-vous dire par le code "pas beau"? Je ne pense pas que C, ou même Java, a un concept inhérent de la façon de reconnaître la beauté, ou la laideur. –
bien sûr pas, mais avec le code «pas beau», je veux dire le code qui n'est pas du flux, le code qui est comme un complément dans le flux, comme /0831/oly_g_liukin_576.jpg "height =" 49 "width = "41" /> Ce type de code n'apparaît pas dans un flux normal, mais dans le mien est include – Blanca