2010-05-31 4 views
1

Je travaille dans l'indexation de flux à partir d'Internet. Je voudrais supprimer le code html qui apparaît dans certains d'entre eux. J'ai utilisé l'expression régulière pour ceux que j'ai vus, mais je voudrais trouver un moyen de tous les supprimer automatiquement, car je ne sais pas si j'ai vu tout le code html possible dans mes flux. Y a-t-il une possibilité? ajouter un exemple de choses que je voudrais supprimer: /0831/oly_g_liukin_576.jpg » height = "49" width = "41"/> BEIJING - 15 août: Nastia Liukin du ...Supprimer le code html dans un texte sans expression régulière

Répondre

0

En C# il pourrait ressembler (il supprimera les balises HTML) ceci:

public static String RemoveHtmlTagsFromString(String source) 
{ 
    char[] array = new char[source.Length]; 
    int arrayIndex = 0; 
    bool inside = false; 

    foreach (char let in source) 
    { 
     if (let == '<') 
     { 
      inside = true; 
      continue; 
     } 

     if (let == '>') 
     { 
      inside = false; 
      continue; 
     } 

     if (!inside) 
     { 
      array[arrayIndex] = let; 
      arrayIndex++; 
     } 
    } 
    return new string(array, 0, arrayIndex); 
} 
+0

Je travaille sur java, mais en tout cas, j'ai eu une expression régulière pour , mais je cherchais quelque chose de plus efficace pour supprimer des choses comme je l'ai écrit dans l'exemple. Suppression de tout le code "pas beau" dans le flux. Tx! – Blanca

+0

@Blanca, que voulez-vous dire par le code "pas beau"? Je ne pense pas que C, ou même Java, a un concept inhérent de la façon de reconnaître la beauté, ou la laideur. –

+0

bien sûr pas, mais avec le code «pas beau», je veux dire le code qui n'est pas du flux, le code qui est comme un complément dans le flux, comme /0831/oly_g_liukin_576.jpg "height =" 49 "width = "41" /> Ce type de code n'apparaît pas dans un flux normal, mais dans le mien est include – Blanca

Questions connexes