2010-10-20 4 views
0

quand je recherche par mot clé « données », je reçois abtract de papier dans la bibliothèque numérique:Comment supprimer tag html dans une chaîne?

Many organizations often underutilize their existing <span class='snippet'>data</span> warehouses. In this paper, we suggest a way of acquiring more information from corporate <span class='snippet'>data</span> warehouses without the complications and drawbacks of deploying additional software systems. Association-rule mining, which captures co-occurrence patterns within <span class='snippet'>data</span>, has attracted considerable efforts from <span class='snippet'>data</span> warehousing researchers and practitioners alike. Unfortunately, most <span class='snippet'>data</span> mining tools are loosely coupled, at best, with the <span class='snippet'>data</span> warehouse repository. Furthermore, these tools can often find association rules only within the main fact table of the <span class='snippet'>data</span> warehouse (thus ignoring the information-rich dimensions of the star schema) and are not easily applied on non-transaction level <span class='snippet'>data</span> often found in <span class='snippet'>data</span> warehouses 

Comment puis-je supprimer tous les tags <span class='snippet'>..</span>, mais toujours conserver les données keywod pour avoir abtract comme ça:

De nombreuses organisations sous-utilisent souvent leurs entrepôts de données existants. Dans cet article, nous suggérons un moyen d'acquérir plus d'informations à partir des entrepôts de données d'entreprise sans les complications et les inconvénients du déploiement de systèmes logiciels supplémentaires. L'extraction de règles d'association, qui capture les modèles de cooccurrence dans les données, a attiré des efforts considérables de la part des chercheurs et des praticiens de l'entreposage des données. Malheureusement, la plupart des outils d'exploration de données sont, au mieux, couplés de manière lâche au référentiel de l'entrepôt de données. En outre, ces outils peuvent souvent trouver des règles d'association uniquement dans la table de faits principale de l'entrepôt de données (ignorant ainsi les dimensions riches en informations du schéma en étoile) et ne sont pas faciles à appliquer aux données non transactionnelles souvent trouvées dans les entrepôts de données

+0

Est-ce que ça va toujours être ''? Vous pouvez utiliser une chaîne simple remplacer ou regex. – Marko

+0

Si n'importe quel type de HTML peut être présent, je vous suggère d'utiliser un analyseur au lieu d'une regex. Consultez ce wiki si vous voulez un bon analyseur ... http: //stackoverflow.com/questions/773340/can-you-provide-an-example-of-parsing-html-with-your-favorite-parser – InSane

+0

re : regex et HTML ... Thar être Dragons. –

Répondre

2

strip_tags() est votre ami. Code kindly copied from here.

public static String strip_tags(String text, String allowedTags) { 
     String[] tag_list = allowedTags.split(","); 
     Arrays.sort(tag_list); 

     final Pattern p = Pattern.compile("<[/!]?([^\\\\s>]*)\\\\s*[^>]*>", 
       Pattern.CASE_INSENSITIVE); 
     Matcher m = p.matcher(text); 

     StringBuffer out = new StringBuffer(); 
     int lastPos = 0; 
     while (m.find()) { 
      String tag = m.group(1); 
      // if tag not allowed: skip it 
      if (Arrays.binarySearch(tag_list, tag) < 0) { 
       out.append(text.substring(lastPos, m.start())).append(" "); 

      } else { 
       out.append(text.substring(lastPos, m.end())); 
      } 
      lastPos = m.end(); 
     } 
     if (lastPos > 0) { 
      out.append(text.substring(lastPos)); 
      return out.toString().trim(); 
     } else { 
      return text; 
     } 
    }