J'ai petit problème avec un simple tokenizer regex:RegexpError: débordement de pile dans regexp matcher
def test_tokenizer_regex_limit
string = '<p>a</p>' * 400
tokens = string.scan(/(<\s*tag:.*?\/?>)|((?:[^<]|\<(?!\s*tag:.*?\/?>))+)/)
end
Fondamentalement, il passe par le texte et obtient des paires de [matched_tag, other_text]. Voici un exemple: http://rubular.com/r/f88JBjfzFh
Fonctionne correctement pour les petites séries. Si vous courez sous Ruby 1.8.7 il va exploser. 1.9.2 fonctionne bien.
Des idées pour simplifier/améliorer cela? Mon regex-fu est faible
Je ne suis pas vraiment (x) html analyse cependant. Juste besoin de tokenize texte comme ceci: texte | | plus de texte | . En fait, il pourrait s'agir d'une chaîne comme celle-ci: '' Pas vraiment analysable. –
Grocery