Je suis impuissant sur les expressions régulières alors s'il vous plaît aidez-moi sur ce problème. Fondamentalement, je télécharge des pages Web et des flux rss et que vous voulez supprimer tout sauf des mots simples. Pas de points, de virgules, si, et, et mais. Littéralement j'ai une liste des mots les plus communs utilisés en anglais et je veux également dépouiller ceux-ci aussi mais je pense que je sais comment faire cela et n'ai pas besoin d'une expression régulière parce que ce serait vraiment long. Comment puis-je supprimer tout d'un bloc de texte à l'exception des mots délimités par des espaces?Expression régulière pour supprimer tout sauf les mots
Tout le reste va à la poubelle.
Cela fonctionne très bien grâce à Pavel .split(/[^[:alpha:]]/).uniq!
Qu'en est-apostrophes (ou même apostrophes de marchand de légumes)? –
ne fonctionne pas à partir d'eux. – s84
nokogriri est probablement la meilleure solution ici parce que c'est un analyseur HTML et je suppose que l'on ne devrait pas utiliser regex pour le faire. – s84