Je me suis gratté la tête à propos de celui-ci pendant un moment maintenant. J'essaie de faire du text mining dans R, et je cherche à classer les noms, les lieux et les organisations qui sont composés de plusieurs mots. Pour les besoins de cette tâche, je ne regarde que les mots consécutifs de la chaîne commençant par des majuscules.Détection de deux mots "Proper Case" consécutifs dans une chaîne en utilisant R
Exemple chaîne:
origString <- 'The current president of the United States is Donald Trump'
Est-il possible de trouver les mots commençant par une lettre majuscule au sein de cette chaîne et les regrouper pour retourner quelque chose comme ça?
newString <- 'The current president of the UnitedStates is DonaldTrump'
Toute aide que vous pouvez donner serait grandement appréciée.
Parfait, merci. Reconnaissez qu'il est temps de rafraîchir l'ancienne regex. –
@ReubenKandiah Le problème devient plus difficile si vous voulez soutenir des groupes de 3, 4, ... Avez-vous besoin de cela aussi bien? –
Je peux certainement imaginer des exemples où je voudrais - par exemple, l'expression «World Duty Free est le plus grand opérateur britannique» serait idéalement réduite à «WorldDutyFree est le plus grand opérateur britannique». –