Je dois nettoyer certaines entrées de l'OCR qui reconnaît l'écriture manuscrite comme du charabia. Des suggestions pour une regex pour nettoyer les caractères aléatoires? Exemple:Regex pour remplacer le charabia
Federal prosecutors on Monday charged a Miami man with the largest case of credit and debit card data theft ever in the United States, accusing the one-time government informant of swiping 130 million accounts on top of 40 million he stole previously. , ':, Ie ':... 11'1 . '(.. ~!' ': f I I . " .' I ~ I' ,11 l I I I ~ \ :' ,! .~ , .. r, 1 , ~ I . I' , .' I ,. , i I ; J . I.' ,.\) .. . : I 'I', I .' ' r," Gonzalez is a former informant for the U.S. Secret Service who helped the agency hunt hackers, authorities say. The agency later found out that he had also been working with criminals and feeding them information on ongoing investigations, even warning off at least one individual, according to authorities. eh....l ~.\O ::t e;~~~ s: ~ ~. 0 qs c::; ~ g o t/J (Ii ., ::3 (1l Il:l ~ cil~ 0 2: t:lHj~(1l . ~ ~a 0~ ~ S' N ("b t/J :s Ot/JIl:l"-<:! v'g::!t:O -....c...... VI (:ll <' 0 := - ~ < (1l ::3 (1l ~ ' t/J VJ ~ Pl ..... .... (II
+1 parce qu'il est une question intéressante, même si je pense que vous ne serez pas obtenir une réponse qui fonctionne. –
C'est une bonne question, et la reconnaissance de mots/phrases (ou l'inverse) est un sujet brûlant dans le cadre de l'IA. – Russell
Je crois fortement qu'un REGEX est le mauvais outil pour ce travail. – Breton