Dites que vous avez une grande table qui contient une colonne varchar.Faire correspondre des lignes contenant un mot avec des permutations
Comment voulez-vous correspondre les lignes qui contiennent le mot « préféré » dans le varchar col mais les données sont un peu bruyant et contient des erreurs d'orthographe occasionnelles, par exemple:
['$2.10 Cumulative Convertible Preffered Stock, $25 par value',
'5.95% Preferres Stock',
'Class A Preffered',
'Series A Peferred Shares',
'Series A Perferred Shares',
'Series A Prefered Stock',
'Series A Preffered Stock',
'Perfered',
'Preffered C']
Les permutations du mot « préféré » dans les fautes d'orthographe ci-dessus semblent présenter un family resemblance mais il y a très peu de points communs. Notez que découper chaque mot et exécuter levenshtein sur chaque mot de chaque ligne va être prohibitif.
MISE À JOUR:
Il y a quelques autres exemples comme celui-ci, par exemple avec « limité »:
['Resticted Stock Plan',
'resticted securities',
'Ristricted Common Stock',
'Common stock (restrticted, subject to vesting)',
'Common Stock (Retricted)',
'Restircted Stock Award',
'Restriced Common Stock',]
Demandez-vous spécifiquement «préféré», ou s'agit-il d'un problème général? –
il y a un petit nombre d'autres exemples comme ceci –