Circonstance plus précis:Comment détecter des informations vulnérables/personnels dans les CV par programme (par analyse syntaxique/analyse syntaxique etc ...)
- Comment détecter des noms de personnes (semble comme simple cas de nom extraction d'entité?)
- Comment détecter des adresses: ma meilleure estimation - trouver le code postal (regex); noms de pays et de villes et prendre du texte autour d'eux.
- En ce qui concerne les téléphones, courriels - ils pourraient être probablement pris par diverses expressions rationnelles + prétraitements
- ne se soucient pas de l'éducation/expérience de travail à ce stade
Raisonnement: Afin de construire un index texte intégral Sur les CV, toutes les informations vulnérables doivent être supprimées.
P.S. les API/services tiers ne fonctionneront pas comme une solution.
Avez-vous les CV sous forme de texte ou devez-vous effectuer une ROC ou d'autres moyens de dériver du texte? Considérer OCR est lui-même loin d'être parfait, ce qui ajoute une couche supplémentaire de complication. – ldog