1

Circonstance plus précis:Comment détecter des informations vulnérables/personnels dans les CV par programme (par analyse syntaxique/analyse syntaxique etc ...)

  1. Comment détecter des noms de personnes (semble comme simple cas de nom extraction d'entité?)
  2. Comment détecter des adresses: ma meilleure estimation - trouver le code postal (regex); noms de pays et de villes et prendre du texte autour d'eux.
  3. En ce qui concerne les téléphones, courriels - ils pourraient être probablement pris par diverses expressions rationnelles + prétraitements
  4. ne se soucient pas de l'éducation/expérience de travail à ce stade

Raisonnement: Afin de construire un index texte intégral Sur les CV, toutes les informations vulnérables doivent être supprimées.

P.S. les API/services tiers ne fonctionneront pas comme une solution.

+1

Avez-vous les CV sous forme de texte ou devez-vous effectuer une ROC ou d'autres moyens de dériver du texte? Considérer OCR est lui-même loin d'être parfait, ce qui ajoute une couche supplémentaire de complication. – ldog

Répondre

2

Le problème qui vous intéresse est l'extraction d'informations à partir de sources semi-structurées. http://en.wikipedia.org/wiki/Information_extraction

Je pense que vous devriez télécharger quelques articles de recherche dans ce domaine pour avoir une idée de ce qui peut être fait et de ce qui ne le peut pas.

0

Je pense que cela ne peut pas être fait par une machine.

Tous les autres CV auront un format et une disposition différents. Le mieux que vous puissiez faire est de concevoir un format interne et de copier manuellement chaque contenu de CV. Ou demandez aux candidats de remplir votre formulaire (peu de gens s'en soucieront).

+1

http://adlab.msn.com/vnext/People-Name-Detection/ pourrait être un exemple de détecteur de nom - mais dans mon cas j'ai besoin d'algorithme, pas de service. Ou au moins référence à du matériel de recherche. L'analyse de syntaxe est trop large pour que j'étudie. – bushed

+0

Vous n'avez pas fait d'inscription auprès de l'entreprise qui utilise BrassRing pour leurs RH/recrutement. Ils font ça, et c'est plutôt sympa. – monksy

0

Je pense que le problème devrait être divisé en deux domaines de recherche:

  1. Trouver des informations relatives aux noms propres
  2. Recherche d'informations qui est stéréotypé

Tout d'abord les informations relatives à une bonne les noms pourraient probablement être mieux trouvés en cherchant des éléments qui sont soit grammaticalement important ou significatif. C'est à dire. L'anglais ne capitalise que le premier mot de la phrase et les noms propres. Pour les règles grammaticales, vous pouvez rechercher tous les mots dont la première lettre du mot est en majuscule et la comparer à une base de données contenant le mot et le type [i.e. Bob - Nom, Elon - Lieu, Angleterre - Lieu].

Deuxièmement: Informations de formule. Cela concerne davantage les adresses électroniques, les numéros de téléphone et les adresses physiques. Tous ont un format spécifique qui ne change pas. Utilisez une regex et utilisez un algorithme pour détecter la qualité des correspondances.

Attention: Les règles grammaticales changent en fonction du langage. L'allemand capitalise TOUS les noms. Il peut être préférable de détecter la langue du document avant d'appliquer vos règles. En outre, un autre problème avec ceci [et mon résumé parfois] est comment il est conçu. Si le résumé a été conçu avec autre chose qu'un éditeur de texte [outils de conception], le texte peut ne pas être aligné ou être au format bitmap.

TL; DR Version: Les techniques NLP peuvent vous aider beaucoup.

Questions connexes