Dans l'un des projets, nous avons des fichiers html stockés dans la base de données oracle mais nous pouvons le conserver aussi bien dans les fichiers que dans une base de données NOSQL . Nous recevons des mots-clés et, en fonction de ceux-ci, nous devons trouver des sections pertinentes dans ces fichiers. Ces fichiers sont déclaration de l'entreprise de base, articles de presse, rapports financiers, etc. maintenant besoin de trouver différentes sections disons concernant ci-dessous les catégories:Extrait des sections ou paragraphes pertinents d'un document basé sur le mot-clé
risque utilisant des mots clés tels que la criminalité, le vol, les litiges, accuser, etc.
classement Change utilisant des mots clés comme 'partiront', la nomination de certains officiers, 'Election du directeur', etc
- droits des actionnaires en utilisant des mots-clés comme «droits des actionnaires», «actions en justice», «redressements financiers», etc
Il existe d'autres catégories et ils ont défini des mots-clés à rechercher. Donc, l'exigence est catégorie extrait la section/paragraphe qui sont MOST pertinente. L'accent est mis sur Haute précision pour trouver la section la plus pertinente. Si des technologies telles que Solr ou Elastic search ou Jackrabbit prévoient que nous sommes ouverts. Juste besoin de la bonne direction pour corriger la technologie-pile nécessaire ici.
Actuellement, nous essayons Oracle text search mais je crois que nous pourrions avoir une meilleure solution programmatique ainsi que l'utilisation de l'apprentissage automatique ou de la PNL ou une bibliothèque en Java qui ferait cela. Veuillez me donner quelques idées. Je suis un développeur java expérimenté et je travaille avec Machine Leaning et NLP. Je suis agnostique, donc une bonne solution en utilisant n'importe quelle langue ou technique est la bienvenue.
Si vous avez vos données dans une base de données Oracle Texte qui vous fera énormément tarder.Apprenez à utiliser les fonctionnalités lexer et à personnaliser le thésaurus. Le gros avantage est que vous travaillez sur les données in situ en utilisant les fonctionnalités déjà payées par votre organisation. – APC
@APC - Nous sommes ouverts aux nouvelles technologies. La recherche de texte d'Oracle AFAIK fournit juste le score de pertinence parmi différents documents PAS dans différentes sections/paragraphes du document. Aussi, je crois que la solution basée sur Java serait disponible dans la communauté open source et que cette fonction serait déjà utile pour savoir laquelle et comment démarrer. – nanosoft