J'ai une grande matrice clairsemée représentant des attributs pour des millions d'entités. Par exemple, un enregistrement, représentant une entité, peut avoir des attributs "has (fur)", "has (tail)", "makesSound (miaou)" et "is (cat)".Classificateur évolutif pour la recherche d'attributs manquants
Cependant, ces données sont incomplètes. Par exemple, une autre entité peut avoir tous les attributs d'une entité "is (cat)" typique, mais il peut manquer l'attribut "is (cat)". Dans ce cas, je veux déterminer la probabilité que cette entité ait l'attribut "is (cat)". Donc, le problème que j'essaie de résoudre est de déterminer quels attributs manquants doivent être contenus dans chaque entité. Étant donné un enregistrement arbitraire, je veux trouver les N attributs les plus probables qui manquent, mais devraient être inclus. Je ne suis pas sûr de ce que le nom officiel est pour ce type de problème, donc je ne sais pas quoi rechercher lors de la recherche de solutions actuelles. Existe-t-il une solution évolutive pour ce type de problème? Ma première consiste simplement à calculer la probabilité conditionnelle pour chaque attribut manquant (par exemple P (est (cat) | a (fourrure) et a (queue) et ...)), mais cela semble être une approche très lente . De plus, si je comprends le calcul traditionnel de la probabilité conditionnelle, j'imagine que je rencontrerais des problèmes où mon entité contient quelques attributs inhabituels qui ne sont pas communs avec d'autres entités (cat), provoquant la probabilité conditionnelle à zéro.
Ma deuxième idée consiste à former un classificateur à entropie maximale pour chaque attribut, puis à l'évaluer en fonction des attributs actuels de l'entité. Je pense que le calcul des probabilités serait beaucoup plus flexible, mais cela aurait encore des problèmes d'évolutivité, puisque je devrais former des classificateurs séparés pour potentiellement des millions d'attributs. De plus, si je voulais trouver les N attributs les plus probables à inclure, je devrais encore évaluer tous les classificateurs, ce qui prendrait probablement une éternité.
Y a-t-il de meilleures solutions?
Grande reformulation de mon problème. – Cerin