J'ai une question concernant les forêts aléatoires. Imaginez que j'ai des données sur les utilisateurs interagissant avec des éléments. Le nombre d'éléments est important, environ 10 000. Mon résultat de la forêt aléatoire doit être les éléments avec lesquels l'utilisateur est susceptible d'interagir (comme un système de recommandation). Pour tout utilisateur, je souhaite utiliser une fonctionnalité décrivant les éléments avec lesquels l'utilisateur a interagi dans le passé. Toutefois, le mappage de la caractéristique de produit catégorique comme un codage à chaud unique semble très inefficace en termes de mémoire car un utilisateur n'interagit pas plus de quelques centaines d'éléments au maximum, et parfois aussi peu que 5.Variables catégorielles avec de grandes quantités de catégories dans XGBoost/CatBoost
Comment allez-vous? à propos de la construction d'une forêt aléatoire lorsque l'une des entités en entrée est une variable catégorique avec ~ 10 000 valeurs possibles et la sortie est une variable catégorique avec ~ 10 000 valeurs possibles? Devrais-je utiliser CatBoost avec les fonctionnalités aussi catégoriques? Ou devrais-je utiliser un codage à chaud unique, et si oui, pensez-vous que XGBoost ou CatBoost fait mieux?
Cela pourrait être mieux de demander à https://datascience.stackexchange.com/ - il semble un peu plus théorique que sur le code? – josh
Okay va essayer là à la place, merci –