2017-06-26 1 views
0

Je suis confronté à un défi avec l'utilisation de Rapid Miner pour réduire les dimensions de l'exploration de texte. À ce stade, je traite le texte par des jetons de mots et il en résulte un très grand ensemble de dimensions qui n'est pas idéal pour la modélisation et la prédiction. comment puis-je améliorer le processus d'utiliser d'autres méthodes pour nettoyer les données et ne prendre que les mots pertinents?Comment réduire les cotes de texte dans RapidMiner

J'ai essayé d'appliquer tfidf mais il supprime la variable cible et je ne suis pas capable de voir ce qu'il fait avant l'étape du modèle.

Merci

Répondre

0

L'opérateur Process Documents a une option d'élagage où, avec quelques réglages minutieux des paramètres, vous pouvez supprimer les attributs communs et rares.

Voici un exemple de jouet pour le montrer fonctionner.

<?xml version="1.0" encoding="UTF-8"?><process version="7.5.000"> 
    <context> 
    <input/> 
    <output/> 
    <macros/> 
    </context> 
    <operator activated="true" class="process" compatibility="7.5.000" expanded="true" name="Process"> 
    <process expanded="true"> 
     <operator activated="true" class="text:create_document" compatibility="7.4.001" expanded="true" height="68" name="Create Document" width="90" x="179" y="187"> 
     <parameter key="text" value="the cat sat on the mat&#10;the dog barked at the man&#10;the cow ate the grass&#10;the man sat on the grass"/> 
     </operator> 
     <operator activated="true" class="text:create_document" compatibility="7.4.001" expanded="true" height="68" name="Create Document (2)" width="90" x="179" y="289"> 
     <parameter key="text" value="the cat sat on the mat&#10;the man sat on the grass&#10;the rain in spain falls mainly on the plain"/> 
     </operator> 
     <operator activated="true" class="text:create_document" compatibility="7.4.001" expanded="true" height="68" name="Create Document (3)" width="90" x="179" y="391"> 
     <parameter key="text" value="the world is round"/> 
     </operator> 
     <operator activated="true" class="text:process_documents" compatibility="7.4.001" expanded="true" height="145" name="Process Documents" width="90" x="447" y="187"> 
     <parameter key="vector_creation" value="Term Occurrences"/> 
     <parameter key="prune_method" value="absolute"/> 
     <parameter key="prune_above_percent" value="40.0"/> 
     <parameter key="prune_below_absolute" value="2"/> 
     <parameter key="prune_above_absolute" value="5"/> 
     <process expanded="true"> 
      <operator activated="true" class="text:tokenize" compatibility="7.4.001" expanded="true" height="68" name="Tokenize" width="90" x="246" y="34"/> 
      <connect from_port="document" to_op="Tokenize" to_port="document"/> 
      <connect from_op="Tokenize" from_port="document" to_port="document 1"/> 
      <portSpacing port="source_document" spacing="0"/> 
      <portSpacing port="sink_document 1" spacing="0"/> 
      <portSpacing port="sink_document 2" spacing="0"/> 
     </process> 
     </operator> 
     <connect from_op="Create Document" from_port="output" to_op="Process Documents" to_port="documents 1"/> 
     <connect from_op="Create Document (2)" from_port="output" to_op="Process Documents" to_port="documents 2"/> 
     <connect from_op="Create Document (3)" from_port="output" to_op="Process Documents" to_port="documents 3"/> 
     <connect from_op="Process Documents" from_port="example set" to_port="result 1"/> 
     <portSpacing port="source_input 1" spacing="0"/> 
     <portSpacing port="sink_result 1" spacing="0"/> 
     <portSpacing port="sink_result 2" spacing="0"/> 
    </process> 
    </operator> 
</process> 

Il faut des soins pour l'obtenir juste, mais nous espérons que cela vous permettra de démarrer.

+0

merci. va l'essayer –