2016-11-27 2 views
-1

Existe-t-il un moyen de faire en sorte que python "lise" le document, exclue les éléments inutiles et construit une matrice d'adjacence de 1 et 0? J'ai une feuille de calcul de 500 pages visitées avec des liens, des liens externes et des pages qui pendent (doit être exclu de la recherche).Lire des données à partir d'une feuille de calcul et construire une matrice en python

Je pensais à un pseudocode brut qui ressemblerait à quelque chose comme ceci:

for each visited page vp 
for each outlink of vp 
    if link relative 
    revolve link 
    if ink to visited page 
    write 1 
    else 
if link dangling 
    ignore it 
else 
    write 0 

Est-il possible de mettre en œuvre cette idée en quelque sorte au sein de Python? Ou utiliser Matlab ou R serait plus utile?

Liens vers les résultats sur chenilles: http://www.dcs.bbk.ac.uk/~martin/sewn/ls3/sewn_2016_labsheet_3_full_crawl.txt http://www.dcs.bbk.ac.uk/~martin/sewn/ls3/sewn_2016_labsheet_3_full_crawl.xlsx

Répondre

1

Y at-il un moyen de faire python « lire » le document, exclure les éléments non nécessaires et de construire une matrice de contiguïté de 1 et 0?

Oui

s'il vous plaît se référer à https://docs.python.org/2/tutorial/inputoutput.html

meilleure façon de commencer les documents d'ouverture et de lecture:

f = open('workfile', 'r') 
fileLines = f.readlines() 

#do something with your lines 
#properly adapt your pseudocode to 
#the extracted data 

f.close() 

le reste de vos questions sont hors de portée.