Existe-t-il un moyen de faire en sorte que python "lise" le document, exclue les éléments inutiles et construit une matrice d'adjacence de 1 et 0? J'ai une feuille de calcul de 500 pages visitées avec des liens, des liens externes et des pages qui pendent (doit être exclu de la recherche).Lire des données à partir d'une feuille de calcul et construire une matrice en python
Je pensais à un pseudocode brut qui ressemblerait à quelque chose comme ceci:
for each visited page vp
for each outlink of vp
if link relative
revolve link
if ink to visited page
write 1
else
if link dangling
ignore it
else
write 0
Est-il possible de mettre en œuvre cette idée en quelque sorte au sein de Python? Ou utiliser Matlab ou R serait plus utile?
Liens vers les résultats sur chenilles: http://www.dcs.bbk.ac.uk/~martin/sewn/ls3/sewn_2016_labsheet_3_full_crawl.txt http://www.dcs.bbk.ac.uk/~martin/sewn/ls3/sewn_2016_labsheet_3_full_crawl.xlsx