2016-05-26 1 views
0

Je suis en train de télécharger des fichiers warc à partir d'aws crawl sur https, qui fonctionnait mais pour une raison quelconque, quand j'ai essayé récemment je reçois erreur the specified key does not exist. Lorsque je teste l'index d'une URL spécifique, j'obtiens une réponse, mais lorsque j'essaie de télécharger le fichier warc pour chaque enregistrement, j'obtiens l'erreur.common crawl error "la clé spécifiée n'existe pas"

est ici l'URL de l'index http://index.commoncrawl.org/CC-MAIN-2015-11-index?url=fivethirtyeight.com&matchType=domain&output=json pour tester, ce qui montre de nombreux enregistrements qui sont formatés comme suit: {"urlkey": "com,fivethirtyeight)/", "timestamp": "20150228172316", "url": "http://fivethirtyeight.com/", "length": "17426", "filename": "crawl-data/CC-MAIN-2015-11/segments/1424936462009.45/warc/CC-MAIN-20150226074102-00094-ip-10-28-5-156.ec2.internal.warc.gz", "digest": "FXI6SYLZSAFRSUOIKOZ6XVMQW2NHHLZK", "offset": "96230370"}

Ceci est l'URL que je tente d'utiliser pour télécharger le CAMR pour l'enregistrement: https://aws-publicdatasets.s3.amazonaws.com/crawl-data/CC-MAIN-2015-11/segments/1424936462009.45/warc/CC-MAIN-20150226074102-00094-ip-10-28-5-156.ec2.internal.warc.gz

Ai-je manqué quelque chose de vraiment évident?

Répondre

1

Basé sur this ...

Disponible à: s3: //-SSFE publicdatasets/rampent commune/

... il semble que vous manque un chemin préfixe de /common-crawl, donc je suggère que l'URL correcte serait https://aws-publicdatasets.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2015-11/...

+0

donc c'était quelque chose de plutôt évident. Merci pour l'aide! – user2338089