common crawl error "la clé spécifiée n'existe pas"

Je suis en train de télécharger des fichiers warc à partir d'aws crawl sur https, qui fonctionnait mais pour une raison quelconque, quand j'ai essayé récemment je reçois erreur the specified key does not exist. Lorsque je teste l'index d'une URL spécifique, j'obtiens une réponse, mais lorsque j'essaie de télécharger le fichier warc pour chaque enregistrement, j'obtiens l'erreur.common crawl error "la clé spécifiée n'existe pas"

est ici l'URL de l'index http://index.commoncrawl.org/CC-MAIN-2015-11-index?url=fivethirtyeight.com&matchType=domain&output=json pour tester, ce qui montre de nombreux enregistrements qui sont formatés comme suit: {"urlkey": "com,fivethirtyeight)/", "timestamp": "20150228172316", "url": "http://fivethirtyeight.com/", "length": "17426", "filename": "crawl-data/CC-MAIN-2015-11/segments/1424936462009.45/warc/CC-MAIN-20150226074102-00094-ip-10-28-5-156.ec2.internal.warc.gz", "digest": "FXI6SYLZSAFRSUOIKOZ6XVMQW2NHHLZK", "offset": "96230370"}

Ceci est l'URL que je tente d'utiliser pour télécharger le CAMR pour l'enregistrement: https://aws-publicdatasets.s3.amazonaws.com/crawl-data/CC-MAIN-2015-11/segments/1424936462009.45/warc/CC-MAIN-20150226074102-00094-ip-10-28-5-156.ec2.internal.warc.gz

Ai-je manqué quelque chose de vraiment évident?

Source

2016-05-26 user2338089

Basé sur this ...

Disponible à: s3: //-SSFE publicdatasets/rampent commune/

... il semble que vous manque un chemin préfixe de /common-crawl, donc je suggère que l'URL correcte serait https://aws-publicdatasets.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2015-11/...

Source

2016-05-26 22:20:21

donc c'était quelque chose de plutôt évident. Merci pour l'aide! – user2338089

common crawl error "la clé spécifiée n'existe pas"

Répondre

Questions connexes