Chargement d'un fichier JSON extrêmement volumineux sans connaître le schéma?

J'essaye de charger un très grand fichier JSON en Python. J'ai essayé:Chargement d'un fichier JSON extrêmement volumineux sans connaître le schéma?

import json 
data = open('file.json').read() 
loaded = json.loads(data)

mais cela me donne une erreur SIGKILL.

J'ai essayé:

import pandas as pd 
df = pd.read_json('file.json')

et je reçois un hors-mémoire erreur.

Je voudrais essayer d'utiliser ijson pour diffuser mes données et seulement tirer un sous-ensemble à la fois. Cependant, vous devez connaître le schéma du fichier JSON afin de connaître les événements à rechercher. Je ne connais pas vraiment le schéma de mon fichier JSON. Donc, j'ai deux questions:

est-il un moyen de charger ou diffuser un grand fichier JSON en Python sans connaître le schéma? Ou un moyen de convertir un fichier JSON dans un autre format (ou dans un serveur postgresql, par exemple)?
Existe-t-il un outil pour cracher le schéma de mon fichier JSON?

MISE À JOUR:

occasion head file.json pour avoir une idée de ce que mon fichier JSON ressemble. De là, c'est un peu plus facile.

Source

2017-02-19 user1566200

pouvez-vous poster un échantillon de votre fichier json? –

Je traiterais des petites pièces du fichier. Jetez un oeil à Lazy Method for Reading Big File in Python?. Vous pouvez adapter la réponse proposée pour analyser votre objet JSON par objet.

Source

2017-02-19 13:32:22

-1

Vous pouvez lire en morceaux, quelque chose comme ça

f=open("file.json") 
while True: 
    data = f.read(1024) 
    if not data: 
     break 
    yield data

ligne par option de ligne data = [] avec open ('fichier') comme f: pour la ligne à f: data.append (json.loads (ligne))

Regardez aussi https://www.dataquest.io/blog/python-json-tutorial/

Rechercher plus de réponses avec JSOnline

Source

2017-02-19 13:33:57

Cette méthode ne fonctionne pas; quand j'essaye de charger un morceau du fichier json en utilisant 'json.loads' ou' pandas.read_json', j'obtiens des erreurs à propos de ce soit n'étant pas un objet json, ou dans le cas de pandas, c'est un 'ValueError: Trailing data' – user1566200

S'il vous plaît essayer ceci pour jsonline dans f: rendement json.loads (jsonline) –

Je reçois 'rendement à l'extérieur de la fonction' – user1566200

Chargement d'un fichier JSON extrêmement volumineux sans connaître le schéma?

Répondre

Questions connexes