2010-07-27 6 views
15

Je suis à la recherche de Twitter ou d'autres ensembles de données de sites de réseautage social pour mon projet. J'ai actuellement le jeu de données Twitter CAW 2.0 mais il ne contient que des tweets d'utilisateurs. Je veux une donnée qui montre le nombre d'amis, suiveurs et autres.Twitter (Réseaux sociaux) Dataset

Il ne doit pas être twitter mais je préférerais twitter ou facebook. J'ai déjà essayé infochimps mais apparemment le fichier n'est plus téléchargeable pour twitter. Est-ce que quelqu'un peut me donner de bons sites Web pour trouver ce type de jeu de données? Je vais alimenter l'ensemble de données à hadoop.

Répondre

7

Essayez les trois ensembles de données suivants:

contient environ 97 milllions tweets:

http://demeter.inf.ed.ac.uk/index.php?option=com_content&view=article&id=2:test-post-for-twitter&catid=1:twitter&Itemid=2

ndlr : l'ensemble de données précédemment lié n'est plus disponible en raison d'une demande de Twitter pour le supprimer.

Contient graphique utilisateur de 47 millions d'utilisateurs:

http://an.kaist.ac.kr/traces/WWW2010.html

ensemble de données suivant contient le réseau ainsi que les tweets, mais les données ont été recueillies par échantillonnage boule de neige ou quelque chose d'où le réseau d'amis n'est pas uniforme. Il a environ 10 millions de tweets que vous pouvez poster le chercheur pour encore plus de données.

http://www.public.asu.edu/~mdechoud/datasets.html

Bien que jeter un oeil à la licence les données sont distribuées sous.

Espérons que cela vous aide, Pouvez-vous me dire quel type de travail planifiez avec cet ensemble de données? J'ai peu Hadoop/scripts de porcs à utiliser avec jeu de données

+0

pas sûr, mais je vais l'utiliser pour mon cours d'apprentissage automatique. – denniss

+1

@Akhay Bhat: Ils semblent avoir supprimé les jeux de données à partir d'aujourd'hui. Auriez-vous connaissance d'autres ensembles de données qui pourraient être disponibles? Je vous remercie! – Legend

5

100 millions de pages ont été extraites de facebook: http://it.slashdot.org/story/10/07/28/1350222/100-Million-Facebook-Pages-Leaked-On-Torrent-Site?art_pos=6

Je ne sais pas ce qu'ils contiennent, mais vous pouvez jeter un oeil, il semble qu'il est facile de trouver sur les sites de torrents.

Vous pouvez également utiliser l'API facebook, mais si vous voulez un jeu de données assez grand, vous devrez demander à Facebook les droits d'accès. Il contient des liens à des amis, aime, groupes, ...

+1

Il y a aussi une API Twitter en passant. –

+0

oui je l'ai vu.merci bien – denniss

+0

bizarre comment je n'ai pas gagné la prime –

1

Je pense que le meilleur outil pour twitter données la collecte est http://www.followthehashtag.com, il peut obtenir des données historiques ou futures et des données avancées caractéristiques exportation

avec une section où l'on ajoute des ensembles de données (grands environ 200 000 tweets) une fois par semaine

http://followthehashtag.com/datasets/

Questions connexes