Twitter (Social networking) Dataset

Szukam Twittera lub innych serwisów społecznościowych do mojego projektu. Obecnie mam zestaw danych CAW 2.0 twitter, ale zawiera tylko tweety użytkowników. Chcę dane, które pokazuje liczbę przyjaciół, obserwujących i takie.

To nie musi być twitter, ale wolałbym twitter lub facebook. Próbowałem już infochimps, ale najwyraźniej plik nie jest już do pobrania dla Twittera.

Czy ktoś może mi podać dobre strony do znajdowania tego typu zbiorów danych? I nakarmię hadoop ' a zestawem danych.

Author: Brian Tompsett - 汤莱恩, 2010-07-27

4 answers

Wypróbuj następujące trzy zbiory danych:

Zawiera około 97 milionów tweetów:

http://demeter.inf.ed.ac.uk/index.php?option=com_content&view=article&id=2:test-post-for-twitter&catid=1:twitter&Itemid=2

ed Uwaga: zbiór danych wcześniej połączonych powyżej nie jest już dostępny z powodu żądania od Twittera, aby go usunąć.

Zawiera wykres 47 milionów użytkowników użytkownicy:

Http://an.kaist.ac.kr/traces/WWW2010.html

Następujący zbiór danych zawiera sieć, jak również tweety, jednak dane zostały zebrane przez Snowball sampling lub coś stąd sieć znajomych nie jest jednolita. Ma około 10 milionów tweetów, które możesz wysłać badaczowi, aby uzyskać jeszcze więcej danych.

Http://www.public.asu.edu / ~mdechoud/datasets.html

Przyjrzyj się jednak licencji, na której dane są rozpowszechniane.

Hope this pomaga, Możesz mi też powiedzieć, jaki rodzaj pracy planują z tym zestawem danych? Mam kilka skryptów hadoop / pig do użycia z dataset

 7
Author: Mark Elliot,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2011-12-01 01:19:20

100 milionów stron zostało wydobytych z facebook ' a : http://it.slashdot.org/story/10/07/28/1350222/100-Million-Facebook-Pages-Leaked-On-Torrent-Site?art_pos=6

Nie wiem, co zawierają, ale mógłbyś rzucić okiem, wydaje się, że łatwo jest znaleźć na stronach torrentów.

Facebook Facebook API może być również używany, ale jeśli chcesz mieć wystarczająco duży zbiór danych, musisz poprosić Facebooka o prawa dostępu do niego. Zawiera linki do znajomych, polubień, grup, ...
 5
Author: Scharron,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-08-02 15:28:57

Facebook social graph, instalacje aplikacji i Last.fm użytkownicy, wydarzenia, grupy zebrane przez naukowców z UCIrvine: http://odysseas.calit2.uci.edu/research/

 2
Author: pbx,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-12-10 01:17:10

Myślę, że najlepszym narzędziem do zbierania danych na Twitterze jest http://www.followthehashtag.com , może uzyskać dane historyczne lub przyszłe oraz zaawansowane funkcje eksportu danych

Z sekcją, w której dodajemy duże zbiory danych (około 200 000 tweetów) raz w tygodniu

Http://followthehashtag.com/datasets/

 1
Author: Enrique R Rivera,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2016-04-28 09:30:28