Duże Zbiory Danych

Zawsze szukam dużych zbiorów danych do testowania różnych typów programów. Czy ktoś ma jakieś sugestie?

Author: Ryan Gates, 2008-08-16

8 answers

Zobacz konkurs na Netflixa . Sądzę, że ujawnili swoją bazę danych, lub duży podzbiór, aby ułatwić konkurs.

UPDATE: ich faq mówi, że mają 100 milionów wpisów w podzbiorze, który możesz pobrać.

 10
Author: Mike Stone,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2008-08-15 23:24:37

Możesz rzucić okiem na dane dla American Statistical Association data expo - to szczegóły lotów dla wszystkich lotów komercyjnych w USA Przez ostatnie 20 lat - 120 milionów rekordów, 11 GIGA danych.

 5
Author: hadley,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2008-09-19 22:07:07

Wykonałem trochę pracy z Wikimedia zestawami pobierania, które są ogromnymi plikami XML. Niestety ich serwer pobierania wydaje się mieć obecnie problemy z przestrzenią dyskową, więc wiele zestawów danych nie jest dostępnych. Ale gdy jest dostępny, cały zestaw danych Angielskiej Wikipedii z pełną historią wynosi 2,8 TB(18 GB skompresowane).

 2
Author: Greg Hewgill,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2008-08-16 05:56:03

Liczba del.icio.us użytkownicy (w tym ja) tagują strony zawierające publiczne dane za pomocą tagu "publicdata". Archiwum znajdziesz tutaj i subskrybuj kanał RSS dla tego tagu tutaj . Zapisz się do kanału, a zobaczysz stały strumień interesujących zestawów danych, które pojawiają się w Internecie.

Nie wszystkie te zbiory danych są duże, ale często są interesujące.

 2
Author: Jeff Donnici,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2008-11-18 22:47:53

Możesz spojrzeć na generowanie losowych danych dla Fuzz Testing . To dałoby ci praktycznie nieograniczoną ilość danych testowych i bardziej prawdopodobne jest, że trafisz w skrajne przypadki.

Może trochę więcej informacji na temat tego, jakie dane testowe chcesz, w jakim formacie i do jakich typów aplikacji?

 1
Author: Jon Galloway,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2008-08-15 23:40:50

Nie wiem, jaka jest twoja docelowa platforma, ale jeśli rozwijasz się przeciwko bazie MSSQL sprawdź Visual Studio for Database Professionals . Ma bardzo fajną funkcję, w której może generować dane dla schematu za pomocą planu danych, który można zdefiniować.

Redgate ma również narzędzie do datageneracji, ale nie używałem go.

Zaletą jest to, że możesz utworzyć plan generowania danych i użyć go do wypełnienia bazy danych spójnymi, dużymi ilościami danych, które mogą być dostrojone do testowania konkretnych obszarów schematu.

 1
Author: lomaxx,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2008-08-16 01:08:54

Możesz również sprawdzić theinfo autorstwa Aarona Swartza.

From the site

Jest to strona dla dużych zbiorów danych i ludzie, którzy je kochają: skrobaczki i gąsienice, które je zbierają, naukowcy i maniacy, którzy je przetwarzają, projektantów i artystów, którzy wyobraź je sobie. To miejsce, gdzie mogą wymieniać się wskazówkami i sztuczkami, wspólnie opracowywać i udostępniać narzędzia oraz zacząć integrować swoje szczególne projekty.

 1
Author: cnu,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2008-08-16 05:28:04

Jeśli jesteś zainteresowany personalizacją typu danych, które otrzymujesz, sprawdź Kimono Labs. Jest to oprogramowanie do skrobania stron internetowych, którego możesz użyć do skrobania niemal każdej witryny za darmo bez limitu zwracanych wierszy. Wystarczy skonfigurować na nim API (możesz użyć ich generatora adresów url, aby zeskrobać kilka adresów URL na raz), a następnie wykorzystać swój osobisty zestaw danych jako JSON, CSV lub RSS.

 0
Author: trip41,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2015-04-14 21:32:29