large-data-volumes

Projektowanie web crawler

Natknąłem się na pytanie wywiadu "gdybyś projektował web crawler, jak unikniesz wchodzenia w nieskończone pętle? "i próbuję n ... ociaż Google nie przecieka, jak działają algorytmy indeksowania stron internetowych i ranking stron itp., ale jakieś domysły?

duża ilość danych w wielu plikach tekstowych - jak przetwarzać?

Mam duże ilości danych (kilka terabajtów) i kumuluję się... Są one zawarte w wielu płaskich plikach tekstowych rozdzielanych ... sprzeczne opinie na temat Hadoop, ale w każdym razie nie mam dostępu do klastra(choć mogę użyć kilku niezaufanych maszyn)...

Wydajne przechowywanie 7.300.000.000 wierszy

Jak poradziłbyś sobie z następującym problemem przechowywania i wyszukiwania? Około 2.000.000 wierszy będzie dodawanych każd ... nie, gdzie nowe wpisy 2M będą dodawane za jednym razem. Odczyty będą wykonywane w sposób ciągły z jednym odczytem co sekundę.

Jak zrobić nawigację strony dla wielu, wielu stron? Logarytmiczna nawigacja strony

Jaki jest najlepszy sposób wyświetlania nawigacji strony dla wielu, wielu stron? (początkowo to zostało opublikowane jako ws ... kownikowi dotrzeć do dowolnej strony w zaledwie kilka kliknięć myszką, bez śmiesznie wielu linki. Jak to najlepiej osiągnąć?

co się zmienia, gdy dane wejściowe są wielkości giga/terabajt?

Właśnie zrobiłem dziś swój pierwszy krok do prawdziwej naukowej informatyki, kiedy pokazano mi zbiór danych, w którym najmnie ... działają z tak dużym wkładem? Jakie rzeczy muszę zacząć robić lub myśleć inaczej? (To nie musi być specyficzne dla Pythona.)

Kreślenie bardzo dużych zbiorów danych w R

Jak wykreślić bardzo duży zbiór danych w R? Chciałbym użyć boxplot, lub fabuła skrzypiec, lub podobne. Wszystkie dane nie m ... ścić się w pamięci. Czy Mogę stopniowo czytać i obliczać streszczenia potrzebne do tych działek? Jeśli tak, to w jaki sposób?

Doradztwo w zakresie obsługi dużych ilości danych

Więc mam "dużą" liczbę "bardzo dużych" plików ASCII danych liczbowych (w sumie gigabajtów), a mój program będzie musiał przet ... y otwarcie jest dobrym sposobem na częściowe ładowanie danych? Jakie są niektóre Java-istotne wskazówki dotyczące wydajności?