bigdata

Apache Spark vs. Apache Storm [zamknięty]

Jakie są różnice między Apache Spark a Apache Storm ? Jakie są odpowiednie przypadki użycia dla każdego z nich?

Zapytanie Elasticsearch zwracające wszystkie rekordy

Mam małą bazę danych w Elasticsearch i do celów testowych chciałbym wyciągnąć wszystkie rekordy z powrotem. Próbuję użyć adr ... oo/_search?pretty=true&q={'matchAll':{''}} Czy ktoś może mi podać adres URL, którego byś użył, aby to osiągnąć, proszę?

Obliczanie i oszczędzanie miejsca w PostgreSQL

Mam tabelkę w pg jak tak: CREATE TABLE t ( a BIGSERIAL NOT NULL, -- 8 b b SMALLINT, ... T a, arr[5] FROM t; Czy mogę zaoszczędzić miejsce za pomocą opcji array? Czy będzie kara za prędkość? Jakieś inne pomysły?

Jak mogę wypisać wyniki zapytania HiveQL do pliku CSV?

Chcielibyśmy umieścić wyniki zapytania Hive w pliku CSV. Myślałem, że komenda powinna wyglądać tak: insert overwrite direct ... omyślnie, ale nigdy nie mogę znaleźć pliku. Jak mogę znaleźć ten plik lub powinienem wyodrębniać dane w inny sposób? Dzięki!

Jak rozpocząć analizę Big Data [zamknięty]

Od dawna jestem użytkownikiem R i ostatnio zacząłem pracować z Pythonem. Korzystając z konwencjonalnych systemów RDBMS do hur ... stie i zalecenia. Przepraszam za ogólny charakter tego zapytania, ale chcę zyskać więcej perspektywa w tym temacie. Harsh

Jak mogę sprawdzić, czy mój zestaw danych w R będzie zbyt duży?

Zamierzam przeprowadzić analizę logfile w R (chyba, że nie mogę tego zrobić w R) i rozumiem, że moje dane muszą zmieścić się ... lub (c) uciec, zanim będzie za późno i zrobić coś w innym miejscu. język / środowisko (sugestie mile widziane...!). dzięki!

Szybka analiza Hadoop (Cloudera Impala vs Spark/Shark vs Apache Drill)

Chcę wykonać analizę danych "prawie w czasie rzeczywistym" (OLAP-like) NA danych w HDFS. Moje badania wykazały, że trzy wspom ... ieś praktyczne doświadczenie z którymś z nich? Nie tylko w odniesieniu do wydajności, ale także w odniesieniu do stabilności?

Zalecany pakiet do bardzo dużych zbiorów danych i uczenia maszynowego w R

Wygląda na to, że R jest naprawdę zaprojektowany do obsługi zbiorów danych, które może wciągnąć całkowicie do pamięci. Jakie ... ć do pamięci? Jeśli R jest po prostu zły sposób, aby to zrobić, jestem otwarty na inne solidne darmowe sugestie (np.]}

Kiedy rozpocząć dodatkowe węzły Elasticsearch? [zamknięte]

zamknięte . To pytanie jest oparte na opinii . Obecnie nie przyjmuje odpowiedzi. ... Kiedy nadszedł czas, aby uruchomić dodatkowe węzły HTTP i podzielić oprogramowanie do indeksowania, aby wskazać różne węzły?

znaczenie PCA lub SVD w uczeniu maszynowym

Przez cały ten czas (szczególnie w konkursie Netflix), zawsze natykam się na ten blog (lub forum liderów), gdzie wspomnieć, j ... akąś wersję systemu rekomendacji (powiedzmy filtrowanie kolaboracyjne): 1) Without SVD 2) With SVD Jak to pomaga Dzięki

czy jest jakiś sposób na zaimportowanie pliku json (zawiera 100 dokumentów) na serwerze elasticsearch.?

Czy Jest jakiś sposób na zaimportowanie pliku JSON (zawiera 100 dokumentów) na serwerze elasticsearch? Chcę zaimportować duży plik json do es-serwera..

Najlepsze rozwiązanie dla znalezienia 1 x 1 milion zestaw przecięcia? Redis, Mongo, inne

Witam wszystkich i z góry dziękuję. Jestem nowy w grze NoSQL, ale moje obecne miejsce pracy zleciło mi porównanie niektórych ... eśniej, znaczniki są przechowywane w drzewie. Zacząłem patrzeć na Mongodb jako możliwe rozwiązanie jako cóż. Thanks again

Praca z big data w Pythonie i numpy, za mało pamięci ram, jak zapisać wyniki częściowe na dysku?

Próbuję zaimplementować algorytmy dla 1000-wymiarowych danych z 200k + datapoints w Pythonie. Chcę używać numpy, scipy, sklea ... ość pary do wszystkich moich punktów itp Czy to możliwe? I jak mam to zrobić, co mogę zacząć czytać? Pozdrawiam // Mesmer

Najlepszy sposób na usunięcie milionów wierszy według ID

Muszę usunąć około 2 milionów wierszy z mojej bazy danych PG. Mam listę dokumentów, które muszę usunąć. Jednak każdy sposób, ... skuteczniejszego sposobu na usunięcie z tabeli, gdy znam konkretne identyfikatory do usunięcia, a są miliony identyfikatorów.

jakie są opcje hadoop na Scali

Rozpoczynamy projekt analityczny oparty na dużych danych i rozważamy przyjęcie Scali (stos typesafe). Chciałbym poznać różne projekty/projekty scala API, które są dostępne do wykonania programów hadoop, map reduce.

Mapa hadoop zmniejsz sortowanie wtórne

Czy ktoś może mi wyjaśnić, jak działa sortowanie wtórne w hadoop ? Dlaczego trzeba używać GroupingComparator i jak to działa ... wyjasnic jak dziala komparator grupowania? Http://www.bigdataspeak.com/2013/02/hadoop-how-to-do-secondary-sort-on_25.html

Jaka jest różnica między Big Data A Data Mining? [zamknięte]

Jak stwierdza Wikpedia Ogólnym celem procesu eksploracji danych jest wydobycie informacji z zbioru danych i przekształ ... użycie Jak to ma związek z Big Data? Czy to prawda, jeśli powiem, że Hadoop robi eksplorację danych w sposób równoległy?

Jak zwrócić dużą ilość wierszy z mongodb za pomocą node.serwer http js?

Mam bazę danych użytkowników w mongodb, którą chciałbym wyeksportować poprzez interfejs REST w JSON. Problem polega na tym, ż ... rzne wymagania aplikacji. Myślałem o zapisaniu danych do pliku, a następnie wysłaniu ich, ale to prowadzi do niechcianych io.

Jak stworzyć dużą ramkę danych pandy z zapytania sql bez wyczerpania pamięci?

Mam problem z zapytaniem tabeli > 5 milionów rekordów z mojej bazy danych MS SQL Server. Chcę być w stanie wybrać wszystk ... tawami danych w pandach, ale wydaje się, że dużo pracy, aby wykonać SELECT * query. Z pewnością istnieje prostsze podejście.

Jaka jest różnica między Apache Pig A Apache Hive?

Jaka jest dokładna różnica między świnią a ulem? Odkryłem, że oba mają takie samo znaczenie funkcjonalne, ponieważ są używane ... istnieje jakaś specyfikacja dla obu, która wyraźnie pokazuje różnicę między obydwoma pod względem zastosowania i wydajności?