bigdata pg. 2

MapReduce czy Spark? [zamknięte]

Przetestowałem hadoop i mapreduce z cloudera i uznałem to za całkiem fajne, myślałem, że jestem najnowszym i odpowiednim rozw ... ? Czy jest coś więcej, Co MapReduce może zrobić, czy może MapReduce być bardziej wydajne niż Spark w określonym kontekście ?

Duża matryca do uruchomienia glmnet()

Mam problem z uruchomieniem glmnet lasso z szerokim zestawem danych. Moje dane mają N = 50, ale p > 49000, wszystkie czynn ... SE, family='multinomial', alpha=1, nfolds=10) W ostatnim kroku (X = model.matrix ...) kończy mi się pamięć. Co mogę zrobić?

r bigdata glmnet lasso model.matrix

Jak szybko wyeksportować dane z R do SQL Server

Standardowa funkcja sqlSave pakietu RODBC nawet jako pojedyncza Instrukcja INSERT (parametr fast = TRUE) jest strasznie powol ... e: toSQL = data.frame(...); sqlSave(channel,toSQL,tablename="Table1",rownames=FALSE,colnames=FALSE,safer=FALSE,fast=TRUE);

sql r sql-server bigdata

Apache Spark vs Akka

Czy mógłbyś mi powiedzieć jaka jest różnica między Apache Spark a AKKA, wiem, że oba frameworki miały programować obliczenia ... ale nie widzę związku ani różnicy między nimi. Ponadto chciałbym, aby przypadki użycia były odpowiednie dla każdego z nich.

parallel-processing akka distributed-computing apache-spark bigdata

sklearn i duże zbiory danych

Mam zestaw danych 22 GB. Chciałbym to przetworzyć na moim laptopie. Oczywiście, że nie mogę. Używam dużo sklearn, ale dla z ... es) m.partial_fit(x) m.predict(new_x) Może skleparn nie jest odpowiednim narzędziem do tego typu rzeczy? Daj mi znać.

python bigdata scikit-learn

Czy hadoop jest jedynym frameworkiem w przestrzeni Big data? [zamknięte]

Obecnie uczę się hadoop, ale często zastanawiam się, czy Hadoop jest jedynym frameworkiem wspierającym aplikacje rozproszone. Chcę zrozumieć, czy istnieje jakiś inny framework poza Hadoop w przestrzeni Big Data.

hadoop bigdata

Haskell: czy mogę wykonać kilka fałd na tej samej leniwej liście bez przechowywania listy w pamięci?

Moim kontekstem jest bioinformatyka, w szczególności sekwencjonowanie nowej generacji, ale problem jest ogólny; więc użyję pl ... łożony. Alternatywnie, co robię, uruchamiam każde przejście osobno, ale to przeładowuje i dekompresuje plik za każdym razem.

performance haskell lazy-evaluation bigdata

Klastrowanie kluczy w Kasandrze

Na danym węźle fizycznym wiersze dla danego klucza partycji są przechowywane w kolejności wywołanej przez klucze klastrowania ... /cassandra.apache.org/doc/cql3/CQL.html#createTableStmt Jaki rodzaj porządkowania jest wywoływany przez klastrowanie kluczy?

nosql cassandra bigdata

Postgresql-wydajność użycia tablicy w dużej bazie danych

Powiedzmy, że mamy tabelę z 6 milionami rekordów. Istnieje 16 kolumn całkowitych i kilka kolumn tekstowych. Jest to tabela ty ... ndeksów z index GIN (opcja 1) w jednym zapytaniu ? Muszę podjąć dobrą decyzję, ponieważ import tych danych zajmie mi 20 dni.

performance join arrays postgresql bigdata

Proces i analiza Big Data W R

Wiem, że nie jest to nowa koncepcja przez żaden odcinek W R, i przejrzałem widok zadań High Performance i Parallel Computing. ... pewnić, że będą bardzo mile widziane. Nie będę się obrażał, jeśli opiszesz rozwiązania na poziomie 3 klasy. Z góry dzięki.

r bigdata

Jak porównać dwie kolumny dataframe i print, które różnią się w Scali

Mamy tu dwie ramki danych: Oczekiwana ramka danych: +------+---------+--------+----------+-------+--------+ |emp_id| emp_ ... szu (w tym przypadku "romin" i "romino" od "emp_name" są różne). Mieliśmy Ogromna trudność z tym i każda pomoc byłaby wielka.

scala compare apache-spark bigdata spark-dataframe

MongoDB jako magazyn plików

Próbuję znaleźć najlepsze rozwiązanie do tworzenia skalowalnej pamięci masowej dla dużych plików. Rozmiar pliku może wahać si ... a wydajność odczytu i zapisu? może są jakieś inne rozwiązania, które mogą rozwiązać mój problem bardziej efektywnie? Dzięki.

mongodb storage bigdata gridfs

Jak ponownie uruchomić nieudane zadanie na przepływie powietrza

Używam LocalExecutor i mój dag ma 3 zadania gdzie zadanie(C) jest zależne od zadania(a). Task (B) I task(a) mogą działać ró ... ić samo zadanie(a) tak, aby zadanie(C) uruchamiało się po ukończeniu zadania(a), A Interfejs Airflow oznaczał je jako sukces.

python hadoop bigdata airflow apache-airflow

Jak działa funkcja pyspark mapPartitions?

Więc próbuję nauczyć się Sparka używając Pythona (Pyspark). Chcę wiedzieć jak działa funkcja mapPartitions. To jest to, jakie ... . [ [1, 2, 3], [3, 2, 4], [5, 2, 7] ] I chcę usunąć element 2 ze wszystkich list, Jak to osiągnąć używając mapPartitions.

python scala apache-spark bigdata

Co muszę wiedzieć o pracy z dużymi bazami danych?

Chcę wiedzieć, jakie konkretne problemy/rozwiązania/porady / najlepsze praktyki [nie karz mnie za słowo] powstają podczas pra ... tabele z milionami wierszy i / lub bazy danych z petabajtami danych. Odpowiedzi zorientowane na platformę też będą świetne.

sql database database-design bigdata