bigdata
MapReduce czy Spark? [zamknięte]
Przetestowałem hadoop i mapreduce z cloudera i uznałem to za całkiem fajne, myślałem, że jestem najnowszym i odpowiednim rozw ... ? Czy jest coś więcej, Co MapReduce może zrobić, czy może MapReduce być bardziej wydajne niż Spark w określonym kontekście ?
Duża matryca do uruchomienia glmnet()
Mam problem z uruchomieniem glmnet lasso z szerokim zestawem danych. Moje dane mają N = 50, ale p > 49000, wszystkie czynn ... SE, family='multinomial', alpha=1, nfolds=10)
W ostatnim kroku (X = model.matrix ...) kończy mi się pamięć. Co mogę zrobić?
Jak szybko wyeksportować dane z R do SQL Server
Standardowa funkcja sqlSave pakietu RODBC nawet jako pojedyncza Instrukcja INSERT (parametr fast = TRUE) jest strasznie powol ... e:
toSQL = data.frame(...);
sqlSave(channel,toSQL,tablename="Table1",rownames=FALSE,colnames=FALSE,safer=FALSE,fast=TRUE);
Apache Spark vs Akka
Czy mógłbyś mi powiedzieć jaka jest różnica między Apache Spark a AKKA, wiem, że oba frameworki miały programować obliczenia ... ale nie widzę związku ani różnicy między nimi.
Ponadto chciałbym, aby przypadki użycia były odpowiednie dla każdego z nich.
sklearn i duże zbiory danych
Mam zestaw danych 22 GB. Chciałbym to przetworzyć na moim laptopie. Oczywiście, że nie mogę.
Używam dużo sklearn, ale dla z ... es)
m.partial_fit(x)
m.predict(new_x)
Może skleparn nie jest odpowiednim narzędziem do tego typu rzeczy?
Daj mi znać.
Czy hadoop jest jedynym frameworkiem w przestrzeni Big data? [zamknięte]
Obecnie uczę się hadoop, ale często zastanawiam się, czy Hadoop jest jedynym frameworkiem wspierającym aplikacje rozproszone. Chcę zrozumieć, czy istnieje jakiś inny framework poza Hadoop w przestrzeni Big Data.
Haskell: czy mogę wykonać kilka fałd na tej samej leniwej liście bez przechowywania listy w pamięci?
Moim kontekstem jest bioinformatyka, w szczególności sekwencjonowanie nowej generacji, ale problem jest ogólny; więc użyję pl ... łożony.
Alternatywnie, co robię, uruchamiam każde przejście osobno, ale to przeładowuje i dekompresuje plik za każdym razem.
Klastrowanie kluczy w Kasandrze
Na danym węźle fizycznym wiersze dla danego klucza partycji są przechowywane w kolejności wywołanej przez klucze klastrowania ... /cassandra.apache.org/doc/cql3/CQL.html#createTableStmt Jaki rodzaj porządkowania jest wywoływany przez klastrowanie kluczy?
Postgresql-wydajność użycia tablicy w dużej bazie danych
Powiedzmy, że mamy tabelę z 6 milionami rekordów. Istnieje 16 kolumn całkowitych i kilka kolumn tekstowych. Jest to tabela ty ... ndeksów z index GIN (opcja 1) w jednym zapytaniu ?
Muszę podjąć dobrą decyzję, ponieważ import tych danych zajmie mi 20 dni.
Proces i analiza Big Data W R
Wiem, że nie jest to nowa koncepcja przez żaden odcinek W R, i przejrzałem widok zadań High Performance i Parallel Computing. ... pewnić, że będą bardzo mile widziane. Nie będę się obrażał, jeśli opiszesz rozwiązania na poziomie 3 klasy.
Z góry dzięki.
Jak porównać dwie kolumny dataframe i print, które różnią się w Scali
Mamy tu dwie ramki danych:
Oczekiwana ramka danych:
+------+---------+--------+----------+-------+--------+
|emp_id| emp_ ... szu (w tym przypadku "romin" i "romino" od "emp_name" są różne). Mieliśmy Ogromna trudność z tym i każda pomoc byłaby wielka.
MongoDB jako magazyn plików
Próbuję znaleźć najlepsze rozwiązanie do tworzenia skalowalnej pamięci masowej dla dużych plików. Rozmiar pliku może wahać si ... a wydajność odczytu i zapisu?
może są jakieś inne rozwiązania, które mogą rozwiązać mój problem bardziej efektywnie?
Dzięki.
Jak ponownie uruchomić nieudane zadanie na przepływie powietrza
Używam LocalExecutor i mój dag ma 3 zadania gdzie zadanie(C) jest zależne od zadania(a). Task (B) I task(a) mogą działać ró ... ić samo zadanie(a) tak, aby zadanie(C) uruchamiało się po ukończeniu zadania(a), A Interfejs Airflow oznaczał je jako sukces.
Jak działa funkcja pyspark mapPartitions?
Więc próbuję nauczyć się Sparka używając Pythona (Pyspark). Chcę wiedzieć jak działa funkcja mapPartitions. To jest to, jakie ... .
[ [1, 2, 3], [3, 2, 4], [5, 2, 7] ]
I chcę usunąć element 2 ze wszystkich list, Jak to osiągnąć używając mapPartitions.
Co muszę wiedzieć o pracy z dużymi bazami danych?
Chcę wiedzieć, jakie konkretne problemy/rozwiązania/porady / najlepsze praktyki [nie karz mnie za słowo] powstają podczas pra ... tabele z milionami wierszy i / lub bazy danych z petabajtami danych.
Odpowiedzi zorientowane na platformę też będą świetne.
- 1
- 2