hdf5

"Duże przepływy danych" za pomocą pand

Przez wiele miesięcy ucząc się pand starałem się znaleźć odpowiedź na to pytanie. Używam SAS do mojej codziennej pracy i jes ... awać wiersze do zbioru danych. Prawie zawsze będę tworzyć nowe kolumny(zmienne lub funkcje w statystyce/uczeniu maszynowym).

"Duże przepływy danych" za pomocą pand

Przez wiele miesięcy ucząc się pand starałem się znaleźć odpowiedź na to pytanie. Używam SAS do mojej codziennej pracy i jes ... awać wiersze do zbioru danych. Prawie zawsze będę tworzyć nowe kolumny(zmienne lub funkcje w statystyce/uczeniu maszynowym).

Czy użycie HDF5 do przechowywania dużych tablic (zamiast płaskich plików binarnych) ma przewagę szybkości analizy lub wykorzystania pamięci?

Przetwarzam duże tablice 3D, które często muszę pokroić na różne sposoby, aby wykonać różnorodną analizę danych. Typowa "kost ... mojej pamięci. Zbadałem zarówno pytables, jak i h5py i do tej pory nie widziałem korzyści z żadnego z nich dla mojego celu.

HDF5-współbieżność, kompresja i wydajność we/wy [zamknięta]

Mam następujące pytania dotyczące wydajności HDF5 i współbieżności: czy HDF5 obsługuje jednoczesny dostęp do zapisu? pomi ... http://www.sqlite.org/faq.html#q5 zablokowanie pliku sqlite na systemie plików NFS możliwe? http://pandas.pydata.org/

Doświadczenie z wykorzystaniem h5py do pracy analitycznej na big data w Pythonie?

Wykonuję dużo pracy statystycznej i używam Pythona jako głównego języka. Niektóre z zestawów danych, z którymi pracuję, mogą ... że mi dowiedzieć się, jak zmniejszyć postrzegane ryzyko związane z używaniem Pythona jako głównego języka analityki big data.

Iteracyjnie pisanie do sklepów HDF5 w pandach

Pandas ma następujące przykłady jak przechowywać Series, DataFrames i Panels w plikach HDF5: Przygotuj kilka danych: In [ ... cza przez nie przydatny ani nie nadający się do zapytania ? Czy nie powinno być napisane raz zamknięte zamiast napisane ?

Ulepsz pandy (PyTables?) Wydajność zapisu tabeli HDF5

[[12]] używam pand do badań od około dwóch miesięcy z wielkim skutkiem. Dzięki dużej liczbie średnich zbiorów danych zdarzeń ... 0 0.050 0.000 0.090 0.000 leaf.py:397(_process_range) 87797 0.048 0.000 0.048 0.000 {isinstance}

Opinie na temat NetCDF vs HDF5 do przechowywania danych naukowych?

Czy ktos ma dosc doswiadczenia w / NetCDF i HDF5, aby dac jakies plusy / minusy o nich jako sposobie przechowywania danych na ... arstwami abstrakcji Javy (złożone typy danych). Świetny format pliku Na C, ale wygląda na to, że po prostu przegrywam. >:(

Ocena HDF5: jakie ograniczenia / funkcje zapewnia HDF5 dla danych modelowania?

Zajmujemy się oceną technologii, których będziemy używać do przechowywania danych, które zbieramy podczas analizy kodu C/C++. ... go klucza, który "połączy" jeden obiekt do drugiego z odpowiednimi wyszukaniami podczas wyszukiwania danych? Wielkie dzięki!

Przechowywanie macierzy numpy w HDF5 (PyTables)

Mam problem z przechowywaniem numpy csr_matrix z PyTables. Dostaję ten błąd: TypeError: objects of type ``csr_matrix`` are ... f.createCArray(f.root, 'count', atom, self.count_vector.shape) ds[:] = self.count_vector f.close() Jakieś pomysły? Dzięki

Pandy HDF5 jako baza danych

Używam Pythona pandas przez ostatni rok i jestem pod wrażeniem jego wydajności i funkcjonalności, jednak pandas nie jest jesz ... echowywania danych, ale chcę użyć HDF5, ponieważ nie widziałem nic szybszego, jeśli chodzi o pobieranie dużych ilości danych.

Python, PyTables, Java-wszystko razem

Pytanie w pigułce Jaki jest najlepszy sposób, aby Python i Java grały ze sobą ładnie? Bardziej szczegółowe wyjaśnienie M ... e, filtrowane widoki byłyby przekazywane klientom. Pyro wydaje się być ciekawym wyborem - czy ktoś ma z tym doświadczenie?

Zapis i dołączanie tablic float do jedynego zbioru danych w pliku hdf5 w C++

Przetwarzam liczbę plików, każde przetwarzanie pliku wyprowadzi kilka tysięcy tablic float i będę przechowywać dane wszystkic ... 3}, jak sądzę? I dla start[2], jeśli nie ustawię go jako {0,0}, zawsze wykrzyczy powyższy błąd. Jesteś pewien, że to prawda?

Najszybszy sposób zapisu plików HDF5 w Pythonie?

Biorąc pod uwagę duży (10 GB) plik CSV z mieszanym tekstem / liczbami, jaki jest najszybszy sposób na utworzenie pliku HDF5 o ... f.create_dataset('int',(n,),'i') # this is terribly slow for i in xrange(n): dset[i] = i # instantaneous dset[...] = 42

HDF5 zajmuje więcej miejsca niż CSV?

Rozważ następujący przykład: Przygotuj DANE: import string import random import pandas as pd matrix = np.random.random(( ... wałem z innymi metodami kompresji i poziomami. Czy to robak? (Używam Pandy 0.11 i najnowszej stabilnej wersji HDF5 i Python).

Jakie są wady używania.Pliki Rdata w porównaniu do HDF5 lub netCDF?

Zostałem poproszony o zmianę oprogramowania, które obecnie eksportuje .Pliki Rdata tak, że eksportuje w "niezależnym od platf ... możliwość napisania skryptu, który utworzyłbyanalogów hdf5 wszystkich .Pliki Rdata, minimalizujące zmiany w samym programie?

Konwertuj duży plik csv na hdf5

Mam plik csv linii 100m (właściwie wiele oddzielnych plików csv) o łącznej pojemności 84GB. Muszę przekonwertować go do pliku ... na raz, więc to nie zadziała. Być może możesz pomóc mi rozwiązać problem poprawnie z innymi narzędziami w pytables lub pandy.

Jak uzyskać szybszy Kod niż numpy.kropka do mnożenia macierzy?

Tutaj mnożenie macierzy za pomocą hdf5 używam hdf5 (pytables) do mnożenia dużych macierzy, ale byłem zaskoczony, ponieważ uż ... np.dot(A[i:i+sz,k:k+sz],B[k:k+sz,j:j+sz]) print (time.time()-t0) h5f_A.close() h5f_B.close() h5f_C.close()