h5py

Czy użycie HDF5 do przechowywania dużych tablic (zamiast płaskich plików binarnych) ma przewagę szybkości analizy lub wykorzystania pamięci?

Przetwarzam duże tablice 3D, które często muszę pokroić na różne sposoby, aby wykonać różnorodną analizę danych. Typowa "kost ... mojej pamięci. Zbadałem zarówno pytables, jak i h5py i do tej pory nie widziałem korzyści z żadnego z nich dla mojego celu.

Doświadczenie z wykorzystaniem h5py do pracy analitycznej na big data w Pythonie?

Wykonuję dużo pracy statystycznej i używam Pythona jako głównego języka. Niektóre z zestawów danych, z którymi pracuję, mogą ... że mi dowiedzieć się, jak zmniejszyć postrzegane ryzyko związane z używaniem Pythona jako głównego języka analityki big data.

Najszybszy sposób zapisu plików HDF5 w Pythonie?

Biorąc pod uwagę duży (10 GB) plik CSV z mieszanym tekstem / liczbami, jaki jest najszybszy sposób na utworzenie pliku HDF5 o ... f.create_dataset('int',(n,),'i') # this is terribly slow for i in xrange(n): dset[i] = i # instantaneous dset[...] = 42