Jakie są narzędzia i techniki open source do budowy kompletnej platformy hurtowni danych? [zamknięte]

Szukam tych narzędzi open source ewentualnie za darmo lub z darmową wersją próbną, aby skonfigurować kompletny stos hurtowni danych.

Znam kilka takich jak Pentaho open source Mondrian server, ale nie mogłem uzyskać żadnego wyniku google do konfiguracji kompletnej platformy. Nie jestem pewien, czy te komponenty są ze sobą kompatybilne? Czy ktoś mógłby ich wymienić wraz z ich pozycją w łańcuchu?

Author: A-B-B, 2010-07-22

5 answers

The open Source Data Warehousing świetnie sprawdza się w identyfikowaniu komponentów OSS, które mogłyby zostać wykorzystane do zbudowania stosu hurtowni danych: infrastruktury (serwery, SYSTEM OPERACYJNY, bazy danych), zarządzania integracją (ETL, EAI, itp.), zarządzania informacjami (DW/Mart/ODS, Serwery OLap, itp.), dostarczania informacji (Portal, Pulpit Nawigacyjny, Klient Analytics/OLAP, itp.). Oto podsumowanie:

Projekty Open Source BI/DW

BI i analityka

Bazy danych

Integracja

Polecam przeglądanie prezentacja. Dobry towar.

 42
Author: Pascal Thivent,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2017-01-31 12:44:21

Stos datawarehouse (lub pakiet) zwykle składa się z trzech warstw. Są one zwykle określane jako ETL (ładowanie), Database & Reporting (interfejs). Ponadto istnieją nieco bardziej zaawansowane narzędzia do wydajności i potrzeb ekspertów. Składają się one z Cubes i Statistical Analysis Tools.

Jeśli chodzi o interoperacyjność, narzędzia ETL i narzędzia raportowania muszą obsługiwać dowolną bazę danych, z której korzystasz. Ponieważ jednak istnieją tylko dwie duże bazy danych open source, zwykle nie ma problemu z mieszaniem różne rozwiązania.

Co do szczegółów -

1 - ETL

Wczytywanie danych można uzyskać za pomocą narzędzi open-source, takich jak integracja danych Pentaho lub Talend (rozszerzenie eclipse). Sugerowałbym googlowanie "open source etl", aby dostosować rozwiązanie do konkretnych potrzeb.

2 - DB

Będziesz potrzebował relacyjnej bazy danych (RDBMS). Dwa najbardziej znane Odtwarzacze open-source to PostgreSQL (używany przez Stack Overflow) i MySQL. Podczas gdy MySQL ma większa baza użytkowników, Postgres zyskuje coraz większą popularność od czasu wdrożenia kilku kluczowych funkcji, których brakowało we wcześniejszych wersjach.

3 - raportowanie

Platforma raportowania oferty Pentaho. Podobnie jak BIRT (kolejne rozszerzenie eclipse). Ponownie, Google jest twoim przyjacielem dla konkretnych porównań. Zauważ, że jeśli wybierzesz Pentaho zarówno dla ETL, jak i narzędzi do raportowania, prawdopodobnie będziesz cieszyć się lepszą integracją. Wspomniałeś też o Mondrianie, który jest narzędziem do generowanie zapytań MDX przez RDBMS. MDX jest standardowym językiem zapytań kostek.

W tym momencie, zakładając, że zaczynasz od zera, polecam skonfigurowanie dwóch pierwszych warstw hurtowni danych-ETL & DB. Możesz później dodać dowolną liczbę narzędzi do raportowania powyżej.

 9
Author: shmichael,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-07-23 09:05:53

To kolejne podobne pytanie 20 miliardów wierszy/miesiąc - Hbase / Hive / Greenplum / co?

Najbardziej istotna część:

Nie mogę tego wystarczająco podkreślić: dostać coś, co gra ładnie z gotowych narzędzi raportowania.

.

Hive lub HBase wprowadziły cię w biznes budowania niestandardowego front-endu, którego naprawdę nie chcesz, chyba że jesteś szczęśliwy, że spędzisz następne 5 lat pisząc niestandardowe formatery raportów w Pythonie.

 4
Author: Sandeep,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2017-05-23 12:02:20

Rozwiń to, co Pascal napisał:

OLAP server: Mondrian

AJAX pivot tables: Saiku

OLAP schema designer: Pentaho Schema Workbench

OLAP aggregate designer: Pentaho Aggregation Designer

ETL: Pentaho Kettle

Projektant raportu: projektant raportu Pentaho

Jakość Danych: DataCleaner

Columnar Data Warehouse: MonetDB

Dane Mining: RapidMiner

 3
Author: Neil McGuigan,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2013-08-09 04:53:11

Jakość danych i profilowanie - http://sourceforge.net/projects/dataquality/

Posiada również połączenie Hive i Stół roboczy do tworzenia rzeczywistych danych.

 -1
Author: vivek,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2014-01-16 07:40:40