Jakie są narzędzia i techniki open source do budowy kompletnej platformy hurtowni danych? [zamknięte]
Szukam tych narzędzi open source ewentualnie za darmo lub z darmową wersją próbną, aby skonfigurować kompletny stos hurtowni danych.
Znam kilka takich jak Pentaho open source Mondrian server, ale nie mogłem uzyskać żadnego wyniku google do konfiguracji kompletnej platformy. Nie jestem pewien, czy te komponenty są ze sobą kompatybilne? Czy ktoś mógłby ich wymienić wraz z ich pozycją w łańcuchu?
5 answers
The open Source Data Warehousing świetnie sprawdza się w identyfikowaniu komponentów OSS, które mogłyby zostać wykorzystane do zbudowania stosu hurtowni danych: infrastruktury (serwery, SYSTEM OPERACYJNY, bazy danych), zarządzania integracją (ETL, EAI, itp.), zarządzania informacjami (DW/Mart/ODS, Serwery OLap, itp.), dostarczania informacji (Portal, Pulpit Nawigacyjny, Klient Analytics/OLAP, itp.). Oto podsumowanie:
Projekty Open Source BI/DW
BI i analityka
- BEE - http://bee.insightstrategy.cz/en/index.html
- BIRT - http://www.eclipse.org/birt
- JasperSoft – http://www.jaspersoft.com
- Marvit - http://www.marvelit.com/dash.html
- OpenI – http://openi.sourceforge.net
- OpenReports – http://oreports.com
- pomarańczowy - http://www.ailab.si/orange
- Palo - {–39]} http://www.palo.net
- Pentaho - http://www.pentaho.com
- R - http://www.r-project.org
- SpagoBI – http://spagobi.eng.it
- Weka - http://www.cs.waikato.ac.nz / ~ml/index.html
- VitalSigns - http://vitalsigns.sourceforge.net/
Bazy danych
- http://greenplum.org (bizgres)
- http://www.ingres.com
- http://www.mysql.com
- http://www.postgresql.org
- http://www.enterprisedb.com
Integracja
- Apatar - http://www.apatar.com
- CloverETL - http://cloveretl.berlios.de/
- JitterBit - http://www.jitterbit.com/
- KETL - http://www.ketl.org
- Octopus - http://www.enhydra.org/tech/octopus/index.html
- OSDQ - http://sourceforge.net/projects/dataquality
- Pentaho - http://www.pentaho.com
- Red Hat – http://www.redhat.com
- Saga.M31 Galaxy - http://galaxy.sagadc.com
- Talend - http://www.talend.com
- SnapLogic – http://www.snaplogic.com
Polecam przeglądanie prezentacja. Dobry towar.
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2017-01-31 12:44:21
Stos datawarehouse (lub pakiet) zwykle składa się z trzech warstw. Są one zwykle określane jako ETL
(ładowanie), Database
& Reporting
(interfejs). Ponadto istnieją nieco bardziej zaawansowane narzędzia do wydajności i potrzeb ekspertów. Składają się one z Cubes
i Statistical Analysis Tools
.
Jeśli chodzi o interoperacyjność, narzędzia ETL i narzędzia raportowania muszą obsługiwać dowolną bazę danych, z której korzystasz. Ponieważ jednak istnieją tylko dwie duże bazy danych open source, zwykle nie ma problemu z mieszaniem różne rozwiązania.
Co do szczegółów -
1 - ETL
Wczytywanie danych można uzyskać za pomocą narzędzi open-source, takich jak integracja danych Pentaho lub Talend (rozszerzenie eclipse). Sugerowałbym googlowanie "open source etl", aby dostosować rozwiązanie do konkretnych potrzeb.2 - DB
Będziesz potrzebował relacyjnej bazy danych (RDBMS). Dwa najbardziej znane Odtwarzacze open-source to PostgreSQL (używany przez Stack Overflow) i MySQL. Podczas gdy MySQL ma większa baza użytkowników, Postgres zyskuje coraz większą popularność od czasu wdrożenia kilku kluczowych funkcji, których brakowało we wcześniejszych wersjach.
3 - raportowanie
Platforma raportowania oferty Pentaho. Podobnie jak BIRT (kolejne rozszerzenie eclipse). Ponownie, Google jest twoim przyjacielem dla konkretnych porównań. Zauważ, że jeśli wybierzesz Pentaho zarówno dla ETL, jak i narzędzi do raportowania, prawdopodobnie będziesz cieszyć się lepszą integracją. Wspomniałeś też o Mondrianie, który jest narzędziem do generowanie zapytań MDX przez RDBMS. MDX jest standardowym językiem zapytań kostek.
W tym momencie, zakładając, że zaczynasz od zera, polecam skonfigurowanie dwóch pierwszych warstw hurtowni danych-ETL & DB. Możesz później dodać dowolną liczbę narzędzi do raportowania powyżej.
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-07-23 09:05:53
To kolejne podobne pytanie 20 miliardów wierszy/miesiąc - Hbase / Hive / Greenplum / co?
Najbardziej istotna część:
Nie mogę tego wystarczająco podkreślić: dostać coś, co gra ładnie z gotowych narzędzi raportowania.
.
Hive lub HBase wprowadziły cię w biznes budowania niestandardowego front-endu, którego naprawdę nie chcesz, chyba że jesteś szczęśliwy, że spędzisz następne 5 lat pisząc niestandardowe formatery raportów w Pythonie.
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2017-05-23 12:02:20
Rozwiń to, co Pascal napisał:
OLAP server: Mondrian
AJAX pivot tables: Saiku
OLAP schema designer: Pentaho Schema Workbench
OLAP aggregate designer: Pentaho Aggregation Designer
ETL: Pentaho Kettle
Projektant raportu: projektant raportu Pentaho
Jakość Danych: DataCleaner
Columnar Data Warehouse: MonetDB
Dane Mining: RapidMiner
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2013-08-09 04:53:11
Jakość danych i profilowanie - http://sourceforge.net/projects/dataquality/
Posiada również połączenie Hive i Stół roboczy do tworzenia rzeczywistych danych.
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2014-01-16 07:40:40