Rozważania dotyczące hurtowni danych: Kiedy i dlaczego?

Trochę tła tutaj:

Wiem Co to jest hurtownia danych, mniej więcej. Przeczytałem kilkadziesiąt poradników na temat hurtowni danych, grałem z SSAS, wiem czym jest schemat Gwiazdy, tabela wymiarów i tabela faktów, wiem czym jest ETL i jak to zrobić. to nie jest pytanie " Jak " ani Prośba o samouczki.

Mój problem polega na tym, że wszystkie materiały, które przeczytałem na temat hurtowni danych, wydają się błyszczeć uzasadnienie do budowania danych magazyn. Wszystkie one w przenośni, lub w niektórych przypadkach dosłownie zaczynają się od wyrażenia " więc zdecydowałeś się zbudować hurtownię danych..." z tym, że jeszcze nie podjąłem tej decyzji.

Więc mam nadzieję, że aby członkowie mogli wskazać mi, lub pomóc wymyślić, jakiś półobiektywny test. Coś, co mogę dostosować do konkretnego systemu i kończy się albo "tak, potrzebujemy hurtowni danych" lub " nie, dzisiejsza wypłata byłaby zbyt mała."Myślę, że konkretne pytania powinienem be able to answer are:

  1. W jakim momencie warto rozważyć budowę hurtowni danych? Innymi słowy, na jakie wskaźniki, metryki lub inne kryteria powinienem zwrócić uwagę, które mogą wskazywać, że standardowe środowisko transakcyjne nie jest już wystarczające?

  2. Jakie są alternatywy dla pełnej hurtowni danych? Denormalizacja w bazie danych transakcyjnych i replikowany "serwer raportów" w standardzie bog to dwa, które przychodzą na myśl; czy są jakieś inne, które powinienem zbadać przed przystąpieniem do DW?

  3. Dlaczego hurtownia danych jest lepsza niż wspomniane alternatywy? Jeśli odpowiedź brzmi: "to zależy", to od czego to zależy?

  4. Kiedy nie powinienem próbować zbudować hurtownię danych? Jestem sceptyczny wobec wszystkiego, co uznane jest za "najlepszą praktykę", niezależnie od kontekstu. Na pewno muszą być jakieś scenariusze, w których DW jest błędnym wyborem - czym one są?

  5. Są czy są jakieś praktyczne przykłady systemów, które zostały ulepszone poprzez wprowadzenie hurtowni danych? Coś, co wyjaśniałoby mi, od końca do końca, do jakich decyzji lub analiz potrzebowali magazynu, w jaki sposób zdecydowali, co w nim umieścić i w jaki sposób magazyn dopasował się do większego środowiska? Nie chcę wymyślonego "zróbmy kostkę z bazy AdventureWorks" - realizacja jest dla mnie nieistotna, interesuje mnie specyfikacje i projekty i ogólny proces myślowy, które były zaangażowane.

Generalnie staram się nie pytać wielopartyjnych, ale myślę, że wszystkie są ze sobą ściśle powiązane. Jestem skłonny zaakceptować każdą odpowiedź, która dotyczy przynajmniej pierwszych 4 pytań, chociaż ostatnie naprawdę pomogłoby to wykrystalizować w moim umyśle. Linki są w porządku, jeśli ktoś już o tym napisał, o ile są dość zwięzłe i konkretne (link do Ralpha Kimballa home page = not helpful).

Mam nadzieję, że postawiłem pytanie jasno - z góry dzięki za odpowiedzi!

Author: Aaronaught, 2010-01-02

7 answers

Postaram się jak najlepiej odpowiedzieć na twoje pytania zwięźle.

1.At w jakim punkcie warto rozważyć budowę hurtowni danych? Innymi słowy, jakie znaki ostrzegawcze, metryki, czy inne kryteria powinny być dbanie o to może wskazywać że standardowa transakcja środowisko nie jest już wystarczające?

A. Jeśli stwierdzisz, że raportowanie i monitorowanie pogarszają wydajność systemu produkcyjnego i / lub danych offline sklep.

B. Jeśli okaże się, że uzyskanie odpowiedzi na pytania biznesowe wymaga budowania wielu złożonych SQL za każdym razem.

C. Jeśli okaże się, że za każdym razem, gdy wprowadzasz zmiany w schemacie transakcyjnym, musisz wrócić i przerobić wszystkie zapytania raportowania.

D. Jeśli chcesz połączyć dane z wielu źródeł.

2.Jakie są alternatywy dla pełnej hurtowni danych? Denormalizacja w transakcjach baza danych i bog-standard replikowany "serwer raportów" to dwa które przychodzą na myśl; czy są jakieś inne, które powinienem zbadać przed zobowiązując się do DW?

3.Dlaczego hurtownia danych jest lepsza niż wspomniane alternatywy? Jeśli odpowiedź jest, "to zależy", to co to zależy na?

Odpowiem razem. Nie pomyślałbym o hurtowni danych jako przedsięwzięciu "wszystko albo nic". Jest to po prostu zwięzłe zdanie, które oznacza " przechowywanie danych w sposób, który pozwala łatwiej i szybko odpowiadaj na pytania biznesowe."

Bazy danych transakcyjnych są zaprojektowane tak, aby efektywnie łączyć się z aplikacjami. Hurtownie danych, data marts, operacyjne magazyny danych i tabele raportowania są zbudowane tak, aby efektywnie łączyć się z ludźmi, jeśli ma to sens.

4.Kiedy nie powinienem budować hurtowni danych? Jestem sceptyczny wszystko uznane za " najlepszą praktykę" niezależnie od kontekstu. Na pewno tam muszą być jakieś scenariusze, gdzie DW jest the wrong wybór - czym są?

Dobre pytanie. Jeśli Twój system transakcyjny zapewnia wystarczający wgląd w Twoją działalność, prawdopodobnie nie masz potrzeby magazynowania.

Jeśli masz tylko jedno źródło danych, a wydajność nie stanowi problemu, prawdopodobnie możesz uzyskać wgląd w tworzenie prostych tabel raportowania.

5.Czy są jakieś praktyczne przykłady, na które mógłbym spojrzeć systemy, które były Poprawiono poprzez wprowadzenie danych magazyn? Coś, co would wyjaśnij mi, od końca do końca, jakie rodzaje decyzji lub analiz, których potrzebowali magazyn dla, jak zdecydowali co w nim umieścić i jak magazyn trafił do większe środowisko? Nie chcę wymyślony " zróbmy kostkę z baza AdventureWorks " - the realizacja jest dla mnie nieistotna, Interesuje mnie Specyfikacja i projekty i ogólne przemyślenia proces, który był zaangażowany.

To wielkie pytanie, które weź o wiele więcej miejsca, niż mi tu przydzielono.

W tym przypadku mogę wskazać ci kilka miejsc, które mogą dostarczyć wglądu, którego szukasz.

  • "Implementing a Data Warehouse: a Methodology that worked" Bruce Ullrey to książka dokumentująca podróż jednego człowieka do budowy hurtowni danych. Nie jest dopracowany, co nadaje mu więcej realizmu. Czyta się jak dziennik z wieloma modelami i innymi wizualizacjami, które dobrze ilustrują jego wysiłki.
  • " Business Intelligence Mapa Drogowa " autorstwa Larissy Moss. Standardowa taryfa. Przeprowadzi Cię przez proces budowania praktyki BI na wysokim poziomie.
  • " the Profit Impact of Business Intelligence "Steve' a Williamsa daje szereg studiów przypadku, które pokazują wartość budowania hurtowni danych.
 40
Author: Data Monk,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-01-02 21:33:06
  1. Głównym celem DW jest przyspieszenie (uproszczenie) raportowania i analizy. Umożliwia krojenie i krojenie danych w dowolny sposób, jaki Użytkownik biznesowy może sobie wyobrazić.

  2. Na pierwszy krok DW, można po prostu zaimplementować schemat Kimball star i uruchomić zapytania SQL przeciwko nim. Jeśli okaże się to nadal zbyt wolne, zacznij myśleć o wstępnie obliczonych agregacjach (kostkach).

  3. Krojenie i krojenie informacji na DW jest o wiele prostsze, niż na znormalizowany DB. Replikowany serwer raportów poprawi wydajność, ale nie uprości krojenia i kostkowania. Należy również pamiętać, że DW należy do użytkowników biznesowych, więc to do nich należy wymyślić różne pomysły na plasterki/kości w dowolnym momencie-ludzie powinni po prostu zapewnić środowisko, w którym coś takiego jest możliwe.

  4. Jeśli od czasu do czasu uruchamiasz kilka raportów w swoim systemie operacyjnym i jesteś zadowolony z wydajności, nie ma potrzeby DW.

  5. Całe moje doświadczenie dotyczy systemów, w których użytkownicy biznesowi bez końca narzekają na powolne raporty i niezdolność do pisania "skomplikowanych zapytań", podczas gdy ludzie produkcyjni narzekają, że baza danych grzęźnie z powodu raportowania. We wszystkich przypadkach wystarczy prosta Gwiazda Kimball i serwer raportów z pamięcią podręczną i migawkami.

 4
Author: Damir Sudarevic,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-01-02 21:12:13
  1. Należy rozważyć zbudowanie hurtowni danych, gdy dwa z następujących kryteriów pasują do siebie:

    • ogromna ilość danych
    • wiele złożonych selekcji (prawdopodobnie w porównaniu z kilkoma wstawkami, aktualizacjami i usunięciami), których wykonanie zajmuje zbyt dużo czasu (i są skomplikowane do napisania)
    • Dane z różnych systemów muszą zostać połączone
  2. To naprawdę pytanie, co uważasz za hurtownię danych. W wielu przypadkach można przejść stopniowo od Systemy OLTPs z niektórymi raportami do hurtowni danych, o ile można trzymać się relacyjnego systemu zarządzania bazami danych. Najpierw można zbudować pierwszą tabelę faktów i nadal używać tabel znormalizowanych dla wymiaru. Następnie dodajemy do gry więcej faktów, więcej tabel faktów lub dedykowanych tabel wymiarów. Najpierw w tej samej bazie danych (lub jednej z baz danych zaangażowanych systemów), ewentualnie przeniesienie do osobnej bazy danych później.

  3. Pełna hurtownia danych (osobna baza danych, star schema) oferuje najlepsze opcje strojenia instrukcji select, poza przechodzeniem do specjalistycznego systemu. Jest również całkowicie oddzielony od systemu (- ów) OLTP. Pomyśl projekt schematu, ale także zasoby takie jak procesor, I / o i pamięć i organizacyjne, takie jak planowanie nowych wydań. Oczywiście jest to dużo pracy, której prawdopodobnie nie potrzebujesz.

  4. To w odpowiedziach powyżej: to, że masz garść złożonych zapytań, nie oznacza, że powinieneś zbudować DWH, to samo dotyczy inne kryteria, jeśli pochodzą one w izolacji.

  5. Niewiele tu mogę zaoferować, ale Rada: go agile. Wymagania dotyczące DWH zależą bardzo od możliwości, jakie widzą użytkownicy. Tam wymagania mogą ulec zmianie. Automatyzacja testów z bazami danych to ból, ale wygłupianie się w systemie produkcyjnym bez odpowiednich testów jest gorsze.

 3
Author: Jens Schauder,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2018-08-23 21:06:38

W jakim momencie warto rozważyć budowę hurtowni danych? Innymi słowy, na jakie wskaźniki, metryki lub inne kryteria powinienem zwrócić uwagę, które mogą wskazywać, że standardowe środowisko transakcyjne nie jest już wystarczające?

Polecam hurtownię danych, gdy zauważyłeś, że wykonywanie raportów i analiz w magazynie danych transakcyjnych jest szkodliwe dla obu.

Jakie są alternatywy dla pełna hurtownia danych? Denormalizacja w bazie danych transakcyjnych i standardowym replikowanym "serwerze raportów" to dwa, które przychodzą na myśl; czy są jakieś inne, które powinienem zbadać przed przystąpieniem do DW?

Nie mam nic do zaoferowania. Powiedziałbym, że prowadzenie baz danych transakcyjnych i raportowych wydaje mi się rozsądne, niezależnie od tego, czy nazywasz to magazynem, czy nie. Eksploracja danych może być bardzo intensywną działalnością CPU.

Dlaczego hurtownia danych lepsze niż wspomniane alternatywy? Jeśli odpowiedź brzmi: "to zależy", to od czego to zależy?

Nie mam nic do zaoferowania.
Kiedy nie powinienem budować hurtowni danych? Jestem sceptyczny wobec wszystkiego, co uznane jest za "najlepszą praktykę", niezależnie od kontekstu. Na pewno muszą być jakieś scenariusze, w których DW jest złym wyborem-czym one są?

Powiedziałbym, że jeśli nie trzeba zachować długą historię, nie robią intensywnej analizy danych, a Twój potrzeby raportowania są ograniczone do doraźnego zapytania od czasu do czasu, wtedy być może hurtownia danych nie jest konieczna.

Czy są jakieś praktyczne przykłady systemów, które zostały ulepszone poprzez wprowadzenie hurtowni danych? Coś, co wyjaśniałoby mi, od końca do końca, do jakich decyzji lub analiz potrzebowali magazynu, w jaki sposób zdecydowali, co w nim umieścić i w jaki sposób magazyn dopasował się do większego środowiska? Nie chcę wymyślonego "let' s zrób kostkę z bazy danych AdventureWorks " - realizacja jest dla mnie nieistotna, interesują mnie specyfikacje i projekty oraz ogólny proces myślenia, który był zaangażowany.

Moi pracodawcy korzystali z hurtowni danych przez wiele lat przed moim przybyciem, więc nie mogę mówić, jak było przed moim przybyciem.

 2
Author: duffymo,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-01-02 19:54:30

Z mojego doświadczenia wynika, że pierwszym sygnałem do rozpoczęcia myślenia o hurtowni danych jest to, gdy masz (lub rozwijasz) bazę danych transakcyjnych, a użytkownicy zaczynają dodawać wiele wymagań dotyczących raportowania i historii danych. Czyli prawie zawsze. Zawsze łatwiej jest mieć oddzielną hurtownię danych lub bazę danych raportowania niż próbować zaprojektować system transakcyjny, który obsługuje potrzeby raportowania, które zawsze mają użytkownicy końcowi. Przechowywanie historii (dla podmiotów gospodarczych) w transakcjach system zwiększa złożoność i rozbudowuje bazę danych, która powinna być jak najbardziej responsywna.

Z drugiej strony, byłem w dużych firmach, w których wiele grup tworzyło hurtownie danych, ponieważ interesujące dane były rozłożone na wiele systemów i dlatego były trudne do wyszukania. Problem polegał na tym, że każda grupa stworzyła własną hurtownię danych, ponieważ wszystkie istniejące magazyny w firmie nie miały odpowiedniego podzbioru informacji lub miały model danych, który został uznany za nieoptymalny albo źle. To pogorszyło sytuację, tworząc jeszcze bardziej rozbieżne systemy danych, które były trudne do porównania.

 2
Author: goheen,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-01-03 18:29:54

DW można rozważyć, jeśli, jeden jest za pomocą "systemu transakcyjnego" od dłuższego czasu. Później zdają sobie sprawę, że muszą wykonać eksplorację danych, aby określić różne wzorce danych w firmie. I wreszcie, za pomocą ustalonych wzorców danych, chce się pomóc Najwyższemu zarządowi w podejmowaniu dalszych decyzji z korzyścią dla firmy.

Należy podjąć następujące kroki w celu zbudowania magazynu danych:

  1. Platforma I baza danych ETL trzeba zdecydować się na bazę danych.
  2. Narzędzie do raportowania, takie jak SSRS, Tableau itp. musi być wybrany do wizualizacji.
  3. można wybrać analityczny język danych, taki jak R, do dalszego wykorzystania.
  4. wreszcie, wszystko to pomoże w rozwoju domu danych ware i narzędzia raportowania. 
 0
Author: Deepesh Tiwari,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2015-07-20 05:04:16

" myślę, że dlaczego niektóre projekty zawodzą?"

Istnieje pięć podstawowych powodów:

    Brak współpracy pomiędzy działem IT a użytkownikami biznesowymi;]}
  • nieprawidłowa Architektura hurtowni danych;
  • za mało doświadczonych ludzi;
  • niewłaściwe planowanie, takie jak niestosowanie sprawdzonej metodologii i planu w celu zapewnienia, że żadne szczegóły nie zostaną pominięte;
  • I w zależności od najnowocześniejszej technologii.
 -1
Author: Jayron Soares,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2014-01-06 12:46:23