Wprowadzenie do hurtowni danych

 

Czym jest hurtownia danych?

Hurtownie danych nie mają spójnej definicji uznawanej powszechnie. Istnieją dwa główne nurty oparte o twierdzenia Billa Inmona i Ralpha Kimballa.

 

Definicja Kimballa

„Hurtownia danych jest to system, który pozyskuje dane z systemów źródłowych, przekształca je i ładuje do wielowymiarowych struktur, a następnie dostarcza zapytania i analizy wspierające podejmowanie decyzji”

Definicja Inmona

„Hurtownia to baza danych mająca służyć wspomaganiu procesu podejmowania decyzji która jest :

 • zorientowana tematycznie

 • nieulotna

 • zintegrowana

 • zróżnicowana czasowo

Zorientowanie tematyczne odnosi się do zorientowania bazy na jeden określony temat – np. analiza sprzedaży. Nieulotność – hurtownia przechowuje dane w sposób trwały. Jeśli pojawią się nowe wersje danych, archiwalne powinny tam pozostać ewentualnie w jakiś sposób oznaczone. Zintegrowanie odnosi się do spójności formatów, postaci a także np. sposobu kodowania. Zróżnicowana czasowo oznacza że hurtownia przechowuje dane archiwalne.

 

Co oferują hurtownie danych?

 • Odseparowanie danych niezbędnych do analiz od systemów transakcyjnych

 • Przetworzenie danych do postaci gotowej do analiz

 • Zagregowanie danych z różnych źródeł w jednym miejscu

 • Ujednolicenie danych (np. formatu daty)

 • Agregaty uwzględniające różne poziomy granulacji

Czym różnią się hurtownie danych od baz operacyjnych?

 • Bazy danych optymalizuje się pod kątem aktualizacji danych, a hurtownie pod kątem ich czytania (przykładowo w bazach OLTP nie powinno używać się indeksów bitmapowych ze względu na specyfikę zakładania przez nie blokad podczas aktualizacji danych)

 • Hurtownie zazwyczaj są oparte o struktury typu star czy snowflake, ponadto często są również zdenormalizowane.

 • W bazach OLTP dane ciągle się zmieniają, w hurtowniach są z reguły nieulotne.

 • W hurtowniach danych gromadzone są dane historyczne, które nie są przechowywane w bazach operacyjnych.

 • Dane w hurtowniach często pochodzą z różnych źródeł i są cyklicznie ładowane.