Przetwarzanie danych Big Data z Apache Spark

Najbliższe terminy tego szkolenia
Standardy JSystems
- Wszyscy nasi trenerzy muszą być praktykami i osiągać średnią z ankiet minimum 4.75 na 5. Nie ma wśród nas trenerów-teoretyków. Każdy trener JSystems ma bogate doświadczenie komercyjne w zakresie tematów z których prowadzi szkolenia.
- Wszystkie szkolenia mają format warszatowy. Każde zagadnienie teoretyczne jest poparte rzędem warsztatów w ściśle określonym formacie.
- Terminy gwarantowane na 100%. Jeśli jakiś termin jest oznaczony jako gwarantowany, oznacza to że odbędzie się nawet jeśli część grupy wycofa się z udziału. Ryzyko ponosimy my jako organizator.
- Do każdego szkolenia które wymaga jakiegokolwiek oprogramowania dostarczamy skonfigurowane, gotowe hosty w chmurze. Dzięki temu uczestnik nie musi nic instalować na swoim komputerze (i bić się z blokadami korporacyjnymi). Połączenie następuje przez zdalny pulpit lub SSH - w zależności od szkolenia.
Program szkolenia
Dzień 1: Podstawy środowiska Big Data i Spark
-
Wprowadzenie do ekosystemu Big Data
- Czym jest Big Data
-
Charakterystyka wyzwań pracy - 5 V
- Volume - praca w środowisku, gdzie sam rozmiar danych przekracza możliwości pojedynczej maszyny
- Velocity - wymóg zapewnienia wysokiej prędkości procesowania i dostępności nowych danych
- Variety - praca z różnymi typami danych, takimi jak bazy danych, pliki ustrukturyzowane np. parquet, pliki nieustrukturyzowane np. pliki audio
- Veracity - testowanie danych pod kątem ich jakości np. sprawdzanie czy daty w systemie zachowują logikę
- Value - dążenie do zapewnienia wartościowych i zaufanych danych na którym przedsiębiorstwa mogą bazować przy podejmowaniu decyzji
-
Podejścia i obecne trendy
- Przedstawienie przykładowej migracji
-
Spark a Databricks
- Wprowadzenie do ekosystemu Apache Spark
- Przedstawienie typów deploymentów Sparka (w tym Databricks)
- Wprowadzenie do Platformy Databricks
-
Databricks Workspace
- Przedstawienie środowiska pracy
- Nawigacja na platformie
-
Structured API Podstawy
-
PySpark Dataframe
- Funkcje: withColumn, where, zmiana typów, joiny, zapisywanie danych
-
Spark SQL
- Funkcje: selecty, filtry, agregacje, joiny, zarządzanie tabelami
-
PySpark Dataframe
- Wprowadzenie do danych projektowych
Dzień 2: Konfiguracja infrastruktury danych
-
Unity Catalog
- Centralizacja dostępu
- Przeszukiwanie zasobów
-
Dobre praktyki w kodzie
- Strukturyzacja notebooków
-
Wykorzystanie dbutils
- Parametryzacja notebooków
- Przykładowe wykorzystanie outputu notebooków
- Structured API Ciąg Dalszy
-
PySpark Dataframe
- Kolekcje, praca na kolumnach typu array oraz struct
-
Spark SQL
- Praca z dynamiczne kwerendy
-
Budowanie jeziora danych
- Formaty plików Json, Parquet, Delta
-
Przedstawienie Architektury Medallion
- Logiczna organizacja architektury danowej
- Warsztat
Dzień 3: Orkiestracja pracy klastrów
-
Zarządzanie Klastrami
- Typy klastrów
- Konfiguracja ustawień
- Dostępy dla deweloperów
-
Workflowy
- Orkiestracja przepływów danych
- Warsztat
Dzień 4: Rdzeń Sparka
-
Wewnętrzne komponenty Sparka
-
Driver i Executory
- Omówienie pracy poszczególnych komponentów
-
Akcje i Transformacje
- Optymalizacja planu wykonania kodu w Apache Spark
-
Driver i Executory
-
Spark UI
-
Podgląd procesów
- Monitoring zużycia zasobów
-
Debugging
- Szczegółowy podgląd błędów w egzekucji kodu
- Loggi
-
Podgląd procesów
- Warsztat
Opis szkolenia
Szkolenie odbywa się na żywo z udziałem trenera. Nie jest to forma kursu video!
O szkoleniu
To intensywne, praktyczne szkolenie wprowadzi Cię w realne zastosowania Apache Spark – jednego z najpotężniejszych silników obliczeniowych w świecie danych. Od podstaw aż po optymalizację – nauczysz się, jak efektywnie tworzyć, analizować i orkiestrwać potoki danych z użyciem PySpark i Spark SQL, pracując na rzeczywistej platformie Databricks. Wejdź na poziom Big Data i naucz się przetwarzać dane z prędkością błyskawicy.
📅 Dzień 1: Wprowadzenie do Big Data i Spark z użyciem PySpark
- Poznasz kluczowe wyzwania świata Big Data (5V) i zobaczysz, jak Spark radzi sobie z ogromnymi, różnorodnymi i zmiennymi danymi.
- Nauczysz się podstaw pracy z Apache Spark i jego strukturą rozproszoną.
- Otrzymasz solidne podstawy pracy z PySpark DataFrame API: withColumn, filter, select, join, cast, write.
- Zaczniesz pisać zapytania w Spark SQL, zarządzać tabelami, agregować dane i optymalizować transformacje.
- Poznasz środowisko Databricks – idealne do pracy z klastrami Spark w chmurze.
🔧 Warsztat: Praca z rzeczywistym zbiorem danych – tworzenie i manipulacja DataFrame'ami w PySparku, pierwsze transformacje i zapis wyników.
📅 Dzień 2: Projektowanie kodu sparkowego i budowa architektury danych
- Nauczysz się dobrych praktyk pracy z kodem PySpark – modularne notebooki, dbutils, parametryzacja, output notebooków.
- Rozszerzysz znajomość PySparka o pracę z strukturami zagnieżdżonymi (array, struct), kolekcjami i dynamicznymi kwerendami.
- Poznasz nowoczesne formaty danych: Parquet, JSON, Delta Lake – i nauczysz się, jak je czytać, zapisywać i konwertować w PySparku.
- Poznasz architekturę Medallion – podejście do logicznej organizacji danych w Spark Lakehouse.
🔧 Warsztat: Przekształcanie nieustrukturyzowanych danych w uporządkowaną formę – praktyka z DataFrame'ami i SQL Sparka.
📅 Dzień 3: Orkiestracja potoków danych Spark
- Nauczysz się zarządzać klastrami Spark – konfiguracje, typy instancji, dostępność i przydzielanie zasobów.
- Poznasz Databricks Workflows – sposób na automatyzację procesów Spark i zarządzanie cyklem życia danych.
- Nauczysz się projektować i uruchamiać złożone pipeline'y Sparkowe – od harmonogramowania po monitorowanie.
🔧 Warsztat: Automatyzacja i orkiestracja potoku danych z użyciem workflowów – od surowych danych po gotowe tabele Delta.
📅 Dzień 4: Dogłębna analiza działania Apache Spark
- Zrozumiesz wewnętrzne mechanizmy działania Sparka: Driver, Executor, DAG, Stage, Task.
- Nauczysz się świadomie używać transformacji i akcji PySparka – z uwzględnieniem kosztów obliczeniowych.
- Będziesz analizować i optymalizować fizyczne plany wykonania (explain(), Spark UI) oraz debugować błędy.
- Dowiesz się, jak monitorować klaster, wykrywać wąskie gardła i poprawiać wydajność kodu PySpark.
🔧 Warsztat: Diagnoza i optymalizacja rzeczywistych zapytań w PySparku – praktyka z logami, Spark UI i performance tuningiem.
💼 Dla kogo jest to szkolenie?
- Dla analityków, data engineerów i programistów chcących efektywnie pracować z PySpark i Spark SQL,
- Dla zespołów BI, które szukają skalowalnych rozwiązań do analizy danych,
- Dla każdego, kto chce opanować Apache Spark na praktycznym, produkcyjnym poziomie.
🚀 Co zyskasz?
- Zrozumiesz, jak działa Spark „pod maską” i jak pisać efektywny kod w PySparku,
- Zbudujesz potok danych od A do Z: od wczytania surowych danych, przez transformacje, po zapis w Delta Lake,
- Nauczysz się optymalizować, debugować i orkiestrwać zadania Sparkowe jak zawodowiec,
- Otrzymasz dostęp do notebooków, które możesz od razu wdrożyć u siebie.
🔥 Zamień miliony wierszy danych w milisekundy decyzji.
Zostań ekspertem od PySparka i wejdź na poziom Big Data z Apache Spark i Databricks!
Wymagania co do uczestnika
- Podstawowa znajomość SQL
- Podstawowa znajomość Pythona
- Podstawowa znajomość Git
- Założenie konta na GitHub
- Podstawowa znajomość technologii chmurowych nie jest obowiązkowa, ale przydatna
Terminy i definicje
System Rozproszony
System rozproszony to zbiór niezależnych komputerów lub urządzeń, które współpracują ze sobą poprzez sieć komputerową, tworząc logiczną całość. Każdy węzeł w systemie może działać niezależnie, ale wszystkie razem realizują wspólne cele.
Spark
Apache Spark to potężne, masowo skalowalne środowisko do przetwarzania danych, które umożliwia efektywne przetwarzanie dużych zbiorów danych w pamięci oraz na dysku. Jest podstawowym komponentem platformy Databricks.
Databricks
Databricks to platforma do zarządzania danymi, która łączy zalety systemów data lake i data warehouse. Wykorzystuje Apache Spark jako silnik przetwarzania i zapewnia scentralizowane środowisko do analizy danych, uczenia maszynowego i biznesowych zastosowań analitycznych.
Data Lake (jezioro danych)
Data Lake to centralne repozytorium danych przechowujące duże ilości danych w ich pierwotnej, surowej formie. W przeciwieństwie do tradycyjnych hurtowni danych, które wymagają uprzedniej strukturyzacji danych, data lake może przechowywać dane w dowolnym formacie, w tym: strukturyzowane, półstrukturyzowane i niestrukturyzowane.
Prowadzący szkolenie:
Dawid Grześków
Specjalista IT z pięcioletnim doświadczeniem w środowisku danowym. W swojej karierze przeszedłem przez budowanie narzędzi wewnętrznych, analitykę oraz tworzenie systemów raportowych. Aktualnie pracuję jako Inżynier Danych, gdzie Spark i Databricks stanowią moje główne narzędzia pracy.
Na co dzień pracuję z technologiami chmurowymi na platformie Azure. Programuję w Pythonie, SQL oraz Sparku. Tworzę modele, hurtownie oraz jeziora danych. Integruję rozwiązania DevOps z procesami biznesowymi. Tworzę zaplecza całych platform i rozwijam procesy integracyjne.
Projekty w których brałem udział to m.in.:
- Integracja przepływów danych wspierających mi.n. SAPa, procesy korporacyjne
- Budowanie jezior danych w celu scentralizowania zasobów przedsiębiorstwa
- Budowanie modeli analitycznych, które dotychczas były niemożliwe do zrealizowania bez Sparka.
- Wdrażanie rozwiązań DevOps/DataOps
Posiadam doświadczenie pracy w międzynarodowych firmach, gdzie wspierałem zespoły w przyswajaniu wiedzy procesowej oraz narzędziowej. Jako praktyk, wychodzę z założenia, że tylko praktyczne szkolenia dają satysfakcjonujące efekty.
Z takim założeniem stworzyłem również poniższy kurs.
Stanowisko robocze

Do tego szkolenia każdy uczestnik otrzymuje dostęp do indywidualnej wirtualnej maszyny w chmurze. Ma ona zainstalowane i skonfigurowane wszystko co potrzebne do realizacji szkolenia. Maszyna będzie dostępna przez cały okres szkolenia.
Gdy na jakiś termin zgłosi się minimalna liczba osób, termin oznaczamy jako gwarantowany.
Jeśli jakiś termin oznaczony jest jako gwarantowany to oznacza to, że na 100% się odbędzie we wskazanym czasie i miejscu.
Nawet gdyby część takiej grupy zrezygnowała lub przeniosła się na inny termin, raz ustalony termin gwarantowany takim pozostaje.
Ewentualne ryzyko ponosimy my jako organizator.
Przejdź do terminów tego szkolenia

Sprawdź, co mówią o nas ci, którzy nam zaufali
Trenerzy kategorii Big Data


Jestem programistą z 12-sto letnim doświadczeniem, związanym głównie z ekosystemem Javy, ale również Pythonem, bazami danych, zagadnienami DevOps (Docker, Kubernetes, CI/CD pipelines) i frameworkami JavaScriptowymi. Moja ścieżka kariery prowadziła mnie przez różne branże – od telekomunikacyjnej, przez medyczną, bankową, do giełdy energii – dzięki czemu mogłem poznać wiele technologii i ich zastosowań w poszczególnych obszarach. Od kilku lat zaangażowany jestem w prowadzenie szkoleń i warsztatów, bo wierzę, że najlepszym sposobem na naukę jest przekazywanie wiedzy innym.


Specjalista IT z pięcioletnim doświadczeniem w środowisku danowym. W swojej karierze przeszedłem przez budowanie narzędzi wewnętrznych, analitykę oraz tworzenie systemów raportowych. Aktualnie pracuje jako Inżynier Danych, gdzie Spark i Databricks stanowią moje główne narzędzia pracy.
Na co dzień pracuje z technologiami chmurowymi na platformie Azure. Programuje w Pythonie, SQL oraz Sparku. Tworzę modele, hurtownie oraz jeziora danych. Integruję rozwiązania DevOps z procesami biznesowymi. Tworzę zaplecza całych platform i rozwijam procesy integracyjne.
Projekty w których brałem udział to m.in.:
- Integracja przepływów danych wspierających mi.n. SAPa, procesy korporacyjne
- Budowanie jezior danych w celu scentralizowania zasobów przedsiębiorstwa
- Budowanie modeli analitycznych, które dotychczas były niemożliwe do zrealizowania bez Sparka.
- Wdrażanie rozwiązań DevOps/DataOps
Posiadam doświadczenie pracy w międzynarodowych firmach, gdzie wspierałem zespoły w przyswajaniu wiedzy procesowej oraz narzędziowej. Jako praktyk, wychodzę z założenia, że tylko praktyczne szkolenia dają satysfakcjonujące efekty.