Sprawdź 141 GWARANTOWANYCH TERMINÓW SZKOLEŃ na rok 2026! Dofinansowanie do 100% — sprawdź możliwości z BUR i KFS!
Szkolenie Big Data

Przetwarzanie danych Big Data z Apache Spark

To intensywne, praktyczne szkolenie wprowadzi Cię w realne zastosowania Apache Spark – jednego z najpotężniejszych silników obliczeniowych w świecie danych. Od podstaw aż po...

więcej →
2800 PLN netto 3 444 PLN brutto Dofinansowanie BUR/KFS
Czas trwania 4 dni
Dawid Grześków
Dawid Grześków Autor szkolenia

Najbliższe terminy 9:00 – 16:00

28.09 –
Gwarantowany Online
Termin niegwarantowany
Kliknij aby przejść do formularza zapisu
23.11 –
Gwarantowany Online
Dawid Grześków Dawid Grześków
Wolne miejsca
Kliknij aby przejść do formularza zapisu
Powiadamiaj mnie o nowych terminach gwarantowanych tego szkolenia

Powiadomienia o terminach gwarantowanych

Na podany adres e-mail będziesz otrzymywać informacje o pojawiających się terminach gwarantowanych szkolenia Przetwarzanie danych Big Data z Apache Spark.

Z powiadomień możesz wypisać się w dowolnym momencie.

Zorganizuj to szkolenie tylko dla swojego zespołu

To szkolenie można zorganizować w formie zamkniętej — z programem dopasowanym do potrzeb Twojego zespołu, w uzgodnionym terminie i formacie.

Dowiedz się więcej

Opis szkolenia


O szkoleniu w skrócie


To intensywne, praktyczne szkolenie wprowadzi Cię w realne zastosowania Apache Spark – jednego z najpotężniejszych silników obliczeniowych w świecie danych. Od podstaw aż po optymalizację – nauczysz się, jak efektywnie tworzyć, analizować i orkiestrwać potoki danych z użyciem PySpark i Spark SQL, pracując na rzeczywistej platformie Databricks. Wejdź na poziom Big Data i naucz się przetwarzać dane z prędkością błyskawicy.



Moduły szkolenia


👉 Moduł 1: Wprowadzenie do Big Data i Spark z użyciem PySpark

  • Poznasz kluczowe wyzwania świata Big Data (5V) i zobaczysz, jak Spark radzi sobie z ogromnymi, różnorodnymi i zmiennymi danymi.
  • Nauczysz się podstaw pracy z Apache Spark i jego strukturą rozproszoną.
  • Otrzymasz solidne podstawy pracy z PySpark DataFrame API: withColumn, filter, select, join, cast, write.
  • Zaczniesz pisać zapytania w Spark SQL, zarządzać tabelami, agregować dane i optymalizować transformacje.
  • Poznasz środowisko Databricks – idealne do pracy z klastrami Spark w chmurze.

🔧 Warsztat: Praca z rzeczywistym zbiorem danych – tworzenie i manipulacja DataFrame'ami w PySparku, pierwsze transformacje i zapis wyników.


👉 Moduł 2: Projektowanie kodu sparkowego i budowa architektury danych

  • Nauczysz się dobrych praktyk pracy z kodem PySpark – modularne notebooki, dbutils, parametryzacja, output notebooków.
  • Rozszerzysz znajomość PySparka o pracę z strukturami zagnieżdżonymi (array, struct), kolekcjami i dynamicznymi kwerendami.
  • Poznasz nowoczesne formaty danych: Parquet, JSON, Delta Lake – i nauczysz się, jak je czytać, zapisywać i konwertować w PySparku.
  • Poznasz architekturę Medallion – podejście do logicznej organizacji danych w Spark Lakehouse.

🔧 Warsztat: Przekształcanie nieustrukturyzowanych danych w uporządkowaną formę – praktyka z DataFrame'ami i SQL Sparka.


👉 Moduł 3: Orkiestracja potoków danych Spark

  • Nauczysz się zarządzać klastrami Spark – konfiguracje, typy instancji, dostępność i przydzielanie zasobów.
  • Poznasz Databricks Workflows – sposób na automatyzację procesów Spark i zarządzanie cyklem życia danych.
  • Nauczysz się projektować i uruchamiać złożone pipeline'y Sparkowe – od harmonogramowania po monitorowanie.

🔧 Warsztat: Automatyzacja i orkiestracja potoku danych z użyciem workflowów – od surowych danych po gotowe tabele Delta.


👉 Moduł 4: Dogłębna analiza działania Apache Spark

  • Zrozumiesz wewnętrzne mechanizmy działania Sparka: Driver, Executor, DAG, Stage, Task.
  • Nauczysz się świadomie używać transformacji i akcji PySparka – z uwzględnieniem kosztów obliczeniowych.
  • Będziesz analizować i optymalizować fizyczne plany wykonania (explain(), Spark UI) oraz debugować błędy.
  • Dowiesz się, jak monitorować klaster, wykrywać wąskie gardła i poprawiać wydajność kodu PySpark.

🔧 Warsztat: Diagnoza i optymalizacja rzeczywistych zapytań w PySparku – praktyka z logami, Spark UI i performance tuningiem.



💼 Dla kogo jest to szkolenie?


  • Dla analityków, data engineerów i programistów chcących efektywnie pracować z PySpark i Spark SQL,
  • Dla zespołów BI, które szukają skalowalnych rozwiązań do analizy danych,
  • Dla każdego, kto chce opanować Apache Spark na praktycznym, produkcyjnym poziomie.


🚀 Co zyskasz?


  • Zrozumiesz, jak działa Spark „pod maską” i jak pisać efektywny kod w PySparku,
  • Zbudujesz potok danych od A do Z: od wczytania surowych danych, przez transformacje, po zapis w Delta Lake,
  • Nauczysz się optymalizować, debugować i orkiestrwać zadania Sparkowe jak zawodowiec,
  • Otrzymasz dostęp do notebooków, które możesz od razu wdrożyć u siebie.


🔥 Zamień miliony wierszy danych w milisekundy decyzji.
Zostań ekspertem od PySparka i wejdź na poziom Big Data z Apache Spark i Databricks!



Wymagania co do uczestnika

  • Podstawowa znajomość SQL
  • Podstawowa znajomość Pythona
  • Podstawowa znajomość Git
  • Założenie konta na GitHub
  • Podstawowa znajomość technologii chmurowych nie jest obowiązkowa, ale przydatna


Terminy i definicje

System Rozproszony
System rozproszony to zbiór niezależnych komputerów lub urządzeń, które współpracują ze sobą poprzez sieć komputerową, tworząc logiczną całość. Każdy węzeł w systemie może działać niezależnie, ale wszystkie razem realizują wspólne cele.

Spark
Apache Spark to potężne, masowo skalowalne środowisko do przetwarzania danych, które umożliwia efektywne przetwarzanie dużych zbiorów danych w pamięci oraz na dysku. Jest podstawowym komponentem platformy Databricks.

Databricks
Databricks to platforma do zarządzania danymi, która łączy zalety systemów data lake i data warehouse. Wykorzystuje Apache Spark jako silnik przetwarzania i zapewnia scentralizowane środowisko do analizy danych, uczenia maszynowego i biznesowych zastosowań analitycznych.

Data Lake (jezioro danych)
Data Lake to centralne repozytorium danych przechowujące duże ilości danych w ich pierwotnej, surowej formie. W przeciwieństwie do tradycyjnych hurtowni danych, które wymagają uprzedniej strukturyzacji danych, data lake może przechowywać dane w dowolnym formacie, w tym: strukturyzowane, półstrukturyzowane i niestrukturyzowane.



Przejdź do programu szkolenia

Prowadzący szkolenie

Dawid Grześków

Dawid Grześków

Specjalista IT z pięcioletnim doświadczeniem w środowisku danowym. W swojej karierze przeszedłem przez budowanie narzędzi wewnętrznych, analitykę oraz tworzenie systemów raportowych. Aktualnie pracuje jako Inżynier Danych, gdzie Spark i Databricks stanowią moje główne narzędzia pracy.

Na co dzień pracuje z technologiami chmurowymi na platformie Azure. Programuje w Pythonie, SQL oraz Sparku. Tworzę modele, hurtownie oraz jeziora danych. Integruję rozwiązania DevOps z procesami biznesowymi. Tworzę zaplecza całych platform i rozwijam procesy integracyjne.

Projekty w których brałem udział to m.in.:

  • Integracja przepływów danych wspierających mi.n. SAPa, procesy korporacyjne
  • Budowanie jezior danych w celu scentralizowania zasobów przedsiębiorstwa
  • Budowanie modeli analitycznych, które dotychczas były niemożliwe do zrealizowania bez Sparka.
  • Wdrażanie rozwiązań DevOps/DataOps

Posiadam doświadczenie pracy w międzynarodowych firmach, gdzie wspierałem zespoły w przyswajaniu wiedzy procesowej oraz narzędziowej. Jako praktyk, wychodzę z założenia, że tylko praktyczne szkolenia dają satysfakcjonujące efekty.

Program szkolenia


  • Wprowadzenie do ekosystemu Big Data
    • Czym jest Big Data
    • Charakterystyka wyzwań pracy - 5 V
      • Volume - praca w środowisku, gdzie sam rozmiar danych przekracza możliwości pojedynczej maszyny
      • Velocity - wymóg zapewnienia wysokiej prędkości procesowania i dostępności nowych danych
      • Variety - praca z różnymi typami danych, takimi jak bazy danych, pliki ustrukturyzowane np. parquet, pliki nieustrukturyzowane np. pliki audio
      • Veracity - testowanie danych pod kątem ich jakości np. sprawdzanie czy daty w systemie zachowują logikę
      • Value - dążenie do zapewnienia wartościowych i zaufanych danych, na których przedsiębiorstwa mogą bazować przy podejmowaniu decyzji
    • Podejścia i obecne trendy
      • Przedstawienie przykładowej migracji

  • Spark a Databricks
    • Wprowadzenie do ekosystemu Apache Spark
    • Przedstawienie typów deploymentów Sparka (w tym Databricks)
    • Wprowadzenie do Platformy Databricks

  • Databricks Workspace
    • Przedstawienie środowiska pracy
    • Nawigacja na platformie

  • Structured API Podstawy
    • PySpark Dataframe
      • Funkcje: withColumn, where, zmiana typów, joiny, zapisywanie danych
    • Spark SQL
      • Funkcje: selecty, filtry, agregacje, joiny, zarządzanie tabelami

  • Wprowadzenie do danych projektowych

  • Unity Catalog
    • Centralizacja dostępu
    • Przeszukiwanie zasobów

  • Dobre praktyki w kodzie
    • Strukturyzacja notebooków
    • Wykorzystanie dbutils
      • Parametryzacja notebooków
      • Przykładowe wykorzystanie outputu notebooków
    • Structured API Ciąg Dalszy
    • PySpark Dataframe
      • Kolekcje, praca na kolumnach typu array oraz struct
    • Spark SQL
      • Praca z dynamicznymi kwerendami

  • Budowanie jeziora danych
    • Formaty plików Json, Parquet, Delta
    • Przedstawienie Architektury Medallion
      • Logiczna organizacja architektury danych

  • Warsztat

  • Zarządzanie Klastrami
    • Typy klastrów
    • Konfiguracja ustawień
    • Dostępy dla deweloperów

  • Workflowy
    • Orkiestracja przepływów danych

  • Warsztat

  • Wewnętrzne komponenty Sparka
    • Driver i Executory
      • Omówienie pracy poszczególnych komponentów
    • Akcje i Transformacje
      • Optymalizacja planu wykonania kodu w Apache Spark

  • Spark UI
    • Podgląd procesów
      • Monitoring zużycia zasobów
    • Debugging
      • Szczegółowy podgląd błędów w egzekucji kodu
    • Loggi

  • Warsztat

Terminy gwarantowane

Szkolenia oznaczone jako "termin gwarantowany" odbędą się w zaplanowanym terminie niezależnie od liczby zgłoszonych uczestników. Nie musisz się martwić, że szkolenie zostanie odwołane z powodu zbyt małej liczby zapisanych osób.

Szkolenia online

Szkolenie realizowane jest w formie zdalnej na żywo poprzez platformę ZOOM. Trener prowadzi szkolenie na żywo, a uczestnicy mogą na bieżąco zadawać pytania i wykonywać ćwiczenia. Format online zapewnia pełną interakcję z trenerem, identyczną jak przy szkoleniu stacjonarnym.

Szkolenie na żywo z trenerem — nie kurs video

To nie jest nagrany kurs video. Przez cały czas trwania szkolenia masz bezpośredni kontakt z doświadczonym trenerem-praktykiem. Możesz na bieżąco zadawać pytania, prosić o wyjaśnienie trudnych zagadnień, konsultować własne projekty i uzyskać odpowiedź na dowolne pytanie związane z tematyką szkolenia. To realne wsparcie eksperta, którego nie zapewni żaden kurs nagrany.

Certyfikat ukończenia szkolenia

Każdy uczestnik po ukończeniu szkolenia otrzymuje imienny certyfikat potwierdzający udział i zdobyte kompetencje. Certyfikat wystawiany jest przez JSystems — firmę z certyfikatem ISO 9001 — i jest honorowany przez pracodawców.

Środowisko robocze

Nie jest wymagane instalowanie żadnego oprogramowania. Każdy uczestnik szkolenia otrzymuje dostęp do gotowego środowiska w chmurze, skonfigurowanego na potrzeby szkolenia. Dostęp realizowany jest poprzez przeglądarkę lub zdalny pulpit, w zależności od szkolenia.

Zainteresowany? Zapisz się na szkolenie!

Zapisz się — wybierz termin

Sprawdź pozostałe szkolenia z kategorii:

Big Data

Opinie uczestników

5.0/5
Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

Kompletne, elastyczne z dużą interakcją na zapytania uczestników.

Wojciech Brożyński Energa-Operator S.A.
5.0/5
Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

Świetne szkolenie, bardzo dobre materiały, rewelacyjny prowadzący posiadający ogromną wiedzę teoretyczną jak i praktyczną.

Jacek Kuligowski Energa-Operator S.A.
5.0/5
Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

Pan Arek to dobry trener, wie co mówi :)

Szymon Nowacki Energa-Operator S.A.
5.0/5
Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

Prowadzący bardzo sympatyczny, dobrze przekazywał wiedzę i tłumaczył

Zuzanna Motylińska Asseco Poland S.A.
5.0/5
Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

Polecam , szkolenie przeprowadzone przez osobe z duza wiedza i bogatym doswiadczeniem , ciekawe zagadnienia i rozwiazania

Arlan Akhmet Ornsson Solutions Sp. z o.o.
5.0/5
Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

Szkolenie bardzo fachowe, trener merytoryczny, ciekawa tematyka. Naprawdę warto.

Rafał Ślubowski Narodowy Bank Polski
5.0/5
Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

Szkolenie bardzo ciekawe, zachęcające to dalszego poszerzania swoich kompetencji w Big Data oraz w technologiach z nią związanych.

Mateusz Wiktorek OPITZ CONSULTING Polska Sp. z o.o.
5.0/5
Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

Bardzo dobrze przeprowadzone szkolenie. Bardzo użyteczne dla osoby początkującej w obszarze BigData. Pozwoliło na usystematyzowanie wiedzy zdobytej w innych źródłach i rozpoczęcie przygody praktycznej.

Radosław Laskowski Polish Airports Academy Sp. z o.o.
Pokaż wszystkie opinie Google Opinie w Google

Zaufali nam

...i wiele innych

5,0 - średnia ocena na podstawie 285 opinii

Dlaczego warto nas wybrać?

Terminy gwarantowane na 100%

Jeśli termin jest oznaczony jako gwarantowany, odbędzie się we wskazanym czasie — nawet jeśli część grupy wycofa się z udziału. Ryzyko organizacyjne ponosimy my, nie Ty.

100% format warsztatowy

Każde zagadnienie teoretyczne jest poparte ćwiczeniami praktycznymi o rosnącym poziomie trudności. Uczymy przez działanie, nie przez slajdy.

Trenerzy-praktycy z oceną min. 4.75/5

Każdy trener JSystems ma bogate doświadczenie komercyjne w technologiach których uczy i musi utrzymywać średnią z ankiet powyżej 4.75 na 5. Czerwony pasek to u nas minimum ;)

Gotowe środowiska w chmurze

Do każdego szkolenia wymagającego oprogramowania dostarczamy skonfigurowane, gotowe hosty w chmurze. Uczestnik nie musi nic instalować — łączy się przez zdalny pulpit lub SSH.

Dowiedz się dlaczego warto nas wybrać

A może nielimitowane szkolenia za
1 148 PLN brutto / mies.?
Sprawdź Karnet Open
KARNET OPEN na szkolenia
A może nielimitowane szkolenia za
1 148 PLN brutto / mies.?
Sprawdź Karnet Open
KARNET OPEN na szkolenia

📅 Przypomnij mi jutro

Wyślemy Ci przypomnienie z linkiem jutro rano.

Zanim wyjdziesz

Wyślemy Ci podsumowanie tego szkolenia z terminami i ceną — do przemyślenia w spokoju.

Żadnego spamu — tylko jedno podsumowanie.