22 299 53 69 biuro@jsystems.pl
Sprawdź 👉 GWARANTOWANE TERMINY SZKOLEŃ 👈 na rok 2026!


Przetwarzanie danych w Apache Spark za pomocą PySpark i Spark SQL

by:
Czas trwania 2 dni

Najbliższe terminy tego szkolenia

23.03 24.03 Termin gwarantowany Szkolenie online Ostatnie miejsca!
Zapisz się
22.06 23.06 Termin gwarantowany Szkolenie online Ostatnie miejsca!
Zapisz się
28.09 29.09 Termin gwarantowany Szkolenie online Ostatnie miejsca!
Zapisz się
16.11 17.11 Termin gwarantowany Szkolenie online Ostatnie miejsca!
Zapisz się

Szkolenie
dedykowane
dla Twojego
zespołu

Cena szkolenia 1800 PLN (netto)

Standardy JSystems

  1. Wszyscy nasi trenerzy muszą być praktykami i osiągać średnią z ankiet minimum 4.75 na 5. Nie ma wśród nas trenerów-teoretyków. Każdy trener JSystems ma bogate doświadczenie komercyjne w zakresie tematów z których prowadzi szkolenia.
  2. Wszystkie szkolenia mają format warszatowy. Każde zagadnienie teoretyczne jest poparte rzędem warsztatów w ściśle określonym formacie.
  3. Terminy gwarantowane na 100%. Jeśli jakiś termin jest oznaczony jako gwarantowany, oznacza to że odbędzie się nawet jeśli część grupy wycofa się z udziału. Ryzyko ponosimy my jako organizator.
  4. Do każdego szkolenia które wymaga jakiegokolwiek oprogramowania dostarczamy skonfigurowane, gotowe hosty w chmurze. Dzięki temu uczestnik nie musi nic instalować na swoim komputerze (i bić się z blokadami korporacyjnymi). Połączenie następuje przez zdalny pulpit lub SSH - w zależności od szkolenia.
Zapisz się
Program szkolenia

  • Wprowadzenie do ekosystemu Big Data
    • Omówienie koncepcji Big Data – co oznacza, skąd się bierze, jakie są główne źródła danych i jakie wyzwania wiążą się z ich przetwarzaniem.
    • Rozproszone przetwarzanie danych – omówienie zalet i architektury systemów rozproszonych, różnice między przetwarzaniem wsadowym a strumieniowym.

  • Spark i Databricks
    • Wprowadzenie do ekosystemu Apache Spark
      • Omówienie czym jest Spark, jego komponentów (RDD, DataFrame, Spark SQL itd.), oraz jak Databricks upraszcza korzystanie z Apache Spark dzięki środowisku chmurowemu.
    • Wprowadzenie do Platformy Databricks
      • Pokaz środowiska pracy w Databricks: jak nawigować po interfejsie, zarządzać notatnikami (notebooks), jak wykonywać zapytania, jak przeglądać dane.

  • Omówienie Transformacji oraz Akcji w kontekście pracy z Sparkiem.

  • Databricks Workspace
    • Przedstawienie środowiska pracy.
    • Nawigacja na platformie.

  • Structured API – podstawy
    • Schemat danych
    • Wczytywanie danych w PySpark
    • PySpark DataFrame oraz Spark SQL
      • Wyświetlanie danych
      • Selekcja danych
      • Operacje na kolumnach
      • Filtrowanie wierszy

  • Warsztat – podstawy
    • Ćwiczenia pozwalające na zastosowanie zdobytej wiedzy w praktyce – m.in. wczytywanie danych, tworzenie prostych transformacji i zapytań SQL w Databricks.

  • Structured API – część zaawansowana
    • Zapisywanie danych do różnych formatów (Parquet, Delta)
    • Grupowanie i agregacja danych
    • Łączenie danych z różnych źródeł (joiny)
    • Tworzenie i użycie własnych funkcji (User Defined Functions – UDF)

  • Partycjonowanie danych
    • Zasady i znaczenie partycjonowania w kontekście wydajności – jak poprawnie zarządzać rozkładem danych w Spark.

  • Unity Catalog
    • Wprowadzenie do Unity Catalog jako centralnego repozytorium zarządzania dostępem, zasobami danych i ich klasyfikacją na platformie Databricks.

  • Budowanie jeziora danych (Data Lake)
    • Omówienie architektury jeziora danych, zasady organizacji danych w systemie plików, różnice między Data Lake a Data Warehouse.

  • Formaty danych – JSON, Parquet, Delta
    • Krótkie porównanie formatów danych, ich zalety i zastosowania w środowisku Spark.

  • Architektura Medallion
    • Prezentacja trójwarstwowej architektury danych (Bronze, Silver, Gold) stosowanej w nowoczesnych rozwiązaniach DataLakehouse.

  • Warsztat – część zaawansowana
    • Zastosowanie zaawansowanych funkcji Spark i Databricks w praktyce – ćwiczenia z agregacji danych, użycia UDF, pracy z różnymi formatami danych i wykorzystania architektury Medallion.

Opis szkolenia

Szkolenie odbywa się na żywo z udziałem trenera. Nie jest to forma kursu video!

O szkoleniu w skrócie

Szkolenie poświęcone jest Apache Spark – nowoczesnemu narzędziu do przetwarzania danych, wykorzystywanym przez czołowe firmy z Doliny Krzemowej.

To ekspresowe szkolenie zostało przygotowane z myślą o przystępnym oraz wartościowym wprowadzeniu uczestników do pracy w dynamicznym środowisku Big Data z platformą Databricks, Spark SQL i PySparkiem.



Cel szkolenia

Praca z systemem Spark oraz platformą Databricks. Opanowanie praktycznych umiejętności niezbędnych do skutecznej realizacji projektów danowych w nowoczesnym środowisku, które kształtuje współczesne standardy w obszarze Big Data.


Dla kogo przeznaczone jest szkolenie?

  • Analityków Danych, którzy chcą podnieść swoje umiejętności w zakresie pracy z danymi i rozszerzyć możliwości kariery
  • Inżynierów Danych, pragnących uzupełnić wiedzę na temat Databricks. Szkolenie szczególnie przyda się osobom znającym już podobne rozwiązania, takie jak Snowflake czy Microsoft Fabric
  • Programistów, którzy postanowili zostać Inżynierami Danych
  • Data Science, którzy chcą opanować Sparka i wykorzystywać go w projektach

Gdzie użyjesz nabytej wiedzy?

  • W codziennej pracy z Platformą Databricks oraz Sparkiem
  • W projektach wymagających elastycznego podejścia pod kątem wykorzystywanych zasobów
  • Przy budowaniu systemów analitycznych dla firmy

Czego się nauczysz?

  • Czym jest Big Data – zrozumiesz jak wygląda nowoczesne przetwarzanie danych rozproszonych.
  • Analizy dużych zbiorów danych – efektywnego przetwarzania i analizy milionów rekordów przy użyciu Sparka, zarówno w SQL, jak i Pythonie.
  • Integracji danych z różnych źródeł – łączenia danych z baz relacyjnych, plików CSV, Parquet, systemów chmurowych (Azure, AWS, GCP).
  • Przygotowania danych do analiz i uczenia maszynowego – oczyszczanie, transformacja i formatowanie danych w sposób umożliwiający ich wykorzystanie w modelach machine learning.

Wymagania co do uczestnika

  • Podstawowa znajomość SQL
  • Podstawowa znajomość Pythona
  • Podstawowa znajomość Git
  • Założenie konta na GitHub
  • Podstawowa znajomość technologii chmurowych nie jest obowiązkowa, ale przydatna


Terminy i definicje

System Rozproszony

System rozproszony to zbiór niezależnych komputerów lub urządzeń, które współpracują ze sobą poprzez sieć komputerową, tworząc logiczną całość. Każdy węzeł w systemie może działać niezależnie, ale wszystkie razem realizują wspólne cele.

Spark

Apache Spark to potężne, masowo skalowalne środowisko do przetwarzania danych, które umożliwia efektywne przetwarzanie dużych zbiorów danych w pamięci oraz na dysku. Jest podstawowym komponentem platformy Databricks.

Databricks

Databricks to platforma do zarządzania danymi, która łączy zalety systemów data lake i data warehouse. Wykorzystuje Apache Spark jako silnik przetwarzania i zapewnia scentralizowane środowisko do analizy danych, uczenia maszynowego i biznesowych zastosowań analitycznych.

Data Lake (jezioro danych)

Data Lake to centralne repozytorium danych przechowujące duże ilości danych w ich pierwotnej, surowej formie. W przeciwieństwie do tradycyjnych hurtowni danych, które wymagają uprzedniej strukturyzacji danych, data lake może przechowywać dane w dowolnym formacie, w tym: strukturyzowane, półstrukturyzowane i niestrukturyzowane.



Prowadzący szkolenie:
Dawid Grześków


Specjalista IT z pięcioletnim doświadczeniem w środowisku danowym. W swojej karierze przeszedłem przez budowanie narzędzi wewnętrznych, analitykę oraz tworzenie systemów raportowych. Aktualnie pracuję jako Inżynier Danych, gdzie Spark i Databricks stanowią moje główne narzędzia pracy.

Na co dzień pracuję z technologiami chmurowymi na platformie Azure. Programuję w Pythonie, SQL oraz Sparku. Tworzę modele, hurtownie oraz jeziora danych. Integruję rozwiązania DevOps z procesami biznesowymi. Tworzę zaplecza całych platform i rozwijam procesy integracyjne.

Projekty w których brałem udział to m.in.:

  • Integracja przepływów danych wspierających mi.n. SAPa, procesy korporacyjne
  • Budowanie jezior danych w celu scentralizowania zasobów przedsiębiorstwa
  • Budowanie modeli analitycznych, które dotychczas były niemożliwe do zrealizowania bez Sparka.
  • Wdrażanie rozwiązań DevOps/DataOps

Posiadam doświadczenie pracy w międzynarodowych firmach, gdzie wspierałem zespoły w przyswajaniu wiedzy procesowej oraz narzędziowej. Jako praktyk, wychodzę z założenia, że tylko praktyczne szkolenia dają satysfakcjonujące efekty.

Z takim założeniem stworzyłem również poniższy kurs.


Środowisko robocze


Nie jest wymagane instalowanie żadnego oprogramowania przez Uczestnika. Dostęp do gotowego środowiska na potrzeby tego szkolenia jest zapewniany każdemu Uczestnikowi przez organizatora.
Terminy gwarantowane

Gdy na jakiś termin zgłosi się minimalna liczba osób, termin oznaczamy jako gwarantowany.

Jeśli jakiś termin oznaczony jest jako gwarantowany to oznacza to, że na 100% się odbędzie we wskazanym czasie i miejscu.

Nawet gdyby część takiej grupy zrezygnowała lub przeniosła się na inny termin, raz ustalony termin gwarantowany takim pozostaje. Ewentualne ryzyko ponosimy my jako organizator.

Przejdź do terminów tego szkolenia

Szkolenia online Szkolenia online odbywają się na żywo z udziałem trenera. Uczestniczy łączą się na szkolenie za pomocą platfomy ZOOM (nie trzeba instalować, można połączyć się również przez przeglądarkę). Informacje organizacyjne Uczestnicy otrzymują na 7 dni przed datą rozpoczęcia szkolenia.
Nadal poszukujesz czegoś innego?

Sprawdź pozostałe szkolenia z kategorii:

Python Zobacz

Sprawdź, co mówią o nas ci, którzy nam zaufali

  • 5.0/5

    Przetwarzanie danych w Apache Spark za pomocą PySpark i Spark SQL

    26-11-2025 Szkolenie bardzo profesjonalne z bardzo dużą ilością praktyki. Prowadzący bardzo dobrze przygotowany, szczerze polecam :) Adam Górski, BEST S.A.

Trenerzy kategorii Python

Mateusz Zimoch
Paweł Stasiński
Wojciech Grzybek
Tomasz Wiliński
Tomasz Duniec
Patryk Palej
Tomasz Woźniak
Zapisz się

Masz jakieś pytania? Skontaktuj się z nami!

Odpowiadamy na telefony i maile w godzinach 9:00-17:00 od poniedziałku do piątku.

Telefon 22 299 53 69
Napisz do nas

Potrzebujesz więcej informacji?

Wiadomość wysłana

Przyjęliśmy Twoją wiadomość i skontaktujemy się z Tobą w tej sprawie

Klikając OK wrócisz do formularza