Sprawdź 141 GWARANTOWANYCH TERMINÓW SZKOLEŃ na rok 2026! Dofinansowanie do 100% — sprawdź możliwości z BUR i KFS!
Szkolenie Python

Przetwarzanie danych w Apache Spark za pomocą PySpark i Spark SQL

Szkolenie poświęcone jest Apache Spark – nowoczesnemu narzędziu do przetwarzania danych, wykorzystywanym przez czołowe firmy z Doliny Krzemowej.

więcej →
1800 PLN netto 2 214 PLN brutto Dofinansowanie BUR/KFS
Czas trwania 2 dni
Dawid Grześków
Dawid Grześków Autor szkolenia

Najbliższe terminy 9:00 – 16:00

22.06 –
Gwarantowany Online
Dawid Grześków Dawid Grześków
Ostatnie miejsca
Kliknij aby przejść do formularza zapisu
28.09 –
Gwarantowany Online
Termin niegwarantowany
Kliknij aby przejść do formularza zapisu
16.11 –
Gwarantowany Online
Termin niegwarantowany
Kliknij aby przejść do formularza zapisu
Powiadamiaj mnie o nowych terminach gwarantowanych tego szkolenia

Powiadomienia o terminach gwarantowanych

Na podany adres e-mail będziesz otrzymywać informacje o pojawiających się terminach gwarantowanych szkolenia Przetwarzanie danych w Apache Spark za pomocą PySpark i Spark SQL.

Z powiadomień możesz wypisać się w dowolnym momencie.

Zorganizuj to szkolenie tylko dla swojego zespołu

To szkolenie można zorganizować w formie zamkniętej — z programem dopasowanym do potrzeb Twojego zespołu, w uzgodnionym terminie i formacie.

Dowiedz się więcej

Opis szkolenia


O szkoleniu w skrócie

Szkolenie poświęcone jest Apache Spark – nowoczesnemu narzędziu do przetwarzania danych, wykorzystywanym przez czołowe firmy z Doliny Krzemowej.

To ekspresowe szkolenie zostało przygotowane z myślą o przystępnym oraz wartościowym wprowadzeniu uczestników do pracy w dynamicznym środowisku Big Data z platformą Databricks, Spark SQL i PySparkiem.



Cel szkolenia

Praca z systemem Spark oraz platformą Databricks. Opanowanie praktycznych umiejętności niezbędnych do skutecznej realizacji projektów danowych w nowoczesnym środowisku, które kształtuje współczesne standardy w obszarze Big Data.


Dla kogo przeznaczone jest szkolenie?

  • Analityków Danych, którzy chcą podnieść swoje umiejętności w zakresie pracy z danymi i rozszerzyć możliwości kariery
  • Inżynierów Danych, pragnących uzupełnić wiedzę na temat Databricks. Szkolenie szczególnie przyda się osobom znającym już podobne rozwiązania, takie jak Snowflake czy Microsoft Fabric
  • Programistów, którzy postanowili zostać Inżynierami Danych
  • Data Science, którzy chcą opanować Sparka i wykorzystywać go w projektach

Gdzie użyjesz nabytej wiedzy?

  • W codziennej pracy z Platformą Databricks oraz Sparkiem
  • W projektach wymagających elastycznego podejścia pod kątem wykorzystywanych zasobów
  • Przy budowaniu systemów analitycznych dla firmy

Czego się nauczysz?

  • Czym jest Big Data – zrozumiesz jak wygląda nowoczesne przetwarzanie danych rozproszonych.
  • Analizy dużych zbiorów danych – efektywnego przetwarzania i analizy milionów rekordów przy użyciu Sparka, zarówno w SQL, jak i Pythonie.
  • Integracji danych z różnych źródeł – łączenia danych z baz relacyjnych, plików CSV, Parquet, systemów chmurowych (Azure, AWS, GCP).
  • Przygotowania danych do analiz i uczenia maszynowego – oczyszczanie, transformacja i formatowanie danych w sposób umożliwiający ich wykorzystanie w modelach machine learning.

Wymagania co do uczestnika

  • Podstawowa znajomość SQL
  • Podstawowa znajomość Pythona
  • Podstawowa znajomość Git
  • Założenie konta na GitHub
  • Podstawowa znajomość technologii chmurowych nie jest obowiązkowa, ale przydatna


Terminy i definicje

System Rozproszony

System rozproszony to zbiór niezależnych komputerów lub urządzeń, które współpracują ze sobą poprzez sieć komputerową, tworząc logiczną całość. Każdy węzeł w systemie może działać niezależnie, ale wszystkie razem realizują wspólne cele.

Spark

Apache Spark to potężne, masowo skalowalne środowisko do przetwarzania danych, które umożliwia efektywne przetwarzanie dużych zbiorów danych w pamięci oraz na dysku. Jest podstawowym komponentem platformy Databricks.

Databricks

Databricks to platforma do zarządzania danymi, która łączy zalety systemów data lake i data warehouse. Wykorzystuje Apache Spark jako silnik przetwarzania i zapewnia scentralizowane środowisko do analizy danych, uczenia maszynowego i biznesowych zastosowań analitycznych.

Data Lake (jezioro danych)

Data Lake to centralne repozytorium danych przechowujące duże ilości danych w ich pierwotnej, surowej formie. W przeciwieństwie do tradycyjnych hurtowni danych, które wymagają uprzedniej strukturyzacji danych, data lake może przechowywać dane w dowolnym formacie, w tym: strukturyzowane, półstrukturyzowane i niestrukturyzowane.



Przejdź do programu szkolenia

Prowadzący szkolenie

Dawid Grześków

Dawid Grześków

Specjalista IT z pięcioletnim doświadczeniem w środowisku danowym. W swojej karierze przeszedłem przez budowanie narzędzi wewnętrznych, analitykę oraz tworzenie systemów raportowych. Aktualnie pracuje jako Inżynier Danych, gdzie Spark i Databricks stanowią moje główne narzędzia pracy.

Na co dzień pracuje z technologiami chmurowymi na platformie Azure. Programuje w Pythonie, SQL oraz Sparku. Tworzę modele, hurtownie oraz jeziora danych. Integruję rozwiązania DevOps z procesami biznesowymi. Tworzę zaplecza całych platform i rozwijam procesy integracyjne.

Projekty w których brałem udział to m.in.:

  • Integracja przepływów danych wspierających mi.n. SAPa, procesy korporacyjne
  • Budowanie jezior danych w celu scentralizowania zasobów przedsiębiorstwa
  • Budowanie modeli analitycznych, które dotychczas były niemożliwe do zrealizowania bez Sparka.
  • Wdrażanie rozwiązań DevOps/DataOps

Posiadam doświadczenie pracy w międzynarodowych firmach, gdzie wspierałem zespoły w przyswajaniu wiedzy procesowej oraz narzędziowej. Jako praktyk, wychodzę z założenia, że tylko praktyczne szkolenia dają satysfakcjonujące efekty.

Program szkolenia


  • Wprowadzenie do ekosystemu Big Data
    • Omówienie koncepcji Big Data – co oznacza, skąd się bierze, jakie są główne źródła danych i jakie wyzwania wiążą się z ich przetwarzaniem.
    • Rozproszone przetwarzanie danych – omówienie zalet i architektury systemów rozproszonych, różnice między przetwarzaniem wsadowym a strumieniowym.

  • Spark i Databricks
    • Wprowadzenie do ekosystemu Apache Spark
      • Omówienie czym jest Spark, jego komponentów (RDD, DataFrame, Spark SQL itd.), oraz jak Databricks upraszcza korzystanie z Apache Spark dzięki środowisku chmurowemu.
    • Wprowadzenie do Platformy Databricks
      • Pokaz środowiska pracy w Databricks: jak nawigować po interfejsie, zarządzać notatnikami (notebooks), jak wykonywać zapytania, jak przeglądać dane.

  • Omówienie Transformacji oraz Akcji w kontekście pracy z Sparkiem.

  • Databricks Workspace
    • Przedstawienie środowiska pracy.
    • Nawigacja na platformie.

  • Structured API – podstawy
    • Schemat danych
    • Wczytywanie danych w PySpark
    • PySpark DataFrame oraz Spark SQL
      • Wyświetlanie danych
      • Selekcja danych
      • Operacje na kolumnach
      • Filtrowanie wierszy

  • Warsztat – podstawy
    • Ćwiczenia pozwalające na zastosowanie zdobytej wiedzy w praktyce – m.in. wczytywanie danych, tworzenie prostych transformacji i zapytań SQL w Databricks.

  • Structured API – część zaawansowana
    • Zapisywanie danych do różnych formatów (Parquet, Delta)
    • Grupowanie i agregacja danych
    • Łączenie danych z różnych źródeł (joiny)
    • Tworzenie i użycie własnych funkcji (User Defined Functions – UDF)

  • Partycjonowanie danych
    • Zasady i znaczenie partycjonowania w kontekście wydajności – jak poprawnie zarządzać rozkładem danych w Spark.

  • Unity Catalog
    • Wprowadzenie do Unity Catalog jako centralnego repozytorium zarządzania dostępem, zasobami danych i ich klasyfikacją na platformie Databricks.

  • Budowanie jeziora danych (Data Lake)
    • Omówienie architektury jeziora danych, zasady organizacji danych w systemie plików, różnice między Data Lake a Data Warehouse.

  • Formaty danych – JSON, Parquet, Delta
    • Krótkie porównanie formatów danych, ich zalety i zastosowania w środowisku Spark.

  • Architektura Medallion
    • Prezentacja trójwarstwowej architektury danych (Bronze, Silver, Gold) stosowanej w nowoczesnych rozwiązaniach DataLakehouse.

  • Warsztat – część zaawansowana
    • Zastosowanie zaawansowanych funkcji Spark i Databricks w praktyce – ćwiczenia z agregacji danych, użycia UDF, pracy z różnymi formatami danych i wykorzystania architektury Medallion.

Terminy gwarantowane

Szkolenia oznaczone jako "termin gwarantowany" odbędą się w zaplanowanym terminie niezależnie od liczby zgłoszonych uczestników. Nie musisz się martwić, że szkolenie zostanie odwołane z powodu zbyt małej liczby zapisanych osób.

Szkolenia online

Szkolenie realizowane jest w formie zdalnej na żywo poprzez platformę ZOOM. Trener prowadzi szkolenie na żywo, a uczestnicy mogą na bieżąco zadawać pytania i wykonywać ćwiczenia. Format online zapewnia pełną interakcję z trenerem, identyczną jak przy szkoleniu stacjonarnym.

Szkolenie na żywo z trenerem — nie kurs video

To nie jest nagrany kurs video. Przez cały czas trwania szkolenia masz bezpośredni kontakt z doświadczonym trenerem-praktykiem. Możesz na bieżąco zadawać pytania, prosić o wyjaśnienie trudnych zagadnień, konsultować własne projekty i uzyskać odpowiedź na dowolne pytanie związane z tematyką szkolenia. To realne wsparcie eksperta, którego nie zapewni żaden kurs nagrany.

Certyfikat ukończenia szkolenia

Każdy uczestnik po ukończeniu szkolenia otrzymuje imienny certyfikat potwierdzający udział i zdobyte kompetencje. Certyfikat wystawiany jest przez JSystems — firmę z certyfikatem ISO 9001 — i jest honorowany przez pracodawców.

Środowisko robocze

Nie jest wymagane instalowanie żadnego oprogramowania. Każdy uczestnik szkolenia otrzymuje dostęp do gotowego środowiska w chmurze, skonfigurowanego na potrzeby szkolenia. Dostęp realizowany jest poprzez przeglądarkę lub zdalny pulpit, w zależności od szkolenia.

Zainteresowany? Zapisz się na szkolenie!

Zapisz się — wybierz termin

Sprawdź pozostałe szkolenia z kategorii:

Python

Opinie uczestników

5.0/5
Przetwarzanie danych w Apache Spark za pomocą PySpark i Spark SQL

Szkolenie bardzo profesjonalne z bardzo dużą ilością praktyki. Prowadzący bardzo dobrze przygotowany, szczerze polecam :)

Adam Górski BEST S.A.
5.0/5
Programowanie w języku Python - podstawy

Polecam

Krzysztof Dzwinel ORLEN Upstream Polska Sp. z o.o.
5.0/5
Programowanie w języku Python - podstawy

Szkolenie z Przemkiem polecam każdemu, kto chce zgłębić wiedzę na temat Pythona, a jednocześnie świetnie się przy tym bawić. Mimo tego, że program szkolenia jest pełny, Przemek zawsze znajdował czas, aby zatrzymać się i wytłumaczyć wszelkie niejasności. Będę polecać znajomym w branży. :)

Patrycja Koruba H-Consulting Wojciech Hołowicz
4.9/5
Python od podstaw, przez analizę danych, do machine learning

Super szkolenie, prowadzący Pan Mateusz spełnił moje oczekiwania, wykazał się wiedzą na każdy temat, potrafił odpowiadać na wszystkie zadawane pytania w trakcie szkolenia oraz pomagał rozwiązać każdy problem - w skrócie - pełen profesjonalizm. Polecam wybranie tego szkolenia!

Mateusz Sowiński URZĄD KOMISJI NADZORU FINANSOWEGO
5.0/5
Programowanie w języku Python - podstawy

Bardzo polecam

Jakub Tomaszewski Towarzystwo Ubezpieczeń i Reasekuracji Warta S.A.
5.0/5
Uczenie maszynowe w Pythonie

Polecam szkolenia z JSystems - profesjonalne podejcie do tematu, dobra organizacja szkolenia

Marta Kiszka Ornsson Solutions Sp. z o.o.
4.9/5
Programowanie w języku Python - poziom średnio zaawansowany

Polecam wszystkim którzy zaczynają przygodę z pythonem jak i dla osób którzy chcą uporządkować swoją wiedze.

Przemysław Romaszewski PZU SA/PZU ŻYCIE SA
5.0/5
Programowanie w języku Python - poziom średnio zaawansowany

Szkolenie doskonale porządkuje posiadaną wiedzę i znacznie rozszerza znajomośc języka Python.

Emil Kobyliński OSOBA PRYWATNA
Pokaż wszystkie opinie Google Opinie w Google

Zaufali nam

...i wiele innych

5,0 - średnia ocena na podstawie 285 opinii

Dlaczego warto nas wybrać?

Terminy gwarantowane na 100%

Jeśli termin jest oznaczony jako gwarantowany, odbędzie się we wskazanym czasie — nawet jeśli część grupy wycofa się z udziału. Ryzyko organizacyjne ponosimy my, nie Ty.

100% format warsztatowy

Każde zagadnienie teoretyczne jest poparte ćwiczeniami praktycznymi o rosnącym poziomie trudności. Uczymy przez działanie, nie przez slajdy.

Trenerzy-praktycy z oceną min. 4.75/5

Każdy trener JSystems ma bogate doświadczenie komercyjne w technologiach których uczy i musi utrzymywać średnią z ankiet powyżej 4.75 na 5. Czerwony pasek to u nas minimum ;)

Gotowe środowiska w chmurze

Do każdego szkolenia wymagającego oprogramowania dostarczamy skonfigurowane, gotowe hosty w chmurze. Uczestnik nie musi nic instalować — łączy się przez zdalny pulpit lub SSH.

Dowiedz się dlaczego warto nas wybrać

A może nielimitowane szkolenia za
1 148 PLN brutto / mies.?
Sprawdź Karnet Open
KARNET OPEN na szkolenia
A może nielimitowane szkolenia za
1 148 PLN brutto / mies.?
Sprawdź Karnet Open
KARNET OPEN na szkolenia

📅 Przypomnij mi jutro

Wyślemy Ci przypomnienie z linkiem jutro rano.

Zanim wyjdziesz

Wyślemy Ci podsumowanie tego szkolenia z terminami i ceną — do przemyślenia w spokoju.

Żadnego spamu — tylko jedno podsumowanie.