Szkolenia Big Data

Chcąc wyjść naprzeciw wyzwaniu jakie stawia dzisiejszemu rynkowi IT coraz większa ilość danych które gromadzimy i konieczność ich efektywnego wykorzystania, opracowaliśmy dla Państwa szereg szkoleń mając na celu pomoc w budowaniu kompetencji niezbędnych do pracy w projektach Big Data.
Terminy gwarantowane
1 termin gwarantowany?
Standardy JSystems
- Wszyscy nasi trenerzy muszą być praktykami i osiągać średnią z ankiet minimum 4.75 na 5. Nie ma wśród nas trenerów-teoretyków. Każdy trener JSystems ma bogate doświadczenie komercyjne w zakresie tematów z których prowadzi szkolenia.
- Wszystkie szkolenia mają format warszatowy. Każde zagadnienie teoretyczne jest poparte rzędem warsztatów w ściśle określonym formacie.
- Terminy gwarantowane na 100%. Jeśli jakiś termin jest oznaczony jako gwarantowany, oznacza to że odbędzie się nawet jeśli część grupy wycofa się z udziału. Ryzyko ponosimy my jako organizator.
- Do każdego szkolenia które wymaga jakiegokolwiek oprogramowania dostarczamy skonfigurowane, gotowe hosty w chmurze. Dzięki temu uczestnik nie musi nic instalować na swoim komputerze (i bić się z blokadami korporacyjnymi). Połączenie następuje przez zdalny pulpit lub SSH - w zależności od szkolenia.
Apache Spark

O szkoleniu
To intensywne, praktyczne szkolenie wprowadzi Cię w realne zastosowania Apache Spark – jednego z najpotężniejszych silników obliczeniowych w świecie danych. Od podstaw aż po optymalizację – nauczysz się, jak efektywnie tworzyć, analizować i orkiestrwać potoki danych z użyciem PySpark i Spark SQL, pracując na rzeczywistej platformie Databricks. Wejdź na poziom Big Data i naucz się przetwarzać dane z prędkością błyskawicy.
📅 Dzień 1: Wprowadzenie do Big Data i Spark z użyciem PySpark
- Poznasz kluczowe wyzwania świata Big Data (5V) i zobaczysz, jak Spark radzi sobie z ogromnymi, różnorodnymi i zmiennymi danymi.
- Nauczysz się podstaw pracy z Apache Spark i jego strukturą rozproszoną.
- Otrzymasz solidne podstawy pracy z PySpark DataFrame API: withColumn, filter, select, join, cast, write.
- Zaczniesz pisać zapytania w Spark SQL, zarządzać tabelami, agregować dane i optymalizować transformacje.
- Poznasz środowisko Databricks – idealne do pracy z klastrami Spark w chmurze.
🔧 Warsztat: Praca z rzeczywistym zbiorem danych – tworzenie i manipulacja DataFrame'ami w PySparku, pierwsze transformacje i zapis wyników.
📅 Dzień 2: Projektowanie kodu sparkowego i budowa architektury danych
- Nauczysz się dobrych praktyk pracy z kodem PySpark – modularne notebooki, dbutils, parametryzacja, output notebooków.
- Rozszerzysz znajomość PySparka o pracę z strukturami zagnieżdżonymi (array, struct), kolekcjami i dynamicznymi kwerendami.
- Poznasz nowoczesne formaty danych: Parquet, JSON, Delta Lake – i nauczysz się, jak je czytać, zapisywać i konwertować w PySparku.
- Poznasz architekturę Medallion – podejście do logicznej organizacji danych w Spark Lakehouse.
🔧 Warsztat: Przekształcanie nieustrukturyzowanych danych w uporządkowaną formę – praktyka z DataFrame'ami i SQL Sparka.
📅 Dzień 3: Orkiestracja potoków danych Spark
- Nauczysz się zarządzać klastrami Spark – konfiguracje, typy instancji, dostępność i przydzielanie zasobów.
- Poznasz Databricks Workflows – sposób na automatyzację procesów Spark i zarządzanie cyklem życia danych.
- Nauczysz się projektować i uruchamiać złożone pipeline'y Sparkowe – od harmonogramowania po monitorowanie.
🔧 Warsztat: Automatyzacja i orkiestracja potoku danych z użyciem workflowów – od surowych danych po gotowe tabele Delta.
📅 Dzień 4: Dogłębna analiza działania Apache Spark
- Zrozumiesz wewnętrzne mechanizmy działania Sparka: Driver, Executor, DAG, Stage, Task.
- Nauczysz się świadomie używać transformacji i akcji PySparka – z uwzględnieniem kosztów obliczeniowych.
- Będziesz analizować i optymalizować fizyczne plany wykonania (explain(), Spark UI) oraz debugować błędy.
- Dowiesz się, jak monitorować klaster, wykrywać wąskie gardła i poprawiać wydajność kodu PySpark.
🔧 Warsztat: Diagnoza i optymalizacja rzeczywistych zapytań w PySparku – praktyka z logami, Spark UI i performance tuningiem.
💼 Dla kogo jest to szkolenie?
- Dla analityków, data engineerów i programistów chcących efektywnie pracować z PySpark i Spark SQL,
- Dla zespołów BI, które szukają skalowalnych rozwiązań do analizy danych,
- Dla każdego, kto chce opanować Apache Spark na praktycznym, produkcyjnym poziomie.
🚀 Co zyskasz?
- Zrozumiesz, jak działa Spark „pod maską” i jak pisać efektywny kod w PySparku,
- Zbudujesz potok danych od A do Z: od wczytania surowych danych, przez transformacje, po zapis w Delta Lake,
- Nauczysz się optymalizować, debugować i orkiestrwać zadania Sparkowe jak zawodowiec,
- Otrzymasz dostęp do notebooków, które możesz od razu wdrożyć u siebie.
🔥 Zamień miliony wierszy danych w milisekundy decyzji.
Zostań ekspertem od PySparka i wejdź na poziom Big Data z Apache Spark i Databricks!
Wymagania co do uczestnika
- Podstawowa znajomość SQL
- Podstawowa znajomość Pythona
- Podstawowa znajomość Git
- Założenie konta na GitHub
- Podstawowa znajomość technologii chmurowych nie jest obowiązkowa, ale przydatna
Terminy i definicje
System Rozproszony
System rozproszony to zbiór niezależnych komputerów lub urządzeń, które współpracują ze sobą poprzez sieć komputerową, tworząc logiczną całość. Każdy węzeł w systemie może działać niezależnie, ale wszystkie razem realizują wspólne cele.
Spark
Apache Spark to potężne, masowo skalowalne środowisko do przetwarzania danych, które umożliwia efektywne przetwarzanie dużych zbiorów danych w pamięci oraz na dysku. Jest podstawowym komponentem platformy Databricks.
Databricks
Databricks to platforma do zarządzania danymi, która łączy zalety systemów data lake i data warehouse. Wykorzystuje Apache Spark jako silnik przetwarzania i zapewnia scentralizowane środowisko do analizy danych, uczenia maszynowego i biznesowych zastosowań analitycznych.
Data Lake (jezioro danych)
Data Lake to centralne repozytorium danych przechowujące duże ilości danych w ich pierwotnej, surowej formie. W przeciwieństwie do tradycyjnych hurtowni danych, które wymagają uprzedniej strukturyzacji danych, data lake może przechowywać dane w dowolnym formacie, w tym: strukturyzowane, półstrukturyzowane i niestrukturyzowane.
Prowadzący szkolenie:
Dawid Grześków
Specjalista IT z pięcioletnim doświadczeniem w środowisku danowym. W swojej karierze przeszedłem przez budowanie narzędzi wewnętrznych, analitykę oraz tworzenie systemów raportowych. Aktualnie pracuję jako Inżynier Danych, gdzie Spark i Databricks stanowią moje główne narzędzia pracy.
Na co dzień pracuję z technologiami chmurowymi na platformie Azure. Programuję w Pythonie, SQL oraz Sparku. Tworzę modele, hurtownie oraz jeziora danych. Integruję rozwiązania DevOps z procesami biznesowymi. Tworzę zaplecza całych platform i rozwijam procesy integracyjne.
Projekty w których brałem udział to m.in.:
- Integracja przepływów danych wspierających mi.n. SAPa, procesy korporacyjne
- Budowanie jezior danych w celu scentralizowania zasobów przedsiębiorstwa
- Budowanie modeli analitycznych, które dotychczas były niemożliwe do zrealizowania bez Sparka.
- Wdrażanie rozwiązań DevOps/DataOps
Posiadam doświadczenie pracy w międzynarodowych firmach, gdzie wspierałem zespoły w przyswajaniu wiedzy procesowej oraz narzędziowej. Jako praktyk, wychodzę z założenia, że tylko praktyczne szkolenia dają satysfakcjonujące efekty.
Z takim założeniem stworzyłem również poniższy kurs.


O szkoleniu w skrócie
Szkolenie poświęcone jest Apache Spark - nowoczesnemu narzędziu do przetwarzania danych, wykorzystywanym przez czołowe firmy z Doliny Krzemowej. Szkolenie odbędzie się w oparciu o platformę Databricks, a jego głównym celem jest optymalizacja czasu wykonywania kodu, przy zachowaniu optymalnego kosztu korzystania z narzędzia. To dwudniowe szkolenie skupia się na przedstawieniu szeregu technik pozwalających zapewnić optymalne procesowania danych, przy jednoczesnym zachowaniu wysokiej czystości kodu.
Cel szkolenia
Praca z systemem Spark oraz platformą Databricks. Opanowanie praktycznych umiejętności niezbędnych do skutecznej realizacji projektów danowych w nowoczesnym środowisku, które kształtuje współczesne standardy w obszarze Big Data. Szkolenie uzupełnia wiedzę z zawartą w "Szkolenie Podstawowe Spark" kładąc nacisk na metody optymalizacji wydajności w procesowaniu danych.
Dla kogo przeznaczone jest szkolenie?
- Inżynierów Danych , którzy chcą pogłębić swoją wiedzę o Apache Spark, ze szczególnym naciskiem na optymalizację kodu
- Specjalistów Data Science , pragnących lepiej zrozumieć Apache Spark i nauczyć się samodzielnie optymalizować kod w celu zwiększenia wydajności swoich projektów
Gdzie użyjesz nabytej wiedzy?
- W codziennej pracy z Platformą Databricks oraz Sparkiem
- W projektach wymagających elastycznego podejścia pod kątem wykorzystywanych zasobów
- Przy budowaniu systemów analitycznych dla firmy
Czego się nauczysz?
- Optymalizacji kosztów i wydajności w chmurze - dzięki umiejętności efektywnego zarządzania zasobami Spark na platformie Databricks
- Optymalizacji egzekucji kodu - co pozwoli widocznie skrócić potrzebny do wykonania procesowania danych
- Efektywnego debugowania kodu - co pozwoli na ograniczenie błędów oraz ułatwi wprowadzenie nowej funkcjonalności
- Odnajdowania "wąskich gardeł" w procesie - na przykładach pokażę Ci jak odnajdywać operacje, które ograniczają zdolność i przepustowość całego programu
Wymagania co do uczestnika
- Podstawowa znajomość Sparka/Databricks; idealnie - uczestnictwo w poprzednim szkoleniu "Szkolenie Podstawowe Spark"
- Znajomość SQL
- Podstawowa znajomość Pythona
- Podstawowa znajomość Git
- Założenie konta na GitHub
- Podstawowa znajomość technologii chmurowych nie jest obowiązkowa, ale przydatna
Terminy i definicje
System Rozproszony
System rozproszony to zbiór niezależnych komputerów lub urządzeń, które współpracują ze sobą poprzez sieć komputerową, tworząc logiczną całość. Każdy węzeł w systemie może działać niezależnie, ale wszystkie razem realizują wspólne cele.
Spark
Apache Spark to potężne, masowo skalowalne środowisko do przetwarzania danych, które umożliwia efektywne przetwarzanie dużych zbiorów danych w pamięci oraz na dysku. Jest podstawowym komponentem platformy Databricks.
Databricks
Databricks to platforma do zarządzania danymi, która łączy zalety systemów data lake i data warehouse. Wykorzystuje Apache Spark jako silnik przetwarzania i zapewnia scentralizowane środowisko do analizy danych, uczenia maszynowego i biznesowych zastosowań analitycznych.
Data Lake (jezioro danych)
Data Lake to centralne repozytorium danych przechowujące duże ilości danych w ich pierwotnej, surowej formie. W przeciwieństwie do tradycyjnych hurtowni danych, które wymagają uprzedniej strukturyzacji danych, data lake może przechowywać dane w dowolnym formacie, w tym: strukturyzowane, półstrukturyzowane i niestrukturyzowane.
DAG (Directed Acyclic Graph)
W Spark to podstawowa koncepcja reprezentująca plan wykonania zadania. Jest to graf operacji które, są wykonywane w określonej kolejności, jednocześnie nie zawiera cykli ani pętli w planie wykonania.W Apache Spark DAG składa się z zestawu Jobów, Stagów oraz Tasków.
Prowadzący szkolenie:
Dawid Grześków
Specjalista IT z pięcioletnim doświadczeniem w środowisku danowym. W swojej karierze przeszedłem przez budowanie narzędzi wewnętrznych, analitykę oraz tworzenie systemów raportowych. Aktualnie pracuje jako Inżynier Danych, gdzie Spark i Databricks stanowią moje główne narzędzia pracy.
Na co dzień pracuje z technologiami chmurowymi na platformie Azure. Programuje w Pythonie, SQL oraz Sparku. Tworzę modele, hurtownie oraz jeziora danych. Integruję rozwiązania DevOps z procesami biznesowymi. Tworzę zaplecza całych platform i rozwijam procesy integracyjne.
Projekty w których brałem udział to m.in.:
- Integracja przepływów danych wspierających mi.n. SAPa, procesy korporacyjne
- Budowanie jezior danych w celu scentralizowania zasobów przedsiębiorstwa
- Budowanie modeli analitycznych, które dotychczas były niemożliwe do zrealizowania bez Sparka.
- Wdrażanie rozwiązań DevOps/DataOps
Posiadam doświadczenie pracy w międzynarodowych firmach, gdzie wspierałem zespoły w przyswajaniu wiedzy procesowej oraz narzędziowej. Jako praktyk, wychodzę z założenia, że tylko praktyczne szkolenia dają satysfakcjonujące efekty.
Z takim założeniem stworzyłem również poniższy kurs.
Platforma Apache Hadoop


O szkoleniu w skrócie
Techniczne 5cio dniowe wprowadzenie do zagadnień Big Data. Szkolenie ma na celu wprowadzenie osób nie mających styczności z Big Data do tej tematyki. Zawiera przegląd najpopularniejszych narzędzi wykorzystywanych w Big Data z uwzględnieniem ich praktycznych zastosowań.
Każdy wykład poparty jest ćwiczeniami praktycznymi. Szkolenie ze względu na swój praktyczny charakter odbywa się w małych grupach i jest prowadzone przez praktyków z wieloletnim doświadczeniem.Podczas szkolenia zostanie pokazane realne wykorzystanie prezentowanych technologii.
Dla kogo?
Dla bazodanowców, administratorów, programistów. Uczestnik powinien znać podstawy baz danych. Szkolenie przeznaczone jest dla osób mających doświadczenie w IT. Ze względu na warsztatową część wymagana jest znajomość podstaw SQL.Apache Kafka
Apache Kafka jest rozproszoną platformą służącą do strumieniowej wymiany danych pomiędzy różnymi systemami. Z Kafki korzystają takie firmy jak LinkedIn, Netflix, Uber, PayPal, Spotify, Airbnb oraz wiele innych.
Jej głównymi cechami są duża przepustowość, duża niezawodność oraz małe opóźnienia.
W ramach szkolenia stworzona zostanie aplikacja łącząca kilka źródeł danych, przetwarzająca je na różne sposoby i udostępniająca wyniki użytkownikowi. Aplikacja zostanie stworzona stopniowo, na podstawie kilkudziesięciu warsztatów o rosnącym stopniu zaawansowania. Podczas warsztatów przećwiczone zostaną różne scenariusze i techniki wysyłki, odbioru i przetwarzania danych z użyciem Kafki (z wykorzystaniem konsoli, Javy SE, SpringBoot), co w efekcie pozwoli na stworzenie ww. aplikacji.
Wymagania:
podstawowa znajomość Java, Git, Docker oraz systemu operacyjnego Linux
Prowadzący szkolenie:
Michał Schielmann
Jestem programistą z 12-sto letnim doświadczeniem, związanym głównie z ekosystemem
Javy, ale również Pythonem, bazami danych, zagadnienami DevOps (Docker, Kubernetes,
CI/CD pipelines) i frameworkami JavaScriptowymi.
Moja ścieżka kariery prowadziła mnie przez różne branże – od telekomunikacyjnej, przez
medyczną, bankową, do giełdy energii – dzięki czemu mogłem poznać wiele technologii i ich
zastosowań w poszczególnych obszarach.
Od kilku lat zaangażowany jestem w prowadzenie szkoleń i warsztatów, bo wierzę, że
najlepszym sposobem na naukę jest przekazywanie wiedzy innym.
Snowflake
Na szkoleniu uczestnicy poznają Snowflake od podstaw. Poprzez zrozumienie architektury i sposobu działania uczestnicy będą potrafili podjąć świadomą decyzję o implementacji rozwiązania w swojej instytucji. Szkolenie zapewnia nie tylko solidne i holistyczne zrozumienie Snowflake, ale również warsztaty, które pozwolą poznać potencjał tego narzędzia oraz nauczą wykorzystywać Snowflake w środowisku produkcyjnym.
Po szkoleniu kursant będzie przygotowany do wdrożenia i świadomej pracy ze Snowflake wykorzystując atuty tej platformy.
Na szkoleniu celowo nie będziemy przechodzić przed podstawy SQL, by skoncentrować się na samej platformie Snowflake, także znajomość tego języka jest konieczną umiejętnością by w pełni wykorzystać potencjał szkolenia.
Prowadzący szkolenie:
Przemysław Starosta
Absolwent Uniwersytetu im. Adama Mickiewicza, Politechniki Poznańskiej i Wyższej Szkoły Bankowej. Właściciel firmy informatycznej, kierownik projektów, programista baz danych i wykładowca na Collegium da Vinci w Poznaniu. Specjalista z zakresu baz danych Oracle, SQL Server i PostgreSQL oraz procesów ETL. Programista C#. Pasjonat edukacji i analizy danych oraz możliwości biznesowych, które one odkrywają. Trener z ponad 10-letnim doświadczeniem. Na szkoleniach praktykuje zasadę: learning by doing – uczenie przez robienie. Prelegent SQL Day oraz Warszawskich Dni Informatyki. Prywatnie fan FC Barcelony oraz mieszanych sztuk walki.
Trenerzy kategorii Big Data


Jestem programistą z 12-sto letnim doświadczeniem, związanym głównie z ekosystemem Javy, ale również Pythonem, bazami danych, zagadnienami DevOps (Docker, Kubernetes, CI/CD pipelines) i frameworkami JavaScriptowymi. Moja ścieżka kariery prowadziła mnie przez różne branże – od telekomunikacyjnej, przez medyczną, bankową, do giełdy energii – dzięki czemu mogłem poznać wiele technologii i ich zastosowań w poszczególnych obszarach. Od kilku lat zaangażowany jestem w prowadzenie szkoleń i warsztatów, bo wierzę, że najlepszym sposobem na naukę jest przekazywanie wiedzy innym.


Specjalista IT z pięcioletnim doświadczeniem w środowisku danowym. W swojej karierze przeszedłem przez budowanie narzędzi wewnętrznych, analitykę oraz tworzenie systemów raportowych. Aktualnie pracuje jako Inżynier Danych, gdzie Spark i Databricks stanowią moje główne narzędzia pracy.
Na co dzień pracuje z technologiami chmurowymi na platformie Azure. Programuje w Pythonie, SQL oraz Sparku. Tworzę modele, hurtownie oraz jeziora danych. Integruję rozwiązania DevOps z procesami biznesowymi. Tworzę zaplecza całych platform i rozwijam procesy integracyjne.
Projekty w których brałem udział to m.in.:
- Integracja przepływów danych wspierających mi.n. SAPa, procesy korporacyjne
- Budowanie jezior danych w celu scentralizowania zasobów przedsiębiorstwa
- Budowanie modeli analitycznych, które dotychczas były niemożliwe do zrealizowania bez Sparka.
- Wdrażanie rozwiązań DevOps/DataOps
Posiadam doświadczenie pracy w międzynarodowych firmach, gdzie wspierałem zespoły w przyswajaniu wiedzy procesowej oraz narzędziowej. Jako praktyk, wychodzę z założenia, że tylko praktyczne szkolenia dają satysfakcjonujące efekty.