Przetwarzanie danych Big Data z Apache Spark

Najbliższe terminy tego szkolenia
Standardy JSystems
- Wszyscy nasi trenerzy muszą być praktykami i osiągać średnią z ankiet minimum 4.75 na 5. Nie ma wśród nas trenerów-teoretyków. Każdy trener JSystems ma bogate doświadczenie komercyjne w zakresie tematów z których prowadzi szkolenia.
- Wszystkie szkolenia mają format warszatowy. Każde zagadnienie teoretyczne jest poparte rzędem warsztatów w ściśle określonym formacie.
- Terminy gwarantowane na 100%. Jeśli jakiś termin jest oznaczony jako gwarantowany, oznacza to że odbędzie się nawet jeśli część grupy wycofa się z udziału. Ryzyko ponosimy my jako organizator.
- Do każdego szkolenia które wymaga jakiegokolwiek oprogramowania dostarczamy skonfigurowane, gotowe hosty w chmurze. Dzięki temu uczestnik nie musi nic instalować na swoim komputerze (i bić się z blokadami korporacyjnymi). Połączenie następuje przez zdalny pulpit lub SSH - w zależności od szkolenia.
Program szkolenia
Dzień 1: Podstawy środowiska Big Data i Spark
-
Wprowadzenie do ekosystemu Big Data
- Czym jest Big Data
-
Charakterystyka wyzwań pracy - 5 V
- Volume - praca w środowisku, gdzie sam rozmiar danych przekracza możliwości pojedynczej maszyny
- Velocity - wymóg zapewnienia wysokiej prędkości procesowania i dostępności nowych danych
- Variety - praca z różnymi typami danych, takimi jak bazy danych, pliki ustrukturyzowane np. parquet, pliki nieustrukturyzowane np. pliki audio
- Veracity - testowanie danych pod kątem ich jakości np. sprawdzanie czy daty w systemie zachowują logikę
- Value - dążenie do zapewnienia wartościowych i zaufanych danych na którym przedsiębiorstwa mogą bazować przy podejmowaniu decyzji
-
Podejścia i obecne trendy
- Przedstawienie przykładowej migracji
-
Spark a Databricks
- Wprowadzenie do ekosystemu Apache Spark
- Przedstawienie typów deploymentów Sparka (w tym Databricks)
- Wprowadzenie do Platformy Databricks
-
Databricks Workspace
- Przedstawienie środowiska pracy
- Nawigacja na platformie
-
Structured API Podstawy
-
PySpark Dataframe
- Funkcje: withColumn, where, zmiana typów, joiny, zapisywanie danych
-
Spark SQL
- Funkcje: selecty, filtry, agregacje, joiny, zarządzanie tabelami
-
PySpark Dataframe
- Wprowadzenie do danych projektowych
Dzień 2: Konfiguracja infrastruktury danych
-
Unity Catalog
- Centralizacja dostępu
- Przeszukiwanie zasobów
-
Dobre praktyki w kodzie
- Strukturyzacja notebooków
-
Wykorzystanie dbutils
- Parametryzacja notebooków
- Przykładowe wykorzystanie outputu notebooków
- Structured API Ciąg Dalszy
-
PySpark Dataframe
- Kolekcje, praca na kolumnach typu array oraz struct
-
Spark SQL
- Praca z dynamiczne kwerendy
-
Budowanie jeziora danych
- Formaty plików Json, Parquet, Delta
-
Przedstawienie Architektury Medallion
- Logiczna organizacja architektury danowej
- Warsztat
Dzień 3: Orkiestracja pracy klastrów
-
Zarządzanie Klastrami
- Typy klastrów
- Konfiguracja ustawień
- Dostępy dla deweloperów
-
Workflowy
- Orkiestracja przepływów danych
- Warsztat
Dzień 4: Rdzeń Sparka
-
Wewnętrzne komponenty Sparka
-
Driver i Executory
- Omówienie pracy poszczególnych komponentów
-
Akcje i Transformacje
- Optymalizacja planu wykonania kodu w Apache Spark
-
Driver i Executory
-
Spark UI
-
Podgląd procesów
- Monitoring zużycia zasobów
-
Debugging
- Szczegółowy podgląd błędów w egzekucji kodu
- Loggi
-
Podgląd procesów
- Warsztat
Opis szkolenia
Szkolenie odbywa się na żywo z udziałem trenera. Nie jest to forma kursu video!
O szkoleniu w skrócie
Szkolenie poświęcone jest Apache Spark - nowoczesnemu narzędziu do przetwarzania danych, wykorzystywanym przez czołowe firmy z Doliny Krzemowej.
Uczestnicy szkolenia zapoznają się z platformą Databricks, nauczą się tworzyć pipeline"y ETL w Spark SQL i PySpark oraz efektywnie przetwarzać różnorodne typy danych.
Program obejmuje najlepsze praktyki programistyczne, które usprawnią codzienną pracę z danymi. To kompleksowe szkolenie dostarczające praktycznej wiedzy i umiejętności kluczowych w pracy z dużymi zbiorami danych.
Cel szkolenia
Praca z systemem Spark oraz platformą Databricks. Opanowanie praktycznych umiejętności niezbędnych do skutecznej realizacji projektów danowych w nowoczesnym środowisku, które kształtuje współczesne standardy w obszarze Big Data.
Dla kogo przeznaczone jest szkolenie?
- Analityków Danych , którzy chcą podnieść swoje umiejętności w zakresie pracy z danymi i rozszerzyć możliwości kariery
- Inżynierów Danych , pragnących uzupełnić wiedzę na temat Databricks. Szkolenie szczególnie przyda się osobom znającym już podobne rozwiązania, takie jak Snowflake czy Microsoft Fabric
- Programistów , którzy postanowili zostać Inżynierami Danych
- Data Science , którzy chcą opanować Sparka i wykorzystywać go w projektach
Gdzie użyjesz nabytej wiedzy?
- W codziennej pracy z Platformą Databricks oraz Sparkiem
- W projektach wymagających elastycznego podejścia pod kątem wykorzystywanych zasobów
- Przy budowaniu systemów analitycznych dla firmy
Czego się nauczysz?
- Budowy i optymalizacji pipeline"ów danych (ELT/ETL) - automatyzacja procesów przetwarzania danych od surowych plików po gotowe zestawy do analizy.
- Analizy dużych zbiorów danych - efektywnego przetwarzanie i analizy milionów rekordów przy użyciu Sparka, zarówno w SQL, jak i Pythonie.
- Tworzenia systemów raportowania i dashboardów - integracji przetworzonych danych z narzędziami analitycznymi, takimi jak Power BI, Tableau.
- Integracji danych z różnych źródeł - łączenia danych z baz relacyjnych, plików CSV, Parquet, systemów chmurowych (Azure, AWS, GCP).
- Przygotowania danych do analiz i uczenia maszynowego - oczyszczanie, transformacja i formatowanie danych w sposób umożliwiający ich wykorzystanie w modelach machine learning.
- Optymalizacji kosztów i wydajności w chmurze - dzięki umiejętności efektywnego zarządzania zasobami Spark na platformie Databricks.
Wymagania co do uczestnika
- Podstawowa znajomość SQL
- Podstawowa znajomość Pythona
- Podstawowa znajomość Git
- Założenie konta na GitHub
- Podstawowa znajomość technologii chmurowych nie jest obowiązkowa, ale przydatna
Terminy i definicje
System Rozproszony
System rozproszony to zbiór niezależnych komputerów lub urządzeń, które współpracują ze sobą poprzez sieć komputerową, tworząc logiczną całość. Każdy węzeł w systemie może działać niezależnie, ale wszystkie razem realizują wspólne cele.
Spark
Apache Spark to potężne, masowo skalowalne środowisko do przetwarzania danych, które umożliwia efektywne przetwarzanie dużych zbiorów danych w pamięci oraz na dysku. Jest podstawowym komponentem platformy Databricks.
Databricks
Databricks to platforma do zarządzania danymi, która łączy zalety systemów data lake i data warehouse. Wykorzystuje Apache Spark jako silnik przetwarzania i zapewnia scentralizowane środowisko do analizy danych, uczenia maszynowego i biznesowych zastosowań analitycznych.
Data Lake (jezioro danych)
Data Lake to centralne repozytorium danych przechowujące duże ilości danych w ich pierwotnej, surowej formie. W przeciwieństwie do tradycyjnych hurtowni danych, które wymagają uprzedniej strukturyzacji danych, data lake może przechowywać dane w dowolnym formacie, w tym: strukturyzowane, półstrukturyzowane i niestrukturyzowane.
Prowadzący szkolenie:
Dawid Grześków
Specjalista IT z pięcioletnim doświadczeniem w środowisku danowym. W swojej karierze przeszedłem przez budowanie narzędzi wewnętrznych, analitykę oraz tworzenie systemów raportowych. Aktualnie pracuję jako Inżynier Danych, gdzie Spark i Databricks stanowią moje główne narzędzia pracy.
Na co dzień pracuję z technologiami chmurowymi na platformie Azure. Programuję w Pythonie, SQL oraz Sparku. Tworzę modele, hurtownie oraz jeziora danych. Integruję rozwiązania DevOps z procesami biznesowymi. Tworzę zaplecza całych platform i rozwijam procesy integracyjne.
Projekty w których brałem udział to m.in.:
- Integracja przepływów danych wspierających mi.n. SAPa, procesy korporacyjne
- Budowanie jezior danych w celu scentralizowania zasobów przedsiębiorstwa
- Budowanie modeli analitycznych, które dotychczas były niemożliwe do zrealizowania bez Sparka.
- Wdrażanie rozwiązań DevOps/DataOps
Posiadam doświadczenie pracy w międzynarodowych firmach, gdzie wspierałem zespoły w przyswajaniu wiedzy procesowej oraz narzędziowej. Jako praktyk, wychodzę z założenia, że tylko praktyczne szkolenia dają satysfakcjonujące efekty.
Z takim założeniem stworzyłem również poniższy kurs.
Stanowisko robocze

Do tego szkolenia każdy uczestnik otrzymuje dostęp do indywidualnej wirtualnej maszyny w chmurze. Ma ona zainstalowane i skonfigurowane wszystko co potrzebne do realizacji szkolenia. Maszyna będzie dostępna przez cały okres szkolenia.
Gdy na jakiś termin zgłosi się minimalna liczba osób, termin oznaczamy jako gwarantowany.
Jeśli jakiś termin oznaczony jest jako gwarantowany to oznacza to, że na 100% się odbędzie we wskazanym czasie i miejscu.
Nawet gdyby część takiej grupy zrezygnowała lub przeniosła się na inny termin, raz ustalony termin gwarantowany takim pozostaje.
Ewentualne ryzyko ponosimy my jako organizator.
Przejdź do terminów tego szkolenia

Sprawdź, co mówią o nas ci, którzy nam zaufali
Trenerzy kategorii Big Data


Jestem programistą z 12-sto letnim doświadczeniem, związanym głównie z ekosystemem Javy, ale również Pythonem, bazami danych, zagadnienami DevOps (Docker, Kubernetes, CI/CD pipelines) i frameworkami JavaScriptowymi. Moja ścieżka kariery prowadziła mnie przez różne branże – od telekomunikacyjnej, przez medyczną, bankową, do giełdy energii – dzięki czemu mogłem poznać wiele technologii i ich zastosowań w poszczególnych obszarach. Od kilku lat zaangażowany jestem w prowadzenie szkoleń i warsztatów, bo wierzę, że najlepszym sposobem na naukę jest przekazywanie wiedzy innym.


Specjalista IT z pięcioletnim doświadczeniem w środowisku danowym. W swojej karierze przeszedłem przez budowanie narzędzi wewnętrznych, analitykę oraz tworzenie systemów raportowych. Aktualnie pracuje jako Inżynier Danych, gdzie Spark i Databricks stanowią moje główne narzędzia pracy.
Na co dzień pracuje z technologiami chmurowymi na platformie Azure. Programuje w Pythonie, SQL oraz Sparku. Tworzę modele, hurtownie oraz jeziora danych. Integruję rozwiązania DevOps z procesami biznesowymi. Tworzę zaplecza całych platform i rozwijam procesy integracyjne.
Projekty w których brałem udział to m.in.:
- Integracja przepływów danych wspierających mi.n. SAPa, procesy korporacyjne
- Budowanie jezior danych w celu scentralizowania zasobów przedsiębiorstwa
- Budowanie modeli analitycznych, które dotychczas były niemożliwe do zrealizowania bez Sparka.
- Wdrażanie rozwiązań DevOps/DataOps
Posiadam doświadczenie pracy w międzynarodowych firmach, gdzie wspierałem zespoły w przyswajaniu wiedzy procesowej oraz narzędziowej. Jako praktyk, wychodzę z założenia, że tylko praktyczne szkolenia dają satysfakcjonujące efekty.