Przetwarzanie danych w Apache Spark za pomocą PySpark i Spark SQL
by:
Najbliższe terminy tego szkolenia
Standardy JSystems
- Wszyscy nasi trenerzy muszą być praktykami i osiągać średnią z ankiet minimum 4.75 na 5. Nie ma wśród nas trenerów-teoretyków. Każdy trener JSystems ma bogate doświadczenie komercyjne w zakresie tematów z których prowadzi szkolenia.
- Wszystkie szkolenia mają format warszatowy. Każde zagadnienie teoretyczne jest poparte rzędem warsztatów w ściśle określonym formacie.
- Terminy gwarantowane na 100%. Jeśli jakiś termin jest oznaczony jako gwarantowany, oznacza to że odbędzie się nawet jeśli część grupy wycofa się z udziału. Ryzyko ponosimy my jako organizator.
- Do każdego szkolenia które wymaga jakiegokolwiek oprogramowania dostarczamy skonfigurowane, gotowe hosty w chmurze. Dzięki temu uczestnik nie musi nic instalować na swoim komputerze (i bić się z blokadami korporacyjnymi). Połączenie następuje przez zdalny pulpit lub SSH - w zależności od szkolenia.
Program szkolenia
- Wprowadzenie do ekosystemu Big Data
- Omówienie koncepcji Big Data – co oznacza, skąd się bierze, jakie są główne źródła danych i jakie wyzwania wiążą się z ich przetwarzaniem.
- Rozproszone przetwarzanie danych – omówienie zalet i architektury systemów rozproszonych, różnice między przetwarzaniem wsadowym a strumieniowym.
- Spark i Databricks
- Wprowadzenie do ekosystemu Apache Spark
- Omówienie czym jest Spark, jego komponentów (RDD, DataFrame, Spark SQL itd.), oraz jak Databricks upraszcza korzystanie z Apache Spark dzięki środowisku chmurowemu.
- Wprowadzenie do Platformy Databricks
- Pokaz środowiska pracy w Databricks: jak nawigować po interfejsie, zarządzać notatnikami (notebooks), jak wykonywać zapytania, jak przeglądać dane.
- Wprowadzenie do ekosystemu Apache Spark
- Omówienie Transformacji oraz Akcji w kontekście pracy z Sparkiem.
- Databricks Workspace
- Przedstawienie środowiska pracy.
- Nawigacja na platformie.
- Structured API – podstawy
- Schemat danych
- Wczytywanie danych w PySpark
- PySpark DataFrame oraz Spark SQL
- Wyświetlanie danych
- Selekcja danych
- Operacje na kolumnach
- Filtrowanie wierszy
- Warsztat – podstawy
- Ćwiczenia pozwalające na zastosowanie zdobytej wiedzy w praktyce – m.in. wczytywanie danych, tworzenie prostych transformacji i zapytań SQL w Databricks.
- Structured API – część zaawansowana
- Zapisywanie danych do różnych formatów (Parquet, Delta)
- Grupowanie i agregacja danych
- Łączenie danych z różnych źródeł (joiny)
- Tworzenie i użycie własnych funkcji (User Defined Functions – UDF)
- Partycjonowanie danych
- Zasady i znaczenie partycjonowania w kontekście wydajności – jak poprawnie zarządzać rozkładem danych w Spark.
- Unity Catalog
- Wprowadzenie do Unity Catalog jako centralnego repozytorium zarządzania dostępem, zasobami danych i ich klasyfikacją na platformie Databricks.
- Budowanie jeziora danych (Data Lake)
- Omówienie architektury jeziora danych, zasady organizacji danych w systemie plików, różnice między Data Lake a Data Warehouse.
- Formaty danych – JSON, Parquet, Delta
- Krótkie porównanie formatów danych, ich zalety i zastosowania w środowisku Spark.
- Architektura Medallion
- Prezentacja trójwarstwowej architektury danych (Bronze, Silver, Gold) stosowanej w nowoczesnych rozwiązaniach DataLakehouse.
- Warsztat – część zaawansowana
- Zastosowanie zaawansowanych funkcji Spark i Databricks w praktyce – ćwiczenia z agregacji danych, użycia UDF, pracy z różnymi formatami danych i wykorzystania architektury Medallion.
Opis szkolenia
Szkolenie odbywa się na żywo z udziałem trenera. Nie jest to forma kursu video!
O szkoleniu w skrócie
Szkolenie poświęcone jest Apache Spark – nowoczesnemu narzędziu do przetwarzania danych, wykorzystywanym przez czołowe firmy z Doliny Krzemowej.
To ekspresowe szkolenie zostało przygotowane z myślą o przystępnym oraz wartościowym wprowadzeniu uczestników do pracy w dynamicznym środowisku Big Data z platformą Databricks, Spark SQL i PySparkiem.
Cel szkolenia
Praca z systemem Spark oraz platformą Databricks. Opanowanie praktycznych umiejętności niezbędnych do skutecznej realizacji projektów danowych w nowoczesnym środowisku, które kształtuje współczesne standardy w obszarze Big Data.
Dla kogo przeznaczone jest szkolenie?
- Analityków Danych, którzy chcą podnieść swoje umiejętności w zakresie pracy z danymi i rozszerzyć możliwości kariery
- Inżynierów Danych, pragnących uzupełnić wiedzę na temat Databricks. Szkolenie szczególnie przyda się osobom znającym już podobne rozwiązania, takie jak Snowflake czy Microsoft Fabric
- Programistów, którzy postanowili zostać Inżynierami Danych
- Data Science, którzy chcą opanować Sparka i wykorzystywać go w projektach
Gdzie użyjesz nabytej wiedzy?
- W codziennej pracy z Platformą Databricks oraz Sparkiem
- W projektach wymagających elastycznego podejścia pod kątem wykorzystywanych zasobów
- Przy budowaniu systemów analitycznych dla firmy
Czego się nauczysz?
- Czym jest Big Data – zrozumiesz jak wygląda nowoczesne przetwarzanie danych rozproszonych.
- Analizy dużych zbiorów danych – efektywnego przetwarzania i analizy milionów rekordów przy użyciu Sparka, zarówno w SQL, jak i Pythonie.
- Integracji danych z różnych źródeł – łączenia danych z baz relacyjnych, plików CSV, Parquet, systemów chmurowych (Azure, AWS, GCP).
- Przygotowania danych do analiz i uczenia maszynowego – oczyszczanie, transformacja i formatowanie danych w sposób umożliwiający ich wykorzystanie w modelach machine learning.
Wymagania co do uczestnika
- Podstawowa znajomość SQL
- Podstawowa znajomość Pythona
- Podstawowa znajomość Git
- Założenie konta na GitHub
- Podstawowa znajomość technologii chmurowych nie jest obowiązkowa, ale przydatna
Terminy i definicje
System Rozproszony
System rozproszony to zbiór niezależnych komputerów lub urządzeń, które współpracują ze sobą poprzez sieć komputerową, tworząc logiczną całość. Każdy węzeł w systemie może działać niezależnie, ale wszystkie razem realizują wspólne cele.
Spark
Apache Spark to potężne, masowo skalowalne środowisko do przetwarzania danych, które umożliwia efektywne przetwarzanie dużych zbiorów danych w pamięci oraz na dysku. Jest podstawowym komponentem platformy Databricks.
Databricks
Databricks to platforma do zarządzania danymi, która łączy zalety systemów data lake i data warehouse. Wykorzystuje Apache Spark jako silnik przetwarzania i zapewnia scentralizowane środowisko do analizy danych, uczenia maszynowego i biznesowych zastosowań analitycznych.
Data Lake (jezioro danych)
Data Lake to centralne repozytorium danych przechowujące duże ilości danych w ich pierwotnej, surowej formie. W przeciwieństwie do tradycyjnych hurtowni danych, które wymagają uprzedniej strukturyzacji danych, data lake może przechowywać dane w dowolnym formacie, w tym: strukturyzowane, półstrukturyzowane i niestrukturyzowane.
Prowadzący szkolenie:
Dawid Grześków
Specjalista IT z pięcioletnim doświadczeniem w środowisku danowym. W swojej karierze przeszedłem przez budowanie narzędzi wewnętrznych, analitykę oraz tworzenie systemów raportowych. Aktualnie pracuję jako Inżynier Danych, gdzie Spark i Databricks stanowią moje główne narzędzia pracy.
Na co dzień pracuję z technologiami chmurowymi na platformie Azure. Programuję w Pythonie, SQL oraz Sparku. Tworzę modele, hurtownie oraz jeziora danych. Integruję rozwiązania DevOps z procesami biznesowymi. Tworzę zaplecza całych platform i rozwijam procesy integracyjne.
Projekty w których brałem udział to m.in.:
- Integracja przepływów danych wspierających mi.n. SAPa, procesy korporacyjne
- Budowanie jezior danych w celu scentralizowania zasobów przedsiębiorstwa
- Budowanie modeli analitycznych, które dotychczas były niemożliwe do zrealizowania bez Sparka.
- Wdrażanie rozwiązań DevOps/DataOps
Posiadam doświadczenie pracy w międzynarodowych firmach, gdzie wspierałem zespoły w przyswajaniu wiedzy procesowej oraz narzędziowej. Jako praktyk, wychodzę z założenia, że tylko praktyczne szkolenia dają satysfakcjonujące efekty.
Z takim założeniem stworzyłem również poniższy kurs.
Środowisko robocze
Nie jest wymagane instalowanie żadnego oprogramowania przez Uczestnika. Dostęp do gotowego środowiska na potrzeby tego szkolenia jest zapewniany każdemu Uczestnikowi przez organizatora.
Gdy na jakiś termin zgłosi się minimalna liczba osób, termin oznaczamy jako gwarantowany.
Jeśli jakiś termin oznaczony jest jako gwarantowany to oznacza to, że na 100% się odbędzie we wskazanym czasie i miejscu.
Nawet gdyby część takiej grupy zrezygnowała lub przeniosła się na inny termin, raz ustalony termin gwarantowany takim pozostaje.
Ewentualne ryzyko ponosimy my jako organizator.
Przejdź do terminów tego szkolenia
Sprawdź pozostałe szkolenia z kategorii:
Python
Zobacz
Sprawdź, co mówią o nas ci, którzy nam zaufali
Trenerzy kategorii Python
Mateusz Zimoch
Mateusz Zimoch
Paweł Stasiński
Paweł Stasiński
Tomasz Wiliński
Tomasz Wiliński
Senior Data Scientist z wieloletnim doświadczeniem w projektach wykorzystujących uczenie maszynowe i analitykę predykcyjną. Na co dzień pracuje w jednej z największych instytucji finansowych w Polsce, odpowiadając za rozwój i wdrożenie modeli scoringowych, predykcyjnych oraz systemów wspierających decyzje biznesowe.
W pracy łączy wiedzę techniczną z praktycznym podejściem do rozwiązywania problemów biznesowych. Jako prowadzący stawia na zrozumienie istoty algorytmów, intuicję analityczną oraz zdolność wykorzystania danych do realnych celów. Na szkoleniach dzieli się sprawdzonymi metodami pracy w Pythonie, dobrymi praktykami tworzenia modeli oraz doświadczeniem wyniesionym z wdrożeń w skali enterprise.
Tomasz Duniec
Tomasz Duniec
DevOps Enginner z zamiłowaniem do części "Dev" wspomnianej roli. Pasjonat ideologii DevOps, ze szczególnym uwzględnieniem potoków dostarczania oprogramowania. Swoje doświadczenie opiera o dostarczanie skalowalnych usług mikroserwisowych oraz projekty wdrażanie w AWSie dla dużych klientów. W codziennej pracy jest zaangażowany na wielu poziomach cyklu dostarczania oprogramowania. Od wielu lat tworzy narzędzia dla deweloperów, które skracają cykl, ułatwiają prace i definiują standardy w zespołach.
Posiada doświadczenie w zarzadzaniu zespołami developerskimi. Absolwent Politechniki Warszawskiej, swoja karierę w IT zaczynał właśnie od szkoleń w JSystems, które pozwoliły mu nabrać wiatru w żagle i pomogły spełnić marzenia o karierze w IT. Dziś w JSystems jako trener zakresu AWS, który zachęci was do korzystania z chmury Amazona i pokaże, że nie jest to takie trudne i "kosztowne".
Certyfikowany inżynier z zakresu architektury, DevOps i Networkingu w AWS. Zwolennik "przemyślanego" podejścia zwinnego w prowadzeniu projektów. Charakteryzuje go podejście do wyzwan z "Can do attitude" i "Get Things Done". W swojej pracy najbardziej ceni możliwość rozwiazywania problemów biznesowych w oparciu o najnowsze technologie chmurowe. Zwolennik praktyki nad teorią. Ostatnio mocno zaangażowany w adaptacje możliwości jakie niesie ze sobą platforma Backstage.io.
Programista Pythona od 2018 roku z backgroundem w matematycznym modelowaniu procesów fizycznych. Specjalizuje się w obszarach związanych z pozyskiwaniem, przetwarzaniem i analizą danych. Jako data scientist pracował w projektach dla branż takich jak telekomunikacja, media czy finanse. Doświadczony szkoleniowiec, który lubi i potrafi przekazywać wiedzę. W wolnym czasie podróżuje lub pracuje nad nowymi szkoleniami.
Tomasz Woźniak
Tomasz Woźniak
Ostatnie miejsca!