Przetwarzanie danych Big Data z Apache Spark - techniki zaawansowane i optymalizacja

by:
Czas trwania 2 dni

Najbliższe terminy tego szkolenia

21.07 22.07 Termin gwarantowany Szkolenie online Ostatnie miejsca!
Zapisz się
27.10 28.10 Termin gwarantowany Szkolenie online Ostatnie miejsca!
Zapisz się
08.12 09.12 Termin gwarantowany Szkolenie online Ostatnie miejsca!
Zapisz się

Szkolenie
dedykowane
dla Twojego
zespołu

Cena szkolenia 1800 PLN (netto)

Standardy JSystems

  1. Wszyscy nasi trenerzy muszą być praktykami i osiągać średnią z ankiet minimum 4.75 na 5. Nie ma wśród nas trenerów-teoretyków. Każdy trener JSystems ma bogate doświadczenie komercyjne w zakresie tematów z których prowadzi szkolenia.
  2. Wszystkie szkolenia mają format warszatowy. Każde zagadnienie teoretyczne jest poparte rzędem warsztatów w ściśle określonym formacie.
  3. Terminy gwarantowane na 100%. Jeśli jakiś termin jest oznaczony jako gwarantowany, oznacza to że odbędzie się nawet jeśli część grupy wycofa się z udziału. Ryzyko ponosimy my jako organizator.
  4. Do każdego szkolenia które wymaga jakiegokolwiek oprogramowania dostarczamy skonfigurowane, gotowe hosty w chmurze. Dzięki temu uczestnik nie musi nic instalować na swoim komputerze (i bić się z blokadami korporacyjnymi). Połączenie następuje przez zdalny pulpit lub SSH - w zależności od szkolenia.
Zapisz się
Program szkolenia

Dzień 1 Struktura kodu, internale

  • Wprowadzenie do notebooków
    • Przedstawienie kodu i założeń jakie program musi wykonać
  • Omówienie jak Spark planuje wykonanie kodu
    • Driver i Executory
      • Omówienie pracy poszczególnych komponentów
    • Diagram DAG
      • Przedstawienie poszczególnych elementów składowych: Job, Stage, Task
    • Analiza pierwotnej egzekucji z SparkUI
    • Akcje i Transformacje
      • Optymalizacja planu wykonania kodu w Apache Spark
    • Omówienie jak działa partycjonowanie danych w Sparku
    • Warsztat

Dzień 2: Optymalizacja kodu

  • Usprawnianie Joinów
    • Rodzaje joinów
    • Problem data skewness (niesymetryczność danych)
    • Optymalizacja
  • Omówienie jak działa cache, persist oraz checkpoint w Sparku
    • Scenariusze kiedy warto zastosować przedstawione techniki
  • Optymalizacja pracy klastra
    • Wybór odpowiedniego typu klastra
    • Dobieranie właściwej instancji workerów i drivera
  • Warsztat
  • Porównanie rezultatów przed vs po optymalizacji

Opis szkolenia

Szkolenie odbywa się na żywo z udziałem trenera. Nie jest to forma kursu video!

O szkoleniu w skrócie

Szkolenie poświęcone jest Apache Spark - nowoczesnemu narzędziu do przetwarzania danych, wykorzystywanym przez czołowe firmy z Doliny Krzemowej. Szkolenie odbędzie się w oparciu o platformę Databricks, a jego głównym celem jest optymalizacja czasu wykonywania kodu, przy zachowaniu optymalnego kosztu korzystania z narzędzia. To dwudniowe szkolenie skupia się na przedstawieniu szeregu technik pozwalających zapewnić optymalne procesowania danych, przy jednoczesnym zachowaniu wysokiej czystości kodu.


Cel szkolenia

Praca z systemem Spark oraz platformą Databricks. Opanowanie praktycznych umiejętności niezbędnych do skutecznej realizacji projektów danowych w nowoczesnym środowisku, które kształtuje współczesne standardy w obszarze Big Data. Szkolenie uzupełnia wiedzę z zawartą w "Szkolenie Podstawowe Spark" kładąc nacisk na metody optymalizacji wydajności w procesowaniu danych.


Dla kogo przeznaczone jest szkolenie?

  • Inżynierów Danych , którzy chcą pogłębić swoją wiedzę o Apache Spark, ze szczególnym naciskiem na optymalizację kodu
  • Specjalistów Data Science , pragnących lepiej zrozumieć Apache Spark i nauczyć się samodzielnie optymalizować kod w celu zwiększenia wydajności swoich projektów

Gdzie użyjesz nabytej wiedzy?

  • W codziennej pracy z Platformą Databricks oraz Sparkiem
  • W projektach wymagających elastycznego podejścia pod kątem wykorzystywanych zasobów
  • Przy budowaniu systemów analitycznych dla firmy

Czego się nauczysz?

  • Optymalizacji kosztów i wydajności w chmurze - dzięki umiejętności efektywnego zarządzania zasobami Spark na platformie Databricks
  • Optymalizacji egzekucji kodu - co pozwoli widocznie skrócić potrzebny do wykonania procesowania danych
  • Efektywnego debugowania kodu - co pozwoli na ograniczenie błędów oraz ułatwi wprowadzenie nowej funkcjonalności
  • Odnajdowania "wąskich gardeł" w procesie - na przykładach pokażę Ci jak odnajdywać operacje, które ograniczają zdolność i przepustowość całego programu

Wymagania co do uczestnika

  • Podstawowa znajomość Sparka/Databricks; idealnie - uczestnictwo w poprzednim szkoleniu "Szkolenie Podstawowe Spark"
  • Znajomość SQL
  • Podstawowa znajomość Pythona
  • Podstawowa znajomość Git
  • Założenie konta na GitHub
  • Podstawowa znajomość technologii chmurowych nie jest obowiązkowa, ale przydatna


Terminy i definicje

System Rozproszony
System rozproszony to zbiór niezależnych komputerów lub urządzeń, które współpracują ze sobą poprzez sieć komputerową, tworząc logiczną całość. Każdy węzeł w systemie może działać niezależnie, ale wszystkie razem realizują wspólne cele.

Spark
Apache Spark to potężne, masowo skalowalne środowisko do przetwarzania danych, które umożliwia efektywne przetwarzanie dużych zbiorów danych w pamięci oraz na dysku. Jest podstawowym komponentem platformy Databricks.

Databricks
Databricks to platforma do zarządzania danymi, która łączy zalety systemów data lake i data warehouse. Wykorzystuje Apache Spark jako silnik przetwarzania i zapewnia scentralizowane środowisko do analizy danych, uczenia maszynowego i biznesowych zastosowań analitycznych.

Data Lake (jezioro danych)
Data Lake to centralne repozytorium danych przechowujące duże ilości danych w ich pierwotnej, surowej formie. W przeciwieństwie do tradycyjnych hurtowni danych, które wymagają uprzedniej strukturyzacji danych, data lake może przechowywać dane w dowolnym formacie, w tym: strukturyzowane, półstrukturyzowane i niestrukturyzowane.

DAG (Directed Acyclic Graph)
W Spark to podstawowa koncepcja reprezentująca plan wykonania zadania. Jest to graf operacji które, są wykonywane w określonej kolejności, jednocześnie nie zawiera cykli ani pętli w planie wykonania.W Apache Spark DAG składa się z zestawu Jobów, Stagów oraz Tasków.



Prowadzący szkolenie:
Dawid Grześków



Specjalista IT z pięcioletnim doświadczeniem w środowisku danowym. W swojej karierze przeszedłem przez budowanie narzędzi wewnętrznych, analitykę oraz tworzenie systemów raportowych. Aktualnie pracuje jako Inżynier Danych, gdzie Spark i Databricks stanowią moje główne narzędzia pracy.

Na co dzień pracuje z technologiami chmurowymi na platformie Azure. Programuje w Pythonie, SQL oraz Sparku. Tworzę modele, hurtownie oraz jeziora danych. Integruję rozwiązania DevOps z procesami biznesowymi. Tworzę zaplecza całych platform i rozwijam procesy integracyjne.

Projekty w których brałem udział to m.in.:

  • Integracja przepływów danych wspierających mi.n. SAPa, procesy korporacyjne
  • Budowanie jezior danych w celu scentralizowania zasobów przedsiębiorstwa
  • Budowanie modeli analitycznych, które dotychczas były niemożliwe do zrealizowania bez Sparka.
  • Wdrażanie rozwiązań DevOps/DataOps

Posiadam doświadczenie pracy w międzynarodowych firmach, gdzie wspierałem zespoły w przyswajaniu wiedzy procesowej oraz narzędziowej. Jako praktyk, wychodzę z założenia, że tylko praktyczne szkolenia dają satysfakcjonujące efekty.

Z takim założeniem stworzyłem również poniższy kurs.


Stanowisko robocze


Do tego szkolenia każdy uczestnik otrzymuje dostęp do indywidualnej wirtualnej maszyny w chmurze. Ma ona zainstalowane i skonfigurowane wszystko co potrzebne do realizacji szkolenia. Maszyna będzie dostępna przez cały okres szkolenia.
Terminy gwarantowane

Gdy na jakiś termin zgłosi się minimalna liczba osób, termin oznaczamy jako gwarantowany.

Jeśli jakiś termin oznaczony jest jako gwarantowany to oznacza to, że na 100% się odbędzie we wskazanym czasie i miejscu.

Nawet gdyby część takiej grupy zrezygnowała lub przeniosła się na inny termin, raz ustalony termin gwarantowany takim pozostaje. Ewentualne ryzyko ponosimy my jako organizator.

Przejdź do terminów tego szkolenia

Szkolenia online Szkolenia online odbywają się na żywo z udziałem trenera. Uczestniczy łączą się na szkolenie za pomocą platfomy ZOOM. Informacje o wymaganym niezbędnym oprogramowaniu oraz informacje organizacyjne uczestnicy otrzymują na 7 dni przed datą rozpoczęcia szkolenia.
Inne szkolenia tej kategorii Sprawdź pozostałe    szkolenia Big Data!

Sprawdź, co mówią o nas ci, którzy nam zaufali

  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    23-11-2024 Prowadzący bardzo sympatyczny, dobrze przekazywał wiedzę i tłumaczył Zuzanna Motylińska, Asseco Poland S.A.
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    28-06-2024 Polecam , szkolenie przeprowadzone przez osobe z duza wiedza i bogatym doswiadczeniem , ciekawe zagadnienia i rozwiazania Arlan Akhmet, Ornsson Solutions Sp. z o.o.
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    24-11-2023 Szkolenie bardzo fachowe, trener merytoryczny, ciekawa tematyka. Naprawdę warto. Rafał Ślubowski, Narodowy Bank Polski
  • 4.74/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    22-09-2023 Bardzo ciekawe szkolenie dające ogląd na świat Big Data Joanna De-Boulangé-Woluntarska, Bank Gospodarstwa Krajowego
  • 4.63/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    22-09-2023 Jeżeli chcesz ponać świat Big Data, jego części składowe, poczuć odrobinę potęgę rozwiązań, a przede wszystkim zapoznać się teoretycznie z cały przekrojem narzędzi to to szkolenie jest dla Ciebie. Raczej pierwszy krok w nauce niż pełne kompendium wiedzy. Tomasz Dłużniewski, Markant Services International Polska Sp. z o.o.
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    30-06-2023 Szkolenie bardzo ciekawe, zachęcające to dalszego poszerzania swoich kompetencji w Big Data oraz w technologiach z nią związanych. Mateusz Wiktorek, OPITZ CONSULTING Polska Sp. z o.o.
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    30-06-2023 Bardzo dobrze przeprowadzone szkolenie. Bardzo użyteczne dla osoby początkującej w obszarze BigData. Pozwoliło na usystematyzowanie wiedzy zdobytej w innych źródłach i rozpoczęcie przygody praktycznej. Radosław Laskowski, Polish Airports Academy Sp. z o.o.
  • 5.0/5

    Architektura systemów Big Data

    30-11-2022 Szkolenie wysokiej jakość. Polecam. Kamil Bachanek, Aplikacje Krytyczne Sp. z o.o.
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    26-08-2022 Arek to super trener z ogromna wiedzą na temat pracy z danymi. Jezeli ktos chce wskoczyc na wyzszy poziom analizy,gromadzenia i przesylania danych to Big Data to super rozwiazanie. Mariusz Stefański, Ośrodek Przetwarzania Informacji - Państwowy Instytut Badawczy
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    01-07-2022 Szkolenie świetnie poprowadzone, bardzo rozległa wiedza prowadzącego, trenera Arka Osińskiego. Wiedza przekazana w bardzo jasny i spójny sposób poparta wieloma praktycznymi przykładami. Praktycznie nie było pytania, na które prowadzący nie znałby odpowiedzi od razu. Ponadto odpowiedzi na pytania znacznie wykraczały poza zakres samego pytania. Świetne warsztaty na AWS i doskonale przygotowane materiały do przeprowadzanych ćwiczeń. Polecam w 100% i chętnie uczestniczyłbym w kolejnych szkoleniach prowadzonych przez Arka. Wit Grzesiak, Aplikacje Krytyczne Sp. zo.o.
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    01-07-2022 Potwierdzają się opinie które czytałem przed szkoleniem, prowadzący jest pasjonatem technologii i praktykiem - to się przekłada pozytywnie na jakość szkolenia. Jest dobra proporcja między teorią i warsztatami, przygotowane ćwiczenia są ciekawe i pozwalają "poczuć" przetwarzanie BigData. Po częściach teoretycznych "ułożyły" mi się w głowie pojęcia/technologie z obszaru BigData. Jak najbardziej polecam szkolenie dla osób które zaczynają przygodę z BigData. Stefan Bryła, OSOBA PRYWATNA
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    26-11-2021 Super szkolenie jako kompleksowe wprowadzenie do Big Data i dalszy start w tym kierunku! Daniel Styrc, ista Shared Services Polska Sp. z o.o.
  • 4.9/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    26-11-2021 Szkoda, że tak późno skorzystałem z tego skolenia. :-) Paweł Gąsiorowski, Edubroker Sp. z o.o.
  • 4.9/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    15-10-2021 Super szkolenie na początek przygody z BIG DATA Michał Chronowski, Powszechny Zakład Ubezpieczeń na Życie SA
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    15-10-2021 Super Szkolenie polecam :) Joanna Ostrowska, UNIQUA Towarzystwo Ubezpieczeń SA
  • 4.9/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    15-10-2021 Duży profesjonalizm i wiedza Andrzej Makuch, Atos Poland Global Services Sp. z o.o.
  • 4.9/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    25-06-2021 Świetnie wyszkolony prowadzący, ma rozległą wiedzę, chętnie się nią dzieli. Na każdy temat ma coś do powiedzenia. Rewelacja. Jeżeli potrzebujesz szkolenia big data, śmiało możesz wybrać właśnie to. Paweł Sypniewski, Energa Obrót SA
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    25-06-2021 Teoria i praktyka (samodzielne ćwiczenia) w dobrej proporcji. Zakres szkolenia ciekawy. Tempo szkolenie w sam raz - jest czas na samodzielną pracę oraz eksperymentowanie, w razie potrzeby pod okiem prowadzącego. Szkolenie było w formie online i przebiegło bez problemów. Polecam! Marcin Smorenda, Signity SA
  • 4.7/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    25-06-2021 Dobra organizacja, profesjonalny prowadzący Andrzej Imiełowski, Państwowa Wyższa Szkoła Techniczno-Ekonomiczna w Jarosławiu
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    27-11-2020 Szkolenie bardzo ciekawe, pozwala zajrzeć do świata BigData. Prowadzący z dużą wiedzą praktyczną, zdecydowanie na plus. Część warsztatowa bardzo dobrze przygotowana. Katarzyna Bancerz, AXA ŻYCIE TOWARZYSTWO UBEZPIECZEŃ SA
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    25-09-2020 Przydatne szkolenie dla osób chcących zapoznać się z tematyką. Jakub Szczepański, Volkswagen Poznań Sp. z o.o.
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    06-12-2019 Świetne szkolenie o bardzo dużym przekroju informacji związanych z Big Data. Świetne wprowadzenie w tematykę, tempo i zakres wiedzy na najwyższym poziomie. Jacek Kuligowski, Energa - Operator SA
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    29-11-2019 Wysoki poziom wiedzy prowadzacych - brawo ! Dariusz Koc, Samsung Electronics Polska Sp. z o.o.
  • 4.92/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    11-10-2019 Pan Arek prezentuje imponującą wiedzę z zakresu Big Data, wykazuje się przy tym zainteresowaniem i wparciem dla kursantów. Jako wprowadzenie do świata Big Data, szkolenie wyczerpało tematykę. Adam Szwaczkiewicz, mBank SA
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    11-10-2019 Szkolenie "Kompleksowe wprowadzenie do Big Data" było jednym z lepszych szkoleń w jakich kiedykolwiek uczestniczyłem. Bardzo dobrze ułożona agenda i struktura kursu. Wysoki poziom merytoryczny dzięki świetnemu prowadzącemu, który w jasny sposób potrafił wytłumaczyć zaawansowane zagadnienia. Mateusz Tomżyński, Accenture Services Sp. z.o.o
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    12-04-2019 Świetne, kompleksowe wprowadzenie do świata Big Data, polecam ;) Adam Plinzner, ING Bank Śląski SA
  • 4.85/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    12-04-2019 Polecam - dużo wiedzy Stanisław Nowak, Compendium Centrum Edukacyjne Spółka z o.o.
  • 4.71/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    12-04-2019 Szkolenie BIG DATA prowadzone w profesjonalny sposób, z odpowiednim zakresem merytorycznym i w dobrych ramach czasowych. Polecam. Tomasz Tomczak, Compendium Centrum Edukacyjne Spółka z o.o.
  • 4.78/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    30-11-2018 Zgodnie z założeniem - jest to kompleksowe wprowadzenie do technologii BigData. Sporo ćwiczeń warsztatowych i mnóstwo hintów praktycznych. Duża wiedza praktyczna Pana Arkadiusza. Rafał Sak, Eurocash S.A.
  • 4.71/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    30-11-2018 Big Data to pasja prowadzącego. Podczas warsztatów jest dużo praktyki, często samemu można wybrać odpowiadającą sobie technologię dostępu do danych. Adrian Strugała, INCAT Sp. z o.o.

Trenerzy kategorii Big Data

Michał Schielmann
Dawid Grześków
Zapisz się

Masz jakieś pytania? Skontaktuj się z nami!

Odpowiadamy na telefony i maile w godzinach 9:00-17:00 od poniedziałku do piątku.

Telefon 22 299 53 69
Napisz do nas

Potrzebujesz więcej informacji?

Wiadomość wysłana

Przyjęliśmy Twoją wiadomość i skontaktujemy się z Tobą w tej sprawie

Klikając OK wrócisz do formularza

Nasza strona korzysta z plików cookie. Możesz zmienić zasady ich używania lub zablokować pliki cookie w ustawieniach przeglądarki. Więcej informacji można znaleźć w Polityce prywatności. Kontynuując korzystanie ze strony, wyrażasz zgodę na używanie plików cookie.