Przetwarzanie danych Big Data z Apache Spark

by:
Czas trwania 4 dni

Najbliższe terminy tego szkolenia

23.06 26.06 Termin gwarantowany Szkolenie online Ostatnie miejsca!
Zapisz się
22.09 25.09 Termin gwarantowany Szkolenie online Ostatnie miejsca!
Zapisz się
24.11 27.11 Termin gwarantowany Szkolenie online Ostatnie miejsca!
Zapisz się

Szkolenie
dedykowane
dla Twojego
zespołu

Cena szkolenia 3600 PLN (netto)

Standardy JSystems

  1. Wszyscy nasi trenerzy muszą być praktykami i osiągać średnią z ankiet minimum 4.75 na 5. Nie ma wśród nas trenerów-teoretyków. Każdy trener JSystems ma bogate doświadczenie komercyjne w zakresie tematów z których prowadzi szkolenia.
  2. Wszystkie szkolenia mają format warszatowy. Każde zagadnienie teoretyczne jest poparte rzędem warsztatów w ściśle określonym formacie.
  3. Terminy gwarantowane na 100%. Jeśli jakiś termin jest oznaczony jako gwarantowany, oznacza to że odbędzie się nawet jeśli część grupy wycofa się z udziału. Ryzyko ponosimy my jako organizator.
  4. Do każdego szkolenia które wymaga jakiegokolwiek oprogramowania dostarczamy skonfigurowane, gotowe hosty w chmurze. Dzięki temu uczestnik nie musi nic instalować na swoim komputerze (i bić się z blokadami korporacyjnymi). Połączenie następuje przez zdalny pulpit lub SSH - w zależności od szkolenia.
Zapisz się
Program szkolenia

Dzień 1: Podstawy środowiska Big Data i Spark

  • Wprowadzenie do ekosystemu Big Data
    • Czym jest Big Data
    • Charakterystyka wyzwań pracy - 5 V
      • Volume - praca w środowisku, gdzie sam rozmiar danych przekracza możliwości pojedynczej maszyny
      • Velocity - wymóg zapewnienia wysokiej prędkości procesowania i dostępności nowych danych
      • Variety - praca z różnymi typami danych, takimi jak bazy danych, pliki ustrukturyzowane np. parquet, pliki nieustrukturyzowane np. pliki audio
      • Veracity - testowanie danych pod kątem ich jakości np. sprawdzanie czy daty w systemie zachowują logikę
      • Value - dążenie do zapewnienia wartościowych i zaufanych danych na którym przedsiębiorstwa mogą bazować przy podejmowaniu decyzji
    • Podejścia i obecne trendy
      • Przedstawienie przykładowej migracji
  • Spark a Databricks
    • Wprowadzenie do ekosystemu Apache Spark
    • Przedstawienie typów deploymentów Sparka (w tym Databricks)
    • Wprowadzenie do Platformy Databricks
  • Databricks Workspace
    • Przedstawienie środowiska pracy
    • Nawigacja na platformie
  • Structured API Podstawy
    • PySpark Dataframe
      • Funkcje: withColumn, where, zmiana typów, joiny, zapisywanie danych
    • Spark SQL
      • Funkcje: selecty, filtry, agregacje, joiny, zarządzanie tabelami
  • Wprowadzenie do danych projektowych

Dzień 2: Konfiguracja infrastruktury danych

  • Unity Catalog
    • Centralizacja dostępu
    • Przeszukiwanie zasobów
  • Dobre praktyki w kodzie
    • Strukturyzacja notebooków
    • Wykorzystanie dbutils
      • Parametryzacja notebooków
      • Przykładowe wykorzystanie outputu notebooków
    • Structured API Ciąg Dalszy
    • PySpark Dataframe
      • Kolekcje, praca na kolumnach typu array oraz struct
    • Spark SQL
      • Praca z dynamiczne kwerendy
  • Budowanie jeziora danych
    • Formaty plików Json, Parquet, Delta
    • Przedstawienie Architektury Medallion
      • Logiczna organizacja architektury danowej
  • Warsztat

Dzień 3: Orkiestracja pracy klastrów

  • Zarządzanie Klastrami
    • Typy klastrów
    • Konfiguracja ustawień
    • Dostępy dla deweloperów
  • Workflowy
    • Orkiestracja przepływów danych
  • Warsztat

Dzień 4: Rdzeń Sparka

  • Wewnętrzne komponenty Sparka
    • Driver i Executory
      • Omówienie pracy poszczególnych komponentów
    • Akcje i Transformacje
      • Optymalizacja planu wykonania kodu w Apache Spark
  • Spark UI
    • Podgląd procesów
      • Monitoring zużycia zasobów
    • Debugging
      • Szczegółowy podgląd błędów w egzekucji kodu
    • Loggi
  • Warsztat

Opis szkolenia

Szkolenie odbywa się na żywo z udziałem trenera. Nie jest to forma kursu video!

O szkoleniu w skrócie

Szkolenie poświęcone jest Apache Spark - nowoczesnemu narzędziu do przetwarzania danych, wykorzystywanym przez czołowe firmy z Doliny Krzemowej.

Uczestnicy szkolenia zapoznają się z platformą Databricks, nauczą się tworzyć pipeline"y ETL w Spark SQL i PySpark oraz efektywnie przetwarzać różnorodne typy danych.

Program obejmuje najlepsze praktyki programistyczne, które usprawnią codzienną pracę z danymi. To kompleksowe szkolenie dostarczające praktycznej wiedzy i umiejętności kluczowych w pracy z dużymi zbiorami danych.


Cel szkolenia

Praca z systemem Spark oraz platformą Databricks. Opanowanie praktycznych umiejętności niezbędnych do skutecznej realizacji projektów danowych w nowoczesnym środowisku, które kształtuje współczesne standardy w obszarze Big Data.


Dla kogo przeznaczone jest szkolenie?

  • Analityków Danych , którzy chcą podnieść swoje umiejętności w zakresie pracy z danymi i rozszerzyć możliwości kariery
  • Inżynierów Danych , pragnących uzupełnić wiedzę na temat Databricks. Szkolenie szczególnie przyda się osobom znającym już podobne rozwiązania, takie jak Snowflake czy Microsoft Fabric
  • Programistów , którzy postanowili zostać Inżynierami Danych
  • Data Science , którzy chcą opanować Sparka i wykorzystywać go w projektach

Gdzie użyjesz nabytej wiedzy?

  • W codziennej pracy z Platformą Databricks oraz Sparkiem
  • W projektach wymagających elastycznego podejścia pod kątem wykorzystywanych zasobów
  • Przy budowaniu systemów analitycznych dla firmy

Czego się nauczysz?

  • Budowy i optymalizacji pipeline"ów danych (ELT/ETL) - automatyzacja procesów przetwarzania danych od surowych plików po gotowe zestawy do analizy.
  • Analizy dużych zbiorów danych - efektywnego przetwarzanie i analizy milionów rekordów przy użyciu Sparka, zarówno w SQL, jak i Pythonie.
  • Tworzenia systemów raportowania i dashboardów - integracji przetworzonych danych z narzędziami analitycznymi, takimi jak Power BI, Tableau.
  • Integracji danych z różnych źródeł - łączenia danych z baz relacyjnych, plików CSV, Parquet, systemów chmurowych (Azure, AWS, GCP).
  • Przygotowania danych do analiz i uczenia maszynowego - oczyszczanie, transformacja i formatowanie danych w sposób umożliwiający ich wykorzystanie w modelach machine learning.
  • Optymalizacji kosztów i wydajności w chmurze - dzięki umiejętności efektywnego zarządzania zasobami Spark na platformie Databricks.

Wymagania co do uczestnika

  • Podstawowa znajomość SQL
  • Podstawowa znajomość Pythona
  • Podstawowa znajomość Git
  • Założenie konta na GitHub
  • Podstawowa znajomość technologii chmurowych nie jest obowiązkowa, ale przydatna


Terminy i definicje

System Rozproszony
System rozproszony to zbiór niezależnych komputerów lub urządzeń, które współpracują ze sobą poprzez sieć komputerową, tworząc logiczną całość. Każdy węzeł w systemie może działać niezależnie, ale wszystkie razem realizują wspólne cele.

Spark
Apache Spark to potężne, masowo skalowalne środowisko do przetwarzania danych, które umożliwia efektywne przetwarzanie dużych zbiorów danych w pamięci oraz na dysku. Jest podstawowym komponentem platformy Databricks.

Databricks
Databricks to platforma do zarządzania danymi, która łączy zalety systemów data lake i data warehouse. Wykorzystuje Apache Spark jako silnik przetwarzania i zapewnia scentralizowane środowisko do analizy danych, uczenia maszynowego i biznesowych zastosowań analitycznych.

Data Lake (jezioro danych)
Data Lake to centralne repozytorium danych przechowujące duże ilości danych w ich pierwotnej, surowej formie. W przeciwieństwie do tradycyjnych hurtowni danych, które wymagają uprzedniej strukturyzacji danych, data lake może przechowywać dane w dowolnym formacie, w tym: strukturyzowane, półstrukturyzowane i niestrukturyzowane.



Prowadzący szkolenie:
Dawid Grześków


Specjalista IT z pięcioletnim doświadczeniem w środowisku danowym. W swojej karierze przeszedłem przez budowanie narzędzi wewnętrznych, analitykę oraz tworzenie systemów raportowych. Aktualnie pracuję jako Inżynier Danych, gdzie Spark i Databricks stanowią moje główne narzędzia pracy.

Na co dzień pracuję z technologiami chmurowymi na platformie Azure. Programuję w Pythonie, SQL oraz Sparku. Tworzę modele, hurtownie oraz jeziora danych. Integruję rozwiązania DevOps z procesami biznesowymi. Tworzę zaplecza całych platform i rozwijam procesy integracyjne.

Projekty w których brałem udział to m.in.:

  • Integracja przepływów danych wspierających mi.n. SAPa, procesy korporacyjne
  • Budowanie jezior danych w celu scentralizowania zasobów przedsiębiorstwa
  • Budowanie modeli analitycznych, które dotychczas były niemożliwe do zrealizowania bez Sparka.
  • Wdrażanie rozwiązań DevOps/DataOps

Posiadam doświadczenie pracy w międzynarodowych firmach, gdzie wspierałem zespoły w przyswajaniu wiedzy procesowej oraz narzędziowej. Jako praktyk, wychodzę z założenia, że tylko praktyczne szkolenia dają satysfakcjonujące efekty.

Z takim założeniem stworzyłem również poniższy kurs.


Stanowisko robocze


Do tego szkolenia każdy uczestnik otrzymuje dostęp do indywidualnej wirtualnej maszyny w chmurze. Ma ona zainstalowane i skonfigurowane wszystko co potrzebne do realizacji szkolenia. Maszyna będzie dostępna przez cały okres szkolenia.
Terminy gwarantowane

Gdy na jakiś termin zgłosi się minimalna liczba osób, termin oznaczamy jako gwarantowany.

Jeśli jakiś termin oznaczony jest jako gwarantowany to oznacza to, że na 100% się odbędzie we wskazanym czasie i miejscu.

Nawet gdyby część takiej grupy zrezygnowała lub przeniosła się na inny termin, raz ustalony termin gwarantowany takim pozostaje. Ewentualne ryzyko ponosimy my jako organizator.

Przejdź do terminów tego szkolenia

Szkolenia online Szkolenia online odbywają się na żywo z udziałem trenera. Uczestniczy łączą się na szkolenie za pomocą platfomy ZOOM. Informacje o wymaganym niezbędnym oprogramowaniu oraz informacje organizacyjne uczestnicy otrzymują na 7 dni przed datą rozpoczęcia szkolenia.
Inne szkolenia tej kategorii Sprawdź pozostałe    szkolenia Big Data!

Sprawdź, co mówią o nas ci, którzy nam zaufali

  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    23-11-2024 Prowadzący bardzo sympatyczny, dobrze przekazywał wiedzę i tłumaczył Zuzanna Motylińska, Asseco Poland S.A.
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    28-06-2024 Polecam , szkolenie przeprowadzone przez osobe z duza wiedza i bogatym doswiadczeniem , ciekawe zagadnienia i rozwiazania Arlan Akhmet, Ornsson Solutions Sp. z o.o.
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    24-11-2023 Szkolenie bardzo fachowe, trener merytoryczny, ciekawa tematyka. Naprawdę warto. Rafał Ślubowski, Narodowy Bank Polski
  • 4.74/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    22-09-2023 Bardzo ciekawe szkolenie dające ogląd na świat Big Data Joanna De-Boulangé-Woluntarska, Bank Gospodarstwa Krajowego
  • 4.63/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    22-09-2023 Jeżeli chcesz ponać świat Big Data, jego części składowe, poczuć odrobinę potęgę rozwiązań, a przede wszystkim zapoznać się teoretycznie z cały przekrojem narzędzi to to szkolenie jest dla Ciebie. Raczej pierwszy krok w nauce niż pełne kompendium wiedzy. Tomasz Dłużniewski, Markant Services International Polska Sp. z o.o.
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    30-06-2023 Szkolenie bardzo ciekawe, zachęcające to dalszego poszerzania swoich kompetencji w Big Data oraz w technologiach z nią związanych. Mateusz Wiktorek, OPITZ CONSULTING Polska Sp. z o.o.
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    30-06-2023 Bardzo dobrze przeprowadzone szkolenie. Bardzo użyteczne dla osoby początkującej w obszarze BigData. Pozwoliło na usystematyzowanie wiedzy zdobytej w innych źródłach i rozpoczęcie przygody praktycznej. Radosław Laskowski, Polish Airports Academy Sp. z o.o.
  • 5.0/5

    Architektura systemów Big Data

    30-11-2022 Szkolenie wysokiej jakość. Polecam. Kamil Bachanek, Aplikacje Krytyczne Sp. z o.o.
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    26-08-2022 Arek to super trener z ogromna wiedzą na temat pracy z danymi. Jezeli ktos chce wskoczyc na wyzszy poziom analizy,gromadzenia i przesylania danych to Big Data to super rozwiazanie. Mariusz Stefański, Ośrodek Przetwarzania Informacji - Państwowy Instytut Badawczy
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    01-07-2022 Szkolenie świetnie poprowadzone, bardzo rozległa wiedza prowadzącego, trenera Arka Osińskiego. Wiedza przekazana w bardzo jasny i spójny sposób poparta wieloma praktycznymi przykładami. Praktycznie nie było pytania, na które prowadzący nie znałby odpowiedzi od razu. Ponadto odpowiedzi na pytania znacznie wykraczały poza zakres samego pytania. Świetne warsztaty na AWS i doskonale przygotowane materiały do przeprowadzanych ćwiczeń. Polecam w 100% i chętnie uczestniczyłbym w kolejnych szkoleniach prowadzonych przez Arka. Wit Grzesiak, Aplikacje Krytyczne Sp. zo.o.
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    01-07-2022 Potwierdzają się opinie które czytałem przed szkoleniem, prowadzący jest pasjonatem technologii i praktykiem - to się przekłada pozytywnie na jakość szkolenia. Jest dobra proporcja między teorią i warsztatami, przygotowane ćwiczenia są ciekawe i pozwalają "poczuć" przetwarzanie BigData. Po częściach teoretycznych "ułożyły" mi się w głowie pojęcia/technologie z obszaru BigData. Jak najbardziej polecam szkolenie dla osób które zaczynają przygodę z BigData. Stefan Bryła, OSOBA PRYWATNA
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    26-11-2021 Super szkolenie jako kompleksowe wprowadzenie do Big Data i dalszy start w tym kierunku! Daniel Styrc, ista Shared Services Polska Sp. z o.o.
  • 4.9/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    26-11-2021 Szkoda, że tak późno skorzystałem z tego skolenia. :-) Paweł Gąsiorowski, Edubroker Sp. z o.o.
  • 4.9/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    15-10-2021 Super szkolenie na początek przygody z BIG DATA Michał Chronowski, Powszechny Zakład Ubezpieczeń na Życie SA
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    15-10-2021 Super Szkolenie polecam :) Joanna Ostrowska, UNIQUA Towarzystwo Ubezpieczeń SA
  • 4.9/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    15-10-2021 Duży profesjonalizm i wiedza Andrzej Makuch, Atos Poland Global Services Sp. z o.o.
  • 4.9/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    25-06-2021 Świetnie wyszkolony prowadzący, ma rozległą wiedzę, chętnie się nią dzieli. Na każdy temat ma coś do powiedzenia. Rewelacja. Jeżeli potrzebujesz szkolenia big data, śmiało możesz wybrać właśnie to. Paweł Sypniewski, Energa Obrót SA
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    25-06-2021 Teoria i praktyka (samodzielne ćwiczenia) w dobrej proporcji. Zakres szkolenia ciekawy. Tempo szkolenie w sam raz - jest czas na samodzielną pracę oraz eksperymentowanie, w razie potrzeby pod okiem prowadzącego. Szkolenie było w formie online i przebiegło bez problemów. Polecam! Marcin Smorenda, Signity SA
  • 4.7/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    25-06-2021 Dobra organizacja, profesjonalny prowadzący Andrzej Imiełowski, Państwowa Wyższa Szkoła Techniczno-Ekonomiczna w Jarosławiu
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    27-11-2020 Szkolenie bardzo ciekawe, pozwala zajrzeć do świata BigData. Prowadzący z dużą wiedzą praktyczną, zdecydowanie na plus. Część warsztatowa bardzo dobrze przygotowana. Katarzyna Bancerz, AXA ŻYCIE TOWARZYSTWO UBEZPIECZEŃ SA
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    25-09-2020 Przydatne szkolenie dla osób chcących zapoznać się z tematyką. Jakub Szczepański, Volkswagen Poznań Sp. z o.o.
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    06-12-2019 Świetne szkolenie o bardzo dużym przekroju informacji związanych z Big Data. Świetne wprowadzenie w tematykę, tempo i zakres wiedzy na najwyższym poziomie. Jacek Kuligowski, Energa - Operator SA
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    29-11-2019 Wysoki poziom wiedzy prowadzacych - brawo ! Dariusz Koc, Samsung Electronics Polska Sp. z o.o.
  • 4.92/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    11-10-2019 Pan Arek prezentuje imponującą wiedzę z zakresu Big Data, wykazuje się przy tym zainteresowaniem i wparciem dla kursantów. Jako wprowadzenie do świata Big Data, szkolenie wyczerpało tematykę. Adam Szwaczkiewicz, mBank SA
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    11-10-2019 Szkolenie "Kompleksowe wprowadzenie do Big Data" było jednym z lepszych szkoleń w jakich kiedykolwiek uczestniczyłem. Bardzo dobrze ułożona agenda i struktura kursu. Wysoki poziom merytoryczny dzięki świetnemu prowadzącemu, który w jasny sposób potrafił wytłumaczyć zaawansowane zagadnienia. Mateusz Tomżyński, Accenture Services Sp. z.o.o
  • 5.0/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    12-04-2019 Świetne, kompleksowe wprowadzenie do świata Big Data, polecam ;) Adam Plinzner, ING Bank Śląski SA
  • 4.85/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    12-04-2019 Polecam - dużo wiedzy Stanisław Nowak, Compendium Centrum Edukacyjne Spółka z o.o.
  • 4.71/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    12-04-2019 Szkolenie BIG DATA prowadzone w profesjonalny sposób, z odpowiednim zakresem merytorycznym i w dobrych ramach czasowych. Polecam. Tomasz Tomczak, Compendium Centrum Edukacyjne Spółka z o.o.
  • 4.78/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    30-11-2018 Zgodnie z założeniem - jest to kompleksowe wprowadzenie do technologii BigData. Sporo ćwiczeń warsztatowych i mnóstwo hintów praktycznych. Duża wiedza praktyczna Pana Arkadiusza. Rafał Sak, Eurocash S.A.
  • 4.71/5

    Kompleksowe wprowadzenie do Big Data - szkolenie w formie warsztatowej

    30-11-2018 Big Data to pasja prowadzącego. Podczas warsztatów jest dużo praktyki, często samemu można wybrać odpowiadającą sobie technologię dostępu do danych. Adrian Strugała, INCAT Sp. z o.o.

Trenerzy kategorii Big Data

Michał Schielmann
Dawid Grześków
Zapisz się

Masz jakieś pytania? Skontaktuj się z nami!

Odpowiadamy na telefony i maile w godzinach 9:00-17:00 od poniedziałku do piątku.

Telefon 22 299 53 69
Napisz do nas

Potrzebujesz więcej informacji?

Wiadomość wysłana

Przyjęliśmy Twoją wiadomość i skontaktujemy się z Tobą w tej sprawie

Klikając OK wrócisz do formularza

Nasza strona korzysta z plików cookie. Możesz zmienić zasady ich używania lub zablokować pliki cookie w ustawieniach przeglądarki. Więcej informacji można znaleźć w Polityce prywatności. Kontynuując korzystanie ze strony, wyrażasz zgodę na używanie plików cookie.