Szkolenia Big Data
by:
Chcąc wyjść naprzeciw wyzwaniu jakie stawia dzisiejszemu rynkowi IT coraz większa ilość danych które gromadzimy i konieczność ich efektywnego wykorzystania, opracowaliśmy dla Państwa szereg szkoleń mając na celu pomoc w budowaniu kompetencji niezbędnych do pracy w projektach Big Data.
Terminy gwarantowane
2 terminy gwarantowane?
Standardy JSystems
- Wszyscy nasi trenerzy muszą być praktykami i osiągać średnią z ankiet minimum 4.75 na 5. Nie ma wśród nas trenerów-teoretyków. Każdy trener JSystems ma bogate doświadczenie komercyjne w zakresie tematów z których prowadzi szkolenia.
- Wszystkie szkolenia mają format warszatowy. Każde zagadnienie teoretyczne jest poparte rzędem warsztatów w ściśle określonym formacie.
- Terminy gwarantowane na 100%. Jeśli jakiś termin jest oznaczony jako gwarantowany, oznacza to że odbędzie się nawet jeśli część grupy wycofa się z udziału. Ryzyko ponosimy my jako organizator.
- Do każdego szkolenia które wymaga jakiegokolwiek oprogramowania dostarczamy skonfigurowane, gotowe hosty w chmurze. Dzięki temu uczestnik nie musi nic instalować na swoim komputerze (i bić się z blokadami korporacyjnymi). Połączenie następuje przez zdalny pulpit lub SSH - w zależności od szkolenia.
Apache Hadoop
O szkoleniu w skrócie
Techniczne 5cio dniowe wprowadzenie do zagadnień Big Data. Szkolenie ma na celu wprowadzenie osób nie mających styczności z Big Data do tej tematyki. Zawiera przegląd najpopularniejszych narzędzi wykorzystywanych w Big Data z uwzględnieniem ich praktycznych zastosowań.
Każdy wykład poparty jest ćwiczeniami praktycznymi. Szkolenie ze względu na swój praktyczny charakter odbywa się w małych grupach i jest prowadzone przez praktyków z wieloletnim doświadczeniem.Podczas szkolenia zostanie pokazane realne wykorzystanie prezentowanych technologii.
Dla kogo?
Dla bazodanowców, administratorów, programistów. Uczestnik powinien znać podstawy baz danych. Szkolenie przeznaczone jest dla osób mających doświadczenie w IT. Ze względu na warsztatową część wymagana jest znajomość podstaw SQL.Apache Kafka
Dlaczego kompleksowe szkolenie z Kafki?
Łatwo jest zacząć używać klientów Kafki w swoich aplikacjach - ale bez dogłębnego zrozumienia tej technologii łatwo jest przeoczyć krytyczne aspekty, które mogą spowodować utratę lub uszkodzenie danych.
Możesz również stracić dużo czasu na rozwiązywanie dobrze znanych problemów w nieoptymalny sposób lub przegapić ważne funkcje, które mogą znacznie obniżyć koszty chmury.
Zakres szkolenia
Te warsztaty zapewnią Ci kompleksowy przegląd wszystkiego, co musisz wiedzieć podczas tworzenia aplikacji, które produkują lub konsumują wiadomości do/z Kafki. Dogłębnie omawiają architekturę Kafki, Producer API, Consumer API oraz wprowadzają do Kafka Connect i Debezium.
Nauczysz się o natywnym kliencie Javy, ale potem będziemy pracować w Spring Boot - jako najpopularniejszym frameworku, w którym tworzone są aplikacje Javy. Nauczysz się, jak konfigurować aplikację, rozumieć jej zachowanie, zapoznać się z różnymi semantykami dostarczania i jak skonfigurować obsługę błędów w sposób kompleksowy i wydajny.
Nauczysz się pisać czyste i efektywne testy integracyjne, jak używać i zarządzać schemami, jak działa bezpieczeństwo Kafki i jak można wykorzystać Kafka Connect i Debezium.
Ponieważ skupimy się na budowaniu aplikacji produkcyjnych, omówimy również distributed tracing i istotne aspekty monitorowania - zarówno dla klientów Kafki (metryki producenta i konsumenta), jak i Topików Kafki.
Co nie będzie omawiane:
Zarządzanie i obsługa klastra Kafka
Te warsztaty są dla deweloperów aplikacji klienckich, nie dotyczą obsługi klastra Apache Kafka, co zwykle robi dedykowany zespół.
Kafka Streams
Kafka Streams jest częścią Kafka API od lat, ale jego użycie maleje na rzecz dedykowanych platform do Stream Processingu, takich jak Flink lub RisingWave. Ze względu na złożoność Kafka Streams, często sytuacje w których mogłyby być użyte efektywnie - zamiast tego używany jest standardowy Consumer API.
Wymagane podstawy
Wcześniejsze doświadczenie z Kafką nie jest konieczne - zaczniemy od podstaw, ale ważne jest, aby mieć dobre podstawy inżynierii oprogramowania - klienci Kafki komunikują się asynchronicznie z systemem rozproszonym, więc aby w pełni wykorzystać te warsztaty - najlepiej mieć kilka lat doświadczenia.
Będziesz także musiał wiedzieć, jak pracować z Dockerem i mieć podstawową znajomość Javy i Springa.
Prowadzący szkolenie:
Jan Siekierski
Programista Java i Kotlin z 10-letnim doświadczeniem, z czego 5 lat jako Tech Lead.
Pasjonat Data Streamingu na którym obecnie koncentruje się w całości. Inne obszary w których się specjalizuje to Architektura Event-Driven, Mikroserwisy, DDD oraz Enterprise Data Architecture.
Obecnie niezależny Konsultant, Trener i Twórca, publikujący głównie na platformie LinkedIn.
O szkoleniu w skrócie
Ten intensywny kurs jest przeznaczony dla doświadczonych deweloperów aplikacji klienckich Kafki, którzy chcą pogłębić swoje zrozumienie tej platformy. Nauczysz się budować wydajne, odporne na błędy aplikacje, unikać utraty danych i świadomie poruszać się w kompromisach między opóźnieniami, przepustowością i spójnością danych. Zbadamy również strategie optymalizacji kosztów i przedstawimy narzędzia open-source, które rozwiązują zaawansowane problemy.
Ćwiczenia z kodowania
To są warsztaty praktyczne, więc wiele tematów jest uzupełnionych o zazwyczaj krótkie ćwiczenia z kodowania.
Zakres szkolenia
Zgłębimy zaawansowane tematy związane z Kafka Producer API i Consumer API. Omówimy wybrane zaawansowane aspekty architektury Kafki oraz najnowsze zmiany, w tym Tiered Storage i Kafka Queues. Warsztaty obejmują również zwięzłe moduły dotyczące testowania klientów Kafki, integracji ze Spring Boot oraz integracji danych za pomocą Kafka Connect.
Co nie wchodzi w zakres
Podstawy Kafki
Uczestnicy powinni rozumieć, jak działa klaster Kafki, czym są partycje, konsumenci i producenci. Powinni również rozumieć działanie Consumer Groups, Consumers i Offsets.
Wskazane jest doświadczenie produkcyjne w tworzeniu aplikacji klienckich Kafki.
Schema Management i formaty serializacji
Chociaż jest to bardzo ważny temat, aby warsztaty były skoncentrowane, zarządzanie schematami nie wchodzi w ich zakres.
Zarządzanie klastrem
Te warsztaty są dla deweloperów aplikacji klienckich, a nie dla operatorów klastrów Apache Kafka, czym zazwyczaj zajmuje się dedykowany zespół.
Kafka Security
Aby zachować ścisłe skupienie na wydajności aplikacji, odporności i zaawansowanych wzorcach projektowych, te warsztaty nie obejmują konfiguracji bezpieczeństwa. Zakłada się, że uczestnicy znają podstawowe ustawienia bezpieczeństwa wymagane do połączenia się z ich klastrami.
Kafka Streams
Kafka Streams jest częścią Kafka API od lat, ale jego użycie maleje na rzecz dedykowanych platform do Stream Processingu, takich jak Flink czy RisingWave. Ze względu na złożoność Kafka Streams, często przypadki użycia, które mogłyby być dobrym dopasowaniem, są zamiast tego implementowane przy użyciu standardowego Consumer API.
Wymagane podstawy
- Docker
- Java i podstawy Spring Boot
- Podstawy Apache Kafka
Prowadzący szkolenie:
Jan Siekierski
Programista Java i Kotlin z 10-letnim doświadczeniem, z czego 5 lat jako Tech Lead.
Pasjonat Data Streamingu na którym obecnie koncentruje się w całości. Inne obszary w których się specjalizuje to Architektura Event-Driven, Mikroserwisy, DDD oraz Enterprise Data Architecture.
Obecnie niezależny Konsultant, Trener i Twórca, publikujący głównie na platformie LinkedIn.
O szkoleniu w skrócie
Zarządzanie Schemami (Schema Management) jest krytycznym aspektem budowania złożonych ekosystemów Data Streaming. Zapewnia wydajność, przewidywalność i umożliwia zaawansowane integracje budowane na bazie Twoich strumieni danych. Jest to jednak często pomijane – ponieważ bez praktyki i wiedzy jest postrzegane jako dodające istotny narzut podczas dewelopmentu.
Te warsztaty są przeznaczone dla deweloperów, którzy już używają Kafki, ale albo nie używali Schem, albo mieli z nimi niewielki kontakt i chcą pogłębić swoje zrozumienie tematu. Obejmują zarówno podstawy, jak i zaawansowane tematy, które pomogą Ci stworzyć wydajny proces zarządzania Schemami, co przełoży się na płynny przepływ pracy i przewidywalną strukturę wiadomości w Topikach.
Szkolenie ma formę warsztatów z dwoma ćwiczeniami praktycznymi, które będą bardzo pomocne, jeśli chcesz zbudować lub ulepszyć sposób zarządzania Schemami w swoich projektach. Ze względu na intensywność warsztatów, nie będziemy budować wszystkiego od zera – nauczysz się, jak wygląda przepływ pracy w dojrzałym środowisku produkcyjnym. Zobaczysz jak wydajny może być ten proces i otrzymasz gotowy do użycia kod, który możesz wykorzystać.
Czego się nauczysz
- Jak działa Confluent Schema Registry
- Jak klienci Spring Boot Kafka serializują i deserializują wiadomości oraz używają Schema Registry
- Podstaw formatu serializacji Avro
- Jak mapować Schemy na Topiki i kiedy używać której strategii
- Jak używać Schem w Kafka Connect i Kafka REST Proxy
- Jak ewoluować swoje Schemy bez naruszania kompatybilności i jak wybrać Compatibility Type dla swoich Topików
- Jak zbudować dedykowane repozytorium Schem (Schema repository) i jak je zintegrować z Twoimi klientami i środowiskami Schema Registry
Co nie wchodzi w zakres
- Wdrażanie i utrzymywanie Schema Registry
- Zabezpieczanie Schema Registry
Technologie używane na warsztatach
- Confluent Schema Registry – istnieje wiele otwartych rejestrów Schem (schema registries) dla Kafki – ale Confluent Schema Registry jest najpopularniejszy i stanowi punkt odniesienia – większość alternatywnych rozwiązań implementuje API Confluent Schema Registry.
- Spring Boot – najpopularniejszy framework Java z doskonałą integracją zarówno z Kafką, jak i Schema Registry.
- Avro – najpopularniejszy format serializacji, więc będziemy go używać na otwartych warsztatach. Dedykowane warsztaty mogą być dostosowane do użycia Protobuf lub JsonSchema w ćwiczeniach.
Prowadzący szkolenie:
Jan Siekierski
Programista Java i Kotlin z 10-letnim doświadczeniem, z czego 5 lat jako Tech Lead.
Pasjonat Data Streamingu na którym obecnie koncentruje się w całości. Inne obszary w których się specjalizuje to Architektura Event-Driven, Mikroserwisy, DDD oraz Enterprise Data Architecture.
Obecnie niezależny Konsultant, Trener i Twórca, publikujący głównie na platformie LinkedIn.
Apache Kafka jest rozproszoną platformą służącą do strumieniowej wymiany danych pomiędzy różnymi systemami. Z Kafki korzystają takie firmy jak LinkedIn, Netflix, Uber, PayPal, Spotify, Airbnb oraz wiele innych.
Jej głównymi cechami są duża przepustowość, duża niezawodność oraz małe opóźnienia.
W ramach szkolenia stworzona zostanie aplikacja łącząca kilka źródeł danych, przetwarzająca je na różne sposoby i udostępniająca wyniki użytkownikowi. Aplikacja zostanie stworzona stopniowo, na podstawie kilkudziesięciu warsztatów o rosnącym stopniu zaawansowania. Podczas warsztatów przećwiczone zostaną różne scenariusze i techniki wysyłki, odbioru i przetwarzania danych z użyciem Kafki (z wykorzystaniem konsoli, Javy SE, SpringBoot), co w efekcie pozwoli na stworzenie ww. aplikacji.
Wymagania:
podstawowa znajomość Java, Git, Docker oraz systemu operacyjnego Linux
Prowadzący szkolenie:
Michał Schielmann
Jestem programistą z 12-sto letnim doświadczeniem, związanym głównie z ekosystemem
Javy, ale również Pythonem, bazami danych, zagadnienami DevOps (Docker, Kubernetes,
CI/CD pipelines) i frameworkami JavaScriptowymi.
Moja ścieżka kariery prowadziła mnie przez różne branże – od telekomunikacyjnej, przez
medyczną, bankową, do giełdy energii – dzięki czemu mogłem poznać wiele technologii i ich
zastosowań w poszczególnych obszarach.
Od kilku lat zaangażowany jestem w prowadzenie szkoleń i warsztatów, bo wierzę, że
najlepszym sposobem na naukę jest przekazywanie wiedzy innym.
Apache Spark
O szkoleniu w skrócie
To intensywne, praktyczne szkolenie wprowadzi Cię w realne zastosowania Apache Spark – jednego z najpotężniejszych silników obliczeniowych w świecie danych. Od podstaw aż po optymalizację – nauczysz się, jak efektywnie tworzyć, analizować i orkiestrwać potoki danych z użyciem PySpark i Spark SQL, pracując na rzeczywistej platformie Databricks. Wejdź na poziom Big Data i naucz się przetwarzać dane z prędkością błyskawicy.
Moduły szkolenia
👉 Moduł 1: Wprowadzenie do Big Data i Spark z użyciem PySpark
- Poznasz kluczowe wyzwania świata Big Data (5V) i zobaczysz, jak Spark radzi sobie z ogromnymi, różnorodnymi i zmiennymi danymi.
- Nauczysz się podstaw pracy z Apache Spark i jego strukturą rozproszoną.
- Otrzymasz solidne podstawy pracy z PySpark DataFrame API: withColumn, filter, select, join, cast, write.
- Zaczniesz pisać zapytania w Spark SQL, zarządzać tabelami, agregować dane i optymalizować transformacje.
- Poznasz środowisko Databricks – idealne do pracy z klastrami Spark w chmurze.
🔧 Warsztat: Praca z rzeczywistym zbiorem danych – tworzenie i manipulacja DataFrame'ami w PySparku, pierwsze transformacje i zapis wyników.
👉 Moduł 2: Projektowanie kodu sparkowego i budowa architektury danych
- Nauczysz się dobrych praktyk pracy z kodem PySpark – modularne notebooki, dbutils, parametryzacja, output notebooków.
- Rozszerzysz znajomość PySparka o pracę z strukturami zagnieżdżonymi (array, struct), kolekcjami i dynamicznymi kwerendami.
- Poznasz nowoczesne formaty danych: Parquet, JSON, Delta Lake – i nauczysz się, jak je czytać, zapisywać i konwertować w PySparku.
- Poznasz architekturę Medallion – podejście do logicznej organizacji danych w Spark Lakehouse.
🔧 Warsztat: Przekształcanie nieustrukturyzowanych danych w uporządkowaną formę – praktyka z DataFrame'ami i SQL Sparka.
👉 Moduł 3: Orkiestracja potoków danych Spark
- Nauczysz się zarządzać klastrami Spark – konfiguracje, typy instancji, dostępność i przydzielanie zasobów.
- Poznasz Databricks Workflows – sposób na automatyzację procesów Spark i zarządzanie cyklem życia danych.
- Nauczysz się projektować i uruchamiać złożone pipeline'y Sparkowe – od harmonogramowania po monitorowanie.
🔧 Warsztat: Automatyzacja i orkiestracja potoku danych z użyciem workflowów – od surowych danych po gotowe tabele Delta.
👉 Moduł 4: Dogłębna analiza działania Apache Spark
- Zrozumiesz wewnętrzne mechanizmy działania Sparka: Driver, Executor, DAG, Stage, Task.
- Nauczysz się świadomie używać transformacji i akcji PySparka – z uwzględnieniem kosztów obliczeniowych.
- Będziesz analizować i optymalizować fizyczne plany wykonania (explain(), Spark UI) oraz debugować błędy.
- Dowiesz się, jak monitorować klaster, wykrywać wąskie gardła i poprawiać wydajność kodu PySpark.
🔧 Warsztat: Diagnoza i optymalizacja rzeczywistych zapytań w PySparku – praktyka z logami, Spark UI i performance tuningiem.
💼 Dla kogo jest to szkolenie?
- Dla analityków, data engineerów i programistów chcących efektywnie pracować z PySpark i Spark SQL,
- Dla zespołów BI, które szukają skalowalnych rozwiązań do analizy danych,
- Dla każdego, kto chce opanować Apache Spark na praktycznym, produkcyjnym poziomie.
🚀 Co zyskasz?
- Zrozumiesz, jak działa Spark „pod maską” i jak pisać efektywny kod w PySparku,
- Zbudujesz potok danych od A do Z: od wczytania surowych danych, przez transformacje, po zapis w Delta Lake,
- Nauczysz się optymalizować, debugować i orkiestrwać zadania Sparkowe jak zawodowiec,
- Otrzymasz dostęp do notebooków, które możesz od razu wdrożyć u siebie.
🔥 Zamień miliony wierszy danych w milisekundy decyzji.
Zostań ekspertem od PySparka i wejdź na poziom Big Data z Apache Spark i Databricks!
Wymagania co do uczestnika
- Podstawowa znajomość SQL
- Podstawowa znajomość Pythona
- Podstawowa znajomość Git
- Założenie konta na GitHub
- Podstawowa znajomość technologii chmurowych nie jest obowiązkowa, ale przydatna
Terminy i definicje
System Rozproszony
System rozproszony to zbiór niezależnych komputerów lub urządzeń, które współpracują ze sobą poprzez sieć komputerową, tworząc logiczną całość. Każdy węzeł w systemie może działać niezależnie, ale wszystkie razem realizują wspólne cele.
Spark
Apache Spark to potężne, masowo skalowalne środowisko do przetwarzania danych, które umożliwia efektywne przetwarzanie dużych zbiorów danych w pamięci oraz na dysku. Jest podstawowym komponentem platformy Databricks.
Databricks
Databricks to platforma do zarządzania danymi, która łączy zalety systemów data lake i data warehouse. Wykorzystuje Apache Spark jako silnik przetwarzania i zapewnia scentralizowane środowisko do analizy danych, uczenia maszynowego i biznesowych zastosowań analitycznych.
Data Lake (jezioro danych)
Data Lake to centralne repozytorium danych przechowujące duże ilości danych w ich pierwotnej, surowej formie. W przeciwieństwie do tradycyjnych hurtowni danych, które wymagają uprzedniej strukturyzacji danych, data lake może przechowywać dane w dowolnym formacie, w tym: strukturyzowane, półstrukturyzowane i niestrukturyzowane.
Prowadzący szkolenie:
Dawid Grześków
Specjalista IT z pięcioletnim doświadczeniem w środowisku danowym. W swojej karierze przeszedłem przez budowanie narzędzi wewnętrznych, analitykę oraz tworzenie systemów raportowych. Aktualnie pracuję jako Inżynier Danych, gdzie Spark i Databricks stanowią moje główne narzędzia pracy.
Na co dzień pracuję z technologiami chmurowymi na platformie Azure. Programuję w Pythonie, SQL oraz Sparku. Tworzę modele, hurtownie oraz jeziora danych. Integruję rozwiązania DevOps z procesami biznesowymi. Tworzę zaplecza całych platform i rozwijam procesy integracyjne.
Projekty w których brałem udział to m.in.:
- Integracja przepływów danych wspierających mi.n. SAPa, procesy korporacyjne
- Budowanie jezior danych w celu scentralizowania zasobów przedsiębiorstwa
- Budowanie modeli analitycznych, które dotychczas były niemożliwe do zrealizowania bez Sparka.
- Wdrażanie rozwiązań DevOps/DataOps
Posiadam doświadczenie pracy w międzynarodowych firmach, gdzie wspierałem zespoły w przyswajaniu wiedzy procesowej oraz narzędziowej. Jako praktyk, wychodzę z założenia, że tylko praktyczne szkolenia dają satysfakcjonujące efekty.
Z takim założeniem stworzyłem również poniższy kurs.
O szkoleniu w skrócie
Szkolenie poświęcone jest Apache Spark - nowoczesnemu narzędziu do przetwarzania danych, wykorzystywanym przez czołowe firmy z Doliny Krzemowej. Szkolenie odbędzie się w oparciu o platformę Databricks, a jego głównym celem jest optymalizacja czasu wykonywania kodu, przy zachowaniu optymalnego kosztu korzystania z narzędzia. To dwudniowe szkolenie skupia się na przedstawieniu szeregu technik pozwalających zapewnić optymalne procesowania danych, przy jednoczesnym zachowaniu wysokiej czystości kodu.
Cel szkolenia
Praca z systemem Spark oraz platformą Databricks. Opanowanie praktycznych umiejętności niezbędnych do skutecznej realizacji projektów danowych w nowoczesnym środowisku, które kształtuje współczesne standardy w obszarze Big Data. Szkolenie uzupełnia wiedzę z zawartą w "Szkolenie Podstawowe Spark" kładąc nacisk na metody optymalizacji wydajności w procesowaniu danych.
Dla kogo przeznaczone jest szkolenie?
- Inżynierów Danych , którzy chcą pogłębić swoją wiedzę o Apache Spark, ze szczególnym naciskiem na optymalizację kodu
- Specjalistów Data Science , pragnących lepiej zrozumieć Apache Spark i nauczyć się samodzielnie optymalizować kod w celu zwiększenia wydajności swoich projektów
Gdzie użyjesz nabytej wiedzy?
- W codziennej pracy z Platformą Databricks oraz Sparkiem
- W projektach wymagających elastycznego podejścia pod kątem wykorzystywanych zasobów
- Przy budowaniu systemów analitycznych dla firmy
Czego się nauczysz?
- Optymalizacji kosztów i wydajności w chmurze - dzięki umiejętności efektywnego zarządzania zasobami Spark na platformie Databricks
- Optymalizacji egzekucji kodu - co pozwoli widocznie skrócić potrzebny do wykonania procesowania danych
- Efektywnego debugowania kodu - co pozwoli na ograniczenie błędów oraz ułatwi wprowadzenie nowej funkcjonalności
- Odnajdowania "wąskich gardeł" w procesie - na przykładach pokażę Ci jak odnajdywać operacje, które ograniczają zdolność i przepustowość całego programu
Wymagania co do uczestnika
- Podstawowa znajomość Sparka/Databricks; idealnie - uczestnictwo w poprzednim szkoleniu "Szkolenie Podstawowe Spark"
- Znajomość SQL
- Podstawowa znajomość Pythona
- Podstawowa znajomość Git
- Założenie konta na GitHub
- Podstawowa znajomość technologii chmurowych nie jest obowiązkowa, ale przydatna
Terminy i definicje
System Rozproszony
System rozproszony to zbiór niezależnych komputerów lub urządzeń, które współpracują ze sobą poprzez sieć komputerową, tworząc logiczną całość. Każdy węzeł w systemie może działać niezależnie, ale wszystkie razem realizują wspólne cele.
Spark
Apache Spark to potężne, masowo skalowalne środowisko do przetwarzania danych, które umożliwia efektywne przetwarzanie dużych zbiorów danych w pamięci oraz na dysku. Jest podstawowym komponentem platformy Databricks.
Databricks
Databricks to platforma do zarządzania danymi, która łączy zalety systemów data lake i data warehouse. Wykorzystuje Apache Spark jako silnik przetwarzania i zapewnia scentralizowane środowisko do analizy danych, uczenia maszynowego i biznesowych zastosowań analitycznych.
Data Lake (jezioro danych)
Data Lake to centralne repozytorium danych przechowujące duże ilości danych w ich pierwotnej, surowej formie. W przeciwieństwie do tradycyjnych hurtowni danych, które wymagają uprzedniej strukturyzacji danych, data lake może przechowywać dane w dowolnym formacie, w tym: strukturyzowane, półstrukturyzowane i niestrukturyzowane.
DAG (Directed Acyclic Graph)
W Spark to podstawowa koncepcja reprezentująca plan wykonania zadania. Jest to graf operacji które, są wykonywane w określonej kolejności, jednocześnie nie zawiera cykli ani pętli w planie wykonania.W Apache Spark DAG składa się z zestawu Jobów, Stagów oraz Tasków.
Prowadzący szkolenie:
Dawid Grześków
Specjalista IT z pięcioletnim doświadczeniem w środowisku danowym. W swojej karierze przeszedłem przez budowanie narzędzi wewnętrznych, analitykę oraz tworzenie systemów raportowych. Aktualnie pracuje jako Inżynier Danych, gdzie Spark i Databricks stanowią moje główne narzędzia pracy.
Na co dzień pracuje z technologiami chmurowymi na platformie Azure. Programuje w Pythonie, SQL oraz Sparku. Tworzę modele, hurtownie oraz jeziora danych. Integruję rozwiązania DevOps z procesami biznesowymi. Tworzę zaplecza całych platform i rozwijam procesy integracyjne.
Projekty w których brałem udział to m.in.:
- Integracja przepływów danych wspierających mi.n. SAPa, procesy korporacyjne
- Budowanie jezior danych w celu scentralizowania zasobów przedsiębiorstwa
- Budowanie modeli analitycznych, które dotychczas były niemożliwe do zrealizowania bez Sparka.
- Wdrażanie rozwiązań DevOps/DataOps
Posiadam doświadczenie pracy w międzynarodowych firmach, gdzie wspierałem zespoły w przyswajaniu wiedzy procesowej oraz narzędziowej. Jako praktyk, wychodzę z założenia, że tylko praktyczne szkolenia dają satysfakcjonujące efekty.
Z takim założeniem stworzyłem również poniższy kurs.
Snowflake
O szkoleniu w skrócie
Na szkoleniu uczestnicy poznają Snowflake od podstaw. Poprzez zrozumienie architektury i sposobu działania uczestnicy będą potrafili podjąć świadomą decyzję o implementacji rozwiązania w swojej instytucji. Szkolenie zapewnia nie tylko solidne i holistyczne zrozumienie Snowflake, ale również warsztaty, które pozwolą poznać potencjał tego narzędzia oraz nauczą wykorzystywać Snowflake w środowisku produkcyjnym.
Po szkoleniu kursant będzie przygotowany do wdrożenia i świadomej pracy ze Snowflake wykorzystując atuty tej platformy.
Na szkoleniu celowo nie będziemy przechodzić przed podstawy SQL, by skoncentrować się na samej platformie Snowflake, także znajomość tego języka jest konieczną umiejętnością by w pełni wykorzystać potencjał szkolenia.
Prowadzący szkolenie:
Przemysław Starosta
Absolwent Uniwersytetu im. Adama Mickiewicza, Politechniki Poznańskiej i Wyższej Szkoły Bankowej. Właściciel firmy informatycznej, kierownik projektów, programista baz danych i wykładowca na Collegium da Vinci w Poznaniu. Specjalista z zakresu baz danych Oracle, SQL Server i PostgreSQL oraz procesów ETL. Programista C#. Pasjonat edukacji i analizy danych oraz możliwości biznesowych, które one odkrywają. Trener z ponad 10-letnim doświadczeniem. Na szkoleniach praktykuje zasadę: learning by doing – uczenie przez robienie. Prelegent SQL Day oraz Warszawskich Dni Informatyki. Prywatnie fan FC Barcelony oraz mieszanych sztuk walki.
Trenerzy kategorii Big Data
Michał Schielmann
Michał Schielmann
Jestem programistą z 12-sto letnim doświadczeniem, związanym głównie z ekosystemem Javy, ale również Pythonem, bazami danych, zagadnienami DevOps (Docker, Kubernetes, CI/CD pipelines) i frameworkami JavaScriptowymi. Moja ścieżka kariery prowadziła mnie przez różne branże – od telekomunikacyjnej, przez medyczną, bankową, do giełdy energii – dzięki czemu mogłem poznać wiele technologii i ich zastosowań w poszczególnych obszarach. Od kilku lat zaangażowany jestem w prowadzenie szkoleń i warsztatów, bo wierzę, że najlepszym sposobem na naukę jest przekazywanie wiedzy innym.
Dawid Grześków
Dawid Grześków
Specjalista IT z pięcioletnim doświadczeniem w środowisku danowym. W swojej karierze przeszedłem przez budowanie narzędzi wewnętrznych, analitykę oraz tworzenie systemów raportowych. Aktualnie pracuje jako Inżynier Danych, gdzie Spark i Databricks stanowią moje główne narzędzia pracy.
Na co dzień pracuje z technologiami chmurowymi na platformie Azure. Programuje w Pythonie, SQL oraz Sparku. Tworzę modele, hurtownie oraz jeziora danych. Integruję rozwiązania DevOps z procesami biznesowymi. Tworzę zaplecza całych platform i rozwijam procesy integracyjne.
Projekty w których brałem udział to m.in.:
- Integracja przepływów danych wspierających mi.n. SAPa, procesy korporacyjne
- Budowanie jezior danych w celu scentralizowania zasobów przedsiębiorstwa
- Budowanie modeli analitycznych, które dotychczas były niemożliwe do zrealizowania bez Sparka.
- Wdrażanie rozwiązań DevOps/DataOps
Posiadam doświadczenie pracy w międzynarodowych firmach, gdzie wspierałem zespoły w przyswajaniu wiedzy procesowej oraz narzędziowej. Jako praktyk, wychodzę z założenia, że tylko praktyczne szkolenia dają satysfakcjonujące efekty.
Jan Siekierski
Jan Siekierski
Programista Java i Kotlin z 10-letnim doświadczeniem, z czego 5 lat jako Tech Lead.
Pasjonat Data Streamingu na którym obecnie koncentruje się w całości. Inne obszary w których się specjalizuje to Architektura Event-Driven, Mikroserwisy, DDD oraz Enterprise Data Architecture.
Obecnie niezależny Konsultant, Trener i Twórca, publikujący głównie na platformie LinkedIn.