Szkolenia Big Data

Chcąc wyjść naprzeciw wyzwaniu jakie stawia dzisiejszemu rynkowi IT coraz większa ilość danych które gromadzimy i konieczność ich efektywnego wykorzystania, opracowaliśmy dla Państwa szereg szkoleń mając na celu pomoc w budowaniu kompetencji niezbędnych do pracy w projektach Big Data.
Terminy gwarantowane
1 termin gwarantowany?
Standardy JSystems
- Wszyscy nasi trenerzy muszą być praktykami i osiągać średnią z ankiet minimum 4.75 na 5. Nie ma wśród nas trenerów-teoretyków. Każdy trener JSystems ma bogate doświadczenie komercyjne w zakresie tematów z których prowadzi szkolenia.
- Wszystkie szkolenia mają format warszatowy. Każde zagadnienie teoretyczne jest poparte rzędem warsztatów w ściśle określonym formacie.
- Terminy gwarantowane na 100%. Jeśli jakiś termin jest oznaczony jako gwarantowany, oznacza to że odbędzie się nawet jeśli część grupy wycofa się z udziału. Ryzyko ponosimy my jako organizator.
- Do każdego szkolenia które wymaga jakiegokolwiek oprogramowania dostarczamy skonfigurowane, gotowe hosty w chmurze. Dzięki temu uczestnik nie musi nic instalować na swoim komputerze (i bić się z blokadami korporacyjnymi). Połączenie następuje przez zdalny pulpit lub SSH - w zależności od szkolenia.
Apache Spark
O szkoleniu w skrócie
Szkolenie poświęcone jest Apache Spark - nowoczesnemu narzędziu do przetwarzania danych, wykorzystywanym przez czołowe firmy z Doliny Krzemowej.
Uczestnicy szkolenia zapoznają się z platformą Databricks, nauczą się tworzyć pipeline"y ETL w Spark SQL i PySpark oraz efektywnie przetwarzać różnorodne typy danych.
Program obejmuje najlepsze praktyki programistyczne, które usprawnią codzienną pracę z danymi. To kompleksowe szkolenie dostarczające praktycznej wiedzy i umiejętności kluczowych w pracy z dużymi zbiorami danych.
Cel szkolenia
Praca z systemem Spark oraz platformą Databricks. Opanowanie praktycznych umiejętności niezbędnych do skutecznej realizacji projektów danowych w nowoczesnym środowisku, które kształtuje współczesne standardy w obszarze Big Data.
Dla kogo przeznaczone jest szkolenie?
- Analityków Danych , którzy chcą podnieść swoje umiejętności w zakresie pracy z danymi i rozszerzyć możliwości kariery
- Inżynierów Danych , pragnących uzupełnić wiedzę na temat Databricks. Szkolenie szczególnie przyda się osobom znającym już podobne rozwiązania, takie jak Snowflake czy Microsoft Fabric
- Programistów , którzy postanowili zostać Inżynierami Danych
- Data Science , którzy chcą opanować Sparka i wykorzystywać go w projektach
Gdzie użyjesz nabytej wiedzy?
- W codziennej pracy z Platformą Databricks oraz Sparkiem
- W projektach wymagających elastycznego podejścia pod kątem wykorzystywanych zasobów
- Przy budowaniu systemów analitycznych dla firmy
Czego się nauczysz?
- Budowy i optymalizacji pipeline"ów danych (ELT/ETL) - automatyzacja procesów przetwarzania danych od surowych plików po gotowe zestawy do analizy.
- Analizy dużych zbiorów danych - efektywnego przetwarzanie i analizy milionów rekordów przy użyciu Sparka, zarówno w SQL, jak i Pythonie.
- Tworzenia systemów raportowania i dashboardów - integracji przetworzonych danych z narzędziami analitycznymi, takimi jak Power BI, Tableau.
- Integracji danych z różnych źródeł - łączenia danych z baz relacyjnych, plików CSV, Parquet, systemów chmurowych (Azure, AWS, GCP).
- Przygotowania danych do analiz i uczenia maszynowego - oczyszczanie, transformacja i formatowanie danych w sposób umożliwiający ich wykorzystanie w modelach machine learning.
- Optymalizacji kosztów i wydajności w chmurze - dzięki umiejętności efektywnego zarządzania zasobami Spark na platformie Databricks.
Wymagania co do uczestnika
- Podstawowa znajomość SQL
- Podstawowa znajomość Pythona
- Podstawowa znajomość Git
- Założenie konta na GitHub
- Podstawowa znajomość technologii chmurowych nie jest obowiązkowa, ale przydatna
Terminy i definicje
System Rozproszony
System rozproszony to zbiór niezależnych komputerów lub urządzeń, które współpracują ze sobą poprzez sieć komputerową, tworząc logiczną całość. Każdy węzeł w systemie może działać niezależnie, ale wszystkie razem realizują wspólne cele.
Spark
Apache Spark to potężne, masowo skalowalne środowisko do przetwarzania danych, które umożliwia efektywne przetwarzanie dużych zbiorów danych w pamięci oraz na dysku. Jest podstawowym komponentem platformy Databricks.
Databricks
Databricks to platforma do zarządzania danymi, która łączy zalety systemów data lake i data warehouse. Wykorzystuje Apache Spark jako silnik przetwarzania i zapewnia scentralizowane środowisko do analizy danych, uczenia maszynowego i biznesowych zastosowań analitycznych.
Data Lake (jezioro danych)
Data Lake to centralne repozytorium danych przechowujące duże ilości danych w ich pierwotnej, surowej formie. W przeciwieństwie do tradycyjnych hurtowni danych, które wymagają uprzedniej strukturyzacji danych, data lake może przechowywać dane w dowolnym formacie, w tym: strukturyzowane, półstrukturyzowane i niestrukturyzowane.
Prowadzący szkolenie:
Dawid Grześków
Specjalista IT z pięcioletnim doświadczeniem w środowisku danowym. W swojej karierze przeszedłem przez budowanie narzędzi wewnętrznych, analitykę oraz tworzenie systemów raportowych. Aktualnie pracuję jako Inżynier Danych, gdzie Spark i Databricks stanowią moje główne narzędzia pracy.
Na co dzień pracuję z technologiami chmurowymi na platformie Azure. Programuję w Pythonie, SQL oraz Sparku. Tworzę modele, hurtownie oraz jeziora danych. Integruję rozwiązania DevOps z procesami biznesowymi. Tworzę zaplecza całych platform i rozwijam procesy integracyjne.
Projekty w których brałem udział to m.in.:
- Integracja przepływów danych wspierających mi.n. SAPa, procesy korporacyjne
- Budowanie jezior danych w celu scentralizowania zasobów przedsiębiorstwa
- Budowanie modeli analitycznych, które dotychczas były niemożliwe do zrealizowania bez Sparka.
- Wdrażanie rozwiązań DevOps/DataOps
Posiadam doświadczenie pracy w międzynarodowych firmach, gdzie wspierałem zespoły w przyswajaniu wiedzy procesowej oraz narzędziowej. Jako praktyk, wychodzę z założenia, że tylko praktyczne szkolenia dają satysfakcjonujące efekty.
Z takim założeniem stworzyłem również poniższy kurs.

O szkoleniu w skrócie
Szkolenie poświęcone jest Apache Spark - nowoczesnemu narzędziu do przetwarzania danych, wykorzystywanym przez czołowe firmy z Doliny Krzemowej. Szkolenie odbędzie się w oparciu o platformę Databricks, a jego głównym celem jest optymalizacja czasu wykonywania kodu, przy zachowaniu optymalnego kosztu korzystania z narzędzia. To dwudniowe szkolenie skupia się na przedstawieniu szeregu technik pozwalających zapewnić optymalne procesowania danych, przy jednoczesnym zachowaniu wysokiej czystości kodu.
Cel szkolenia
Praca z systemem Spark oraz platformą Databricks. Opanowanie praktycznych umiejętności niezbędnych do skutecznej realizacji projektów danowych w nowoczesnym środowisku, które kształtuje współczesne standardy w obszarze Big Data. Szkolenie uzupełnia wiedzę z zawartą w "Szkolenie Podstawowe Spark" kładąc nacisk na metody optymalizacji wydajności w procesowaniu danych.
Dla kogo przeznaczone jest szkolenie?
- Inżynierów Danych , którzy chcą pogłębić swoją wiedzę o Apache Spark, ze szczególnym naciskiem na optymalizację kodu
- Specjalistów Data Science , pragnących lepiej zrozumieć Apache Spark i nauczyć się samodzielnie optymalizować kod w celu zwiększenia wydajności swoich projektów
Gdzie użyjesz nabytej wiedzy?
- W codziennej pracy z Platformą Databricks oraz Sparkiem
- W projektach wymagających elastycznego podejścia pod kątem wykorzystywanych zasobów
- Przy budowaniu systemów analitycznych dla firmy
Czego się nauczysz?
- Optymalizacji kosztów i wydajności w chmurze - dzięki umiejętności efektywnego zarządzania zasobami Spark na platformie Databricks
- Optymalizacji egzekucji kodu - co pozwoli widocznie skrócić potrzebny do wykonania procesowania danych
- Efektywnego debugowania kodu - co pozwoli na ograniczenie błędów oraz ułatwi wprowadzenie nowej funkcjonalności
- Odnajdowania "wąskich gardeł" w procesie - na przykładach pokażę Ci jak odnajdywać operacje, które ograniczają zdolność i przepustowość całego programu
Wymagania co do uczestnika
- Podstawowa znajomość Sparka/Databricks; idealnie - uczestnictwo w poprzednim szkoleniu "Szkolenie Podstawowe Spark"
- Znajomość SQL
- Podstawowa znajomość Pythona
- Podstawowa znajomość Git
- Założenie konta na GitHub
- Podstawowa znajomość technologii chmurowych nie jest obowiązkowa, ale przydatna
Terminy i definicje
System Rozproszony
System rozproszony to zbiór niezależnych komputerów lub urządzeń, które współpracują ze sobą poprzez sieć komputerową, tworząc logiczną całość. Każdy węzeł w systemie może działać niezależnie, ale wszystkie razem realizują wspólne cele.
Spark
Apache Spark to potężne, masowo skalowalne środowisko do przetwarzania danych, które umożliwia efektywne przetwarzanie dużych zbiorów danych w pamięci oraz na dysku. Jest podstawowym komponentem platformy Databricks.
Databricks
Databricks to platforma do zarządzania danymi, która łączy zalety systemów data lake i data warehouse. Wykorzystuje Apache Spark jako silnik przetwarzania i zapewnia scentralizowane środowisko do analizy danych, uczenia maszynowego i biznesowych zastosowań analitycznych.
Data Lake (jezioro danych)
Data Lake to centralne repozytorium danych przechowujące duże ilości danych w ich pierwotnej, surowej formie. W przeciwieństwie do tradycyjnych hurtowni danych, które wymagają uprzedniej strukturyzacji danych, data lake może przechowywać dane w dowolnym formacie, w tym: strukturyzowane, półstrukturyzowane i niestrukturyzowane.
DAG (Directed Acyclic Graph)
W Spark to podstawowa koncepcja reprezentująca plan wykonania zadania. Jest to graf operacji które, są wykonywane w określonej kolejności, jednocześnie nie zawiera cykli ani pętli w planie wykonania.W Apache Spark DAG składa się z zestawu Jobów, Stagów oraz Tasków.
Prowadzący szkolenie:
Dawid Grześków
Specjalista IT z pięcioletnim doświadczeniem w środowisku danowym. W swojej karierze przeszedłem przez budowanie narzędzi wewnętrznych, analitykę oraz tworzenie systemów raportowych. Aktualnie pracuje jako Inżynier Danych, gdzie Spark i Databricks stanowią moje główne narzędzia pracy.
Na co dzień pracuje z technologiami chmurowymi na platformie Azure. Programuje w Pythonie, SQL oraz Sparku. Tworzę modele, hurtownie oraz jeziora danych. Integruję rozwiązania DevOps z procesami biznesowymi. Tworzę zaplecza całych platform i rozwijam procesy integracyjne.
Projekty w których brałem udział to m.in.:
- Integracja przepływów danych wspierających mi.n. SAPa, procesy korporacyjne
- Budowanie jezior danych w celu scentralizowania zasobów przedsiębiorstwa
- Budowanie modeli analitycznych, które dotychczas były niemożliwe do zrealizowania bez Sparka.
- Wdrażanie rozwiązań DevOps/DataOps
Posiadam doświadczenie pracy w międzynarodowych firmach, gdzie wspierałem zespoły w przyswajaniu wiedzy procesowej oraz narzędziowej. Jako praktyk, wychodzę z założenia, że tylko praktyczne szkolenia dają satysfakcjonujące efekty.
Z takim założeniem stworzyłem również poniższy kurs.
Platforma Apache Hadoop


O szkoleniu w skrócie
Techniczne 5cio dniowe wprowadzenie do zagadnień Big Data. Szkolenie ma na celu wprowadzenie osób nie mających styczności z Big Data do tej tematyki. Zawiera przegląd najpopularniejszych narzędzi wykorzystywanych w Big Data z uwzględnieniem ich praktycznych zastosowań.
Każdy wykład poparty jest ćwiczeniami praktycznymi. Szkolenie ze względu na swój praktyczny charakter odbywa się w małych grupach i jest prowadzone przez praktyków z wieloletnim doświadczeniem.Podczas szkolenia zostanie pokazane realne wykorzystanie prezentowanych technologii.
Dla kogo?
Dla bazodanowców, administratorów, programistów. Uczestnik powinien znać podstawy baz danych. Szkolenie przeznaczone jest dla osób mających doświadczenie w IT. Ze względu na warsztatową część wymagana jest znajomość podstaw SQL.Apache Kafka
Apache Kafka jest rozproszoną platformą służącą do strumieniowej wymiany danych pomiędzy różnymi systemami. Z Kafki korzystają takie firmy jak LinkedIn, Netflix, Uber, PayPal, Spotify, Airbnb oraz wiele innych.
Jej głównymi cechami są duża przepustowość, duża niezawodność oraz małe opóźnienia.
W ramach szkolenia stworzona zostanie aplikacja łącząca kilka źródeł danych, przetwarzająca je na różne sposoby i udostępniająca wyniki użytkownikowi. Aplikacja zostanie stworzona stopniowo, na podstawie kilkudziesięciu warsztatów o rosnącym stopniu zaawansowania. Podczas warsztatów przećwiczone zostaną różne scenariusze i techniki wysyłki, odbioru i przetwarzania danych z użyciem Kafki (z wykorzystaniem konsoli, Javy SE, SpringBoot), co w efekcie pozwoli na stworzenie ww. aplikacji.
Wymagania:
podstawowa znajomość Java, Git, Docker oraz systemu operacyjnego Linux
Prowadzący szkolenie:
Michał Schielmann
Jestem programistą z 12-sto letnim doświadczeniem, związanym głównie z ekosystemem
Javy, ale również Pythonem, bazami danych, zagadnienami DevOps (Docker, Kubernetes,
CI/CD pipelines) i frameworkami JavaScriptowymi.
Moja ścieżka kariery prowadziła mnie przez różne branże – od telekomunikacyjnej, przez
medyczną, bankową, do giełdy energii – dzięki czemu mogłem poznać wiele technologii i ich
zastosowań w poszczególnych obszarach.
Od kilku lat zaangażowany jestem w prowadzenie szkoleń i warsztatów, bo wierzę, że
najlepszym sposobem na naukę jest przekazywanie wiedzy innym.
Snowflake
Na szkoleniu uczestnicy poznają Snowflake od podstaw. Poprzez zrozumienie architektury i sposobu działania uczestnicy będą potrafili podjąć świadomą decyzję o implementacji rozwiązania w swojej instytucji. Szkolenie zapewnia nie tylko solidne i holistyczne zrozumienie Snowflake, ale również warsztaty, które pozwolą poznać potencjał tego narzędzia oraz nauczą wykorzystywać Snowflake w środowisku produkcyjnym.
Po szkoleniu kursant będzie przygotowany do wdrożenia i świadomej pracy ze Snowflake wykorzystując atuty tej platformy.
Na szkoleniu celowo nie będziemy przechodzić przed podstawy SQL, by skoncentrować się na samej platformie Snowflake, także znajomość tego języka jest konieczną umiejętnością by w pełni wykorzystać potencjał szkolenia.
Prowadzący szkolenie:
Przemysław Starosta
Absolwent Uniwersytetu im. Adama Mickiewicza, Politechniki Poznańskiej i Wyższej Szkoły Bankowej. Właściciel firmy informatycznej, kierownik projektów, programista baz danych i wykładowca na Collegium da Vinci w Poznaniu. Specjalista z zakresu baz danych Oracle, SQL Server i PostgreSQL oraz procesów ETL. Programista C#. Pasjonat edukacji i analizy danych oraz możliwości biznesowych, które one odkrywają. Trener z ponad 10-letnim doświadczeniem. Na szkoleniach praktykuje zasadę: learning by doing – uczenie przez robienie. Prelegent SQL Day oraz Warszawskich Dni Informatyki. Prywatnie fan FC Barcelony oraz mieszanych sztuk walki.
Trenerzy kategorii Big Data


Jestem programistą z 12-sto letnim doświadczeniem, związanym głównie z ekosystemem Javy, ale również Pythonem, bazami danych, zagadnienami DevOps (Docker, Kubernetes, CI/CD pipelines) i frameworkami JavaScriptowymi. Moja ścieżka kariery prowadziła mnie przez różne branże – od telekomunikacyjnej, przez medyczną, bankową, do giełdy energii – dzięki czemu mogłem poznać wiele technologii i ich zastosowań w poszczególnych obszarach. Od kilku lat zaangażowany jestem w prowadzenie szkoleń i warsztatów, bo wierzę, że najlepszym sposobem na naukę jest przekazywanie wiedzy innym.


Specjalista IT z pięcioletnim doświadczeniem w środowisku danowym. W swojej karierze przeszedłem przez budowanie narzędzi wewnętrznych, analitykę oraz tworzenie systemów raportowych. Aktualnie pracuje jako Inżynier Danych, gdzie Spark i Databricks stanowią moje główne narzędzia pracy.
Na co dzień pracuje z technologiami chmurowymi na platformie Azure. Programuje w Pythonie, SQL oraz Sparku. Tworzę modele, hurtownie oraz jeziora danych. Integruję rozwiązania DevOps z procesami biznesowymi. Tworzę zaplecza całych platform i rozwijam procesy integracyjne.
Projekty w których brałem udział to m.in.:
- Integracja przepływów danych wspierających mi.n. SAPa, procesy korporacyjne
- Budowanie jezior danych w celu scentralizowania zasobów przedsiębiorstwa
- Budowanie modeli analitycznych, które dotychczas były niemożliwe do zrealizowania bez Sparka.
- Wdrażanie rozwiązań DevOps/DataOps
Posiadam doświadczenie pracy w międzynarodowych firmach, gdzie wspierałem zespoły w przyswajaniu wiedzy procesowej oraz narzędziowej. Jako praktyk, wychodzę z założenia, że tylko praktyczne szkolenia dają satysfakcjonujące efekty.