PySpark - rozproszone przetwarzanie danych w Sparku za pomocą Pythona

Czas trwania
2
dni
Najbliższe terminy tego szkolenia
Cena szkolenia
1799 PLN
(netto)
Skuteczność
Program szkolenia
- Wprowadzenie
- Gdzie oraz jak wykorzystujemy Sparka
- Rozproszone przetwarzanie danych
- Data set oraz data frame
- Transformacje
- Akcje
- Formaty danych
- Jak wczytać dane w pySparku?
- Schemat danych
- Spark SQL
- Warsztat
- Podstawowe operacje
- Wyświetlanie danych
- Selekcja danych
- Opracje na kolumnach
- Filtrowanie wierszy
- Warsztat
- Jak dane zapisać w pySparku?
- Partycjonowanie danych
- Integracja z Hive
- Warsztat
- Podstawowe przetwarzanie danych
- Agregacja danych
- Łączenie zbiorów danych
- Własne funkcje w pySparku
- Warsztat
Opis szkolenia
Szkolenie odbywa się na żywo z udziałem trenera. Nie jest to forma kursu video!Szybki kurs wprowadzający do świata pySpark - czyli jak wykorzystać moc rozproszonego przetwarzania danych w Sparku za pomocą Pythona
Wymagane: podstawowa znajomość SQL, podstawowa znajomość Pythona
Teoria 40% / Praktyka 60%
Trenerzy kategorii Python



