Analiza danych z wykorzystaniem R – kurs zaawansowany

Opis szkolenia

    Po ukończeniu tego szkolenia uczestnik będzie potrafił:
    • korzystać ze służących do przekształcania danych pakietów z rodziny tidyverse: dplyr, tidyr i reshape2
    • optymalizować organizację własnej pracy i tempo przetwarzania danych
    • tworzyć własne pakiety w R
    • korzystać z repozytorium GitHub
    • optymalizować prace programistyczną w zespole
    • tworzyć własne repozytoria kody
    • zarządzać współpracą z serwerem
    • sprawnie programować w środowisku serwerowym

Warunki uczestnictwa

Szkolenie skierowane jest do osób znających język R na poziomie średniozaawansowanym, poszukujących praktycznej wiedzy dotyczącej efektywnego przetwarzania danych w tym języku. Dobrym wstępem do szkolenia jest kurs „Analiza danych z wykorzystaniem R – kurs średniozaawansowany”, oferowany również w module szkoleń „Data Science z wykorzystaniem R”. W trakcie szkolenia, uczestnicy nie tylko poznają sposoby efektywnej pracy z danymi za pomocą branżowych pakietów, ale także posiądą wiedzę z dziedziny optymalizacji wykonywanych operacji i ich szczegółowego działania od strony serwera obliczeniowego. Co więcej, na szkoleniu uczestnicy dowiedzą się także, w jaki sposób tworzyć pakiety w języku R i jak dzielić się nimi ze szeroko pojętym środowiskiem data science za pomocą repozytoriów kodu GitHub/GitLab.

Terminy gwarantowane

Jeśli jakiś termin oznaczony jest jako gwarantowany to oznacza to że na 100% się odbędzie we wskazanym czasie i miejscu.
Więcej

Szkolenia online i udział online

Szkolenia online odbywają się na żywo z udziałem trenera. Grupy są równie nieliczne jak przy tradycyjnych stacjonarnych szkoleniach w JSystems i liczą zwykle 7-9 osób. W każdym szkoleniu stacjonarnym możesz brać udział online.
Więcej

Inne szkolenia tej kategorii

W ramach kategorii Język R mamy jeszcze wiele szkoleń. Sprawdź jakie!

Vouchery

Istnieje możliwość wykupienia vouchera z roczną ważnością. Można zakupić przedpłaconą usługę szkoleniową w jednym okresie rozliczeniowym, a zrealizować w innym.

Więcej
Szkolenie stacjonarne 1500,00 PLN (netto)
Udział online 1200,00 PLN (netto)
Czas trwania 3 dni

Czy wiesz, że możemy takie szkolenie zorganizować specjalnie dla Twojej firmy?

Dowiedz się więcej

Czego się nauczysz?

  1. Wprowadzenie
    • różnice pomiędzy klasycznym podejściem do pracy z danymi (base), a wykorzystywaniem pakietów specjalistycznych (tidyverse, dplyr), porównanie wad i zalet każdej z obranych metod
    • „domowa” praca nad skryptami, a pisanie ich pod specjalistyczne przypadki obliczeniowe – odpowiednia etyka pisania skryptów, skupienie się na kontroli przebiegu rozwiązań i ich debugowania
    • własne pakiety w R – dlaczego są ważne w środowisku data science, potencjalne problemy, które można napotkać w trakcie ich tworzenia, a także dobre praktyki przy ich tworzeniu
    • współpraca zespołowa – wyjaśnienie standardów wspólnej pracy nad problemami analitycznymi, dzielenie się wynikami własnej pracy ze światem, szukanie pomocy od bardziej doświadczonych badaczy
    • profesjonalne zarządzanie pakietami – dlaczego automatyczne testy i deployment pakietów jest ważny, w jaki sposób manualnie tworzone repozytoria mogą ułatwiać pracę data scientistów na co dzień
    • praca na środowisku obliczeniowym – rozróżnienie od pracy na komputerze lokalnym, dobre praktyki zarządzania zasobami na serwerze i przydatnych instrukcji w terminalu na codzień
    • dobre książki i kursy do nauki R i Data Science
  2. Efektywna praca z danymi
    • pakiet dplyr – przetwarzanie zbiorów
      • podstawy pakietu (wybór zmiennych, filtrowanie, sortowanie): funkcje select(), filter(), arrange(), mutate(), rename()
      • funkcje przydatne w codziennej pracy: użycie pipe’ów (%>%), starts_with(), ends_with(), top_n(), distinct()
      • grupowanie i podsumowywanie danych: group_by(), summarize(), ungroup()
      • łączenie zbiorów: left_join(), inner_join(), right_join()
      • zaawansowane aspekty pracy z pakietem i dobre praktyki:
        • wektoryzacja funkcji i opieranie ich na zmiennych
        • warunkowe tworzenie zmiennych (mutate if_else)
        • ograniczenia funkcji z bazwoej wersji R (base) w dplyr
        • kiedy lepiej używać base zamiast dplyr
        • kiedy lepiej używać dplyr zamiast base
    • pakiety tidyr i reshape2 – modelowanie zbiorów
      • rozdzielanie zbioru na podstawie wartości: tidyr::separate(), tidyr::spread()
      • łączenie zbioru na podstawie zmiennej: tidyr::gather()
      • zmiana wymiarów zbioru na podstawie jego kluczowych cech: reshape2::melt(), reshape2::dcast()
    • efektywne łączenie funkcji z pakietów dplyr, tidyr i reshape2
  3. Optymalizacja pracy ze skryptami
    • szybsze pętle for – instrukcje z rodziny apply, użycie pakietu purr (map) i broom
    • wielowątkowe obliczenia – biblioteka parallel
    • debugowanie pracy pętli: tryCatch(), stop(), warning(), print(), cat()
    • inne metody optymalizacji obliczeniowej:
      • wykonywanie tylko niezbędnych obliczeń
      • redukcja powtórzeń
      • optymalizacja sprzętowa operacji
      • odpowiednie wykorzystywanie zasobów serwerowych
  4. Tworzenie własnych pakietów w R
    • pakiet devtools – tworzenie pakietów
      • filozofia, źródła informacji, książka Hadleya Wickhama
      • podstawowa struktura pakietów: pliki DESCRIPTION, NEWS, README, R
      • funkcje przydatne w procesie tworzenia pakietów: devtools::create(), devtools::build(), devtools::check()
      • funkcje przydatne w przypadku instalacji pakietów z różnych źródeł: load_all(), install_local(), install_github()
    • pakiety roxygen2 i bookdown – dokumentacja pakietów
      • logika struktury lokalnej dokumentacji pakietów: folder man, pozczególne zapisy
      • tworzenie dokumentacji lokalnej za pomocą funckji roxygenize(), wywoływanie, edycja
      • tworzenie dokumentacji online za pomocą pakietu bookdown: folder docs, wygląd, sposób działania
    • pakiety testthat i lintr – testowanie pakietów
      • tworzenie testów jednostkowych – pakiet testthat i folder tests
      • tworzenie testów struktury kodu – pakiet lintr
  5. Współpraca zespołowa – GitLab / GitHub
    • filozofia świata open-source, logika i struktura repozytoriów
    • podstawowe komendy przydatne w pracy z gitem: init, push, pull, status, commit
    • dzielenie projektu na części i praca w zespole: branch, merge requests, fetch, stash, pop
  6. Profesjonalna praca nad projektami
    • struktura repozytoriów typu CRAN, tworzenie repozytorium lokalnego i serwerowego
    • proces git flow, code review, zgłaszania komentarzy do kodu, nanoszenia poprawek, tagowania wersji pakietów
    • automatyczne testowanie i deployment kodu
      • procesy GitLab CI/CD
      • tworzenie pliku gitlab-ci.yml
      • dockeryzowanie środowiska
      • dostarczanie gotowego pakietu do repozytorium
  7. Codzienna praca na środowisku serwerowym (Rstudio Server) od strony serwera obliczeniowego
    • zapoznanie z praktycznymi narzędziami: terminator, tmux, kitty
    • podstawowe instrukcje języka poleceń: pwd, cp, mv, ls, ps aux
    • instrukcje przydatne w codziennej pracy: screen, scp, kill
    • narzędzia wspomagające pracę: htop, ncdu, mc, stat, nano, vim, cron
  8. Podsumowanie
    • zapoznanie z praktycznymi narzędziami: terminator, tmux, kitty
    • podstawowe instrukcje języka poleceń: pwd, cp, mv, ls, ps aux
    • instrukcje przydatne w codziennej pracy: screen, scp, kill
    • narzędzia wspomagające pracę: htop, ncdu, mc, stat, nano, vim, cron

Najbliższe terminy tego szkolenia

Co wyróżnia szkolenia Język R w JSystems?

Szkolenia na wysokim poziomie
Instruktorzy praktycy z wieloletnim doświadcze- niem
Znaczna część szkolenia to warsztaty
Komfortowe sale i przestrzeń wspólna
Małe grupy szkoleniowe
Gwarantowane terminy szkoleń
Dużo ćwiczeń
Przystępne ceny

Potrzebujesz więcej informacji?

Wiadomość wysłana

Przyjęliśmy Twoją wiadomość i skontaktujemy się z Tobą w tej sprawie

Klikając OK wrócisz do formularza

Nasza strona korzysta z plików cookie. Możesz zmienić zasady ich używania lub zablokować pliki cookie w ustawieniach przeglądarki. Więcej informacji można znaleźć w Polityce prywatności. Kontynuując korzystanie ze strony, wyrażasz zgodę na używanie plików cookie.