Analiza danych z wykorzystaniem R – kurs zaawansowany

by:
Czas trwania 3 dni

Najbliższe terminy tego szkolenia

Cena szkolenia 1800 PLN (netto)

Standardy JSystems

  1. Wszyscy nasi trenerzy muszą być praktykami i osiągać średnią z ankiet minimum 4.75 na 5. Nie ma wśród nas trenerów-teoretyków. Każdy trener JSystems ma bogate doświadczenie komercyjne w zakresie tematów z których prowadzi szkolenia.
  2. Wszystkie szkolenia mają format warszatowy. Każde zagadnienie teoretyczne jest poparte rzędem warsztatów w ściśle określonym formacie.
  3. Terminy gwarantowane na 100%. Jeśli jakiś termin jest oznaczony jako gwarantowany, oznacza to że odbędzie się nawet jeśli część grupy wycofa się z udziału. Ryzyko ponosimy my jako organizator.
Zapisz się
Program szkolenia
  1. Wprowadzenie
    • różnice pomiędzy klasycznym podejściem do pracy z danymi (base), a wykorzystywaniem pakietów specjalistycznych (tidyverse, dplyr), porównanie wad i zalet każdej z obranych metod
    • „domowa” praca nad skryptami, a pisanie ich pod specjalistyczne przypadki obliczeniowe – odpowiednia etyka pisania skryptów, skupienie się na kontroli przebiegu rozwiązań i ich debugowania
    • własne pakiety w R – dlaczego są ważne w środowisku data science, potencjalne problemy, które można napotkać w trakcie ich tworzenia, a także dobre praktyki przy ich tworzeniu
    • współpraca zespołowa – wyjaśnienie standardów wspólnej pracy nad problemami analitycznymi, dzielenie się wynikami własnej pracy ze światem, szukanie pomocy od bardziej doświadczonych badaczy
    • profesjonalne zarządzanie pakietami – dlaczego automatyczne testy i deployment pakietów jest ważny, w jaki sposób manualnie tworzone repozytoria mogą ułatwiać pracę data scientistów na co dzień
    • praca na środowisku obliczeniowym – rozróżnienie od pracy na komputerze lokalnym, dobre praktyki zarządzania zasobami na serwerze i przydatnych instrukcji w terminalu na codzień
    • dobre książki i kursy do nauki R i Data Science
  2. Efektywna praca z danymi
    • pakiet dplyr – przetwarzanie zbiorów
      • podstawy pakietu (wybór zmiennych, filtrowanie, sortowanie): funkcje select(), filter(), arrange(), mutate(), rename()
      • funkcje przydatne w codziennej pracy: użycie pipe’ów (%>%), starts_with(), ends_with(), top_n(), distinct()
      • grupowanie i podsumowywanie danych: group_by(), summarize(), ungroup()
      • łączenie zbiorów: left_join(), inner_join(), right_join()
      • zaawansowane aspekty pracy z pakietem i dobre praktyki:
        • wektoryzacja funkcji i opieranie ich na zmiennych
        • warunkowe tworzenie zmiennych (mutate if_else)
        • ograniczenia funkcji z bazwoej wersji R (base) w dplyr
        • kiedy lepiej używać base zamiast dplyr
        • kiedy lepiej używać dplyr zamiast base
    • pakiety tidyr i reshape2 – modelowanie zbiorów
      • rozdzielanie zbioru na podstawie wartości: tidyr::separate(), tidyr::spread()
      • łączenie zbioru na podstawie zmiennej: tidyr::gather()
      • zmiana wymiarów zbioru na podstawie jego kluczowych cech: reshape2::melt(), reshape2::dcast()
    • efektywne łączenie funkcji z pakietów dplyr, tidyr i reshape2
  3. Optymalizacja pracy ze skryptami
    • szybsze pętle for – instrukcje z rodziny apply, użycie pakietu purr (map) i broom
    • wielowątkowe obliczenia – biblioteka parallel
    • debugowanie pracy pętli: tryCatch(), stop(), warning(), print(), cat()
    • inne metody optymalizacji obliczeniowej:
      • wykonywanie tylko niezbędnych obliczeń
      • redukcja powtórzeń
      • optymalizacja sprzętowa operacji
      • odpowiednie wykorzystywanie zasobów serwerowych
  4. Tworzenie własnych pakietów w R
    • pakiet devtools – tworzenie pakietów
      • filozofia, źródła informacji, książka Hadleya Wickhama
      • podstawowa struktura pakietów: pliki DESCRIPTION, NEWS, README, R
      • funkcje przydatne w procesie tworzenia pakietów: devtools::create(), devtools::build(), devtools::check()
      • funkcje przydatne w przypadku instalacji pakietów z różnych źródeł: load_all(), install_local(), install_github()
    • pakiety roxygen2 i bookdown – dokumentacja pakietów
      • logika struktury lokalnej dokumentacji pakietów: folder man, pozczególne zapisy
      • tworzenie dokumentacji lokalnej za pomocą funckji roxygenize(), wywoływanie, edycja
      • tworzenie dokumentacji online za pomocą pakietu bookdown: folder docs, wygląd, sposób działania
    • pakiety testthat i lintr – testowanie pakietów
      • tworzenie testów jednostkowych – pakiet testthat i folder tests
      • tworzenie testów struktury kodu – pakiet lintr
  5. Współpraca zespołowa – GitLab / GitHub
    • filozofia świata open-source, logika i struktura repozytoriów
    • podstawowe komendy przydatne w pracy z gitem: init, push, pull, status, commit
    • dzielenie projektu na części i praca w zespole: branch, merge requests, fetch, stash, pop
  6. Profesjonalna praca nad projektami
    • struktura repozytoriów typu CRAN, tworzenie repozytorium lokalnego i serwerowego
    • proces git flow, code review, zgłaszania komentarzy do kodu, nanoszenia poprawek, tagowania wersji pakietów
    • automatyczne testowanie i deployment kodu
      • procesy GitLab CI/CD
      • tworzenie pliku gitlab-ci.yml
      • dockeryzowanie środowiska
      • dostarczanie gotowego pakietu do repozytorium
  7. Codzienna praca na środowisku serwerowym (Rstudio Server) od strony serwera obliczeniowego
    • zapoznanie z praktycznymi narzędziami: terminator, tmux, kitty
    • podstawowe instrukcje języka poleceń: pwd, cp, mv, ls, ps aux
    • instrukcje przydatne w codziennej pracy: screen, scp, kill
    • narzędzia wspomagające pracę: htop, ncdu, mc, stat, nano, vim, cron
  8. Podsumowanie
    • zapoznanie z praktycznymi narzędziami: terminator, tmux, kitty
    • podstawowe instrukcje języka poleceń: pwd, cp, mv, ls, ps aux
    • instrukcje przydatne w codziennej pracy: screen, scp, kill
    • narzędzia wspomagające pracę: htop, ncdu, mc, stat, nano, vim, cron

Opis szkolenia

Szkolenie odbywa się na żywo z udziałem trenera. Nie jest to forma kursu video!
    Po ukończeniu tego szkolenia uczestnik będzie potrafił:
    • korzystać ze służących do przekształcania danych pakietów z rodziny tidyverse: dplyr, tidyr i reshape2
    • optymalizować organizację własnej pracy i tempo przetwarzania danych
    • tworzyć własne pakiety w R
    • korzystać z repozytorium GitHub
    • optymalizować prace programistyczną w zespole
    • tworzyć własne repozytoria kody
    • zarządzać współpracą z serwerem
    • sprawnie programować w środowisku serwerowym

Warunki uczestnictwa

Szkolenie skierowane jest do osób znających język R na poziomie średniozaawansowanym, poszukujących praktycznej wiedzy dotyczącej efektywnego przetwarzania danych w tym języku. Dobrym wstępem do szkolenia jest kurs „Analiza danych z wykorzystaniem R – kurs średniozaawansowany”, oferowany również w module szkoleń „Data Science z wykorzystaniem R”. W trakcie szkolenia, uczestnicy nie tylko poznają sposoby efektywnej pracy z danymi za pomocą branżowych pakietów, ale także posiądą wiedzę z dziedziny optymalizacji wykonywanych operacji i ich szczegółowego działania od strony serwera obliczeniowego. Co więcej, na szkoleniu uczestnicy dowiedzą się także, w jaki sposób tworzyć pakiety w języku R i jak dzielić się nimi ze szeroko pojętym środowiskiem data science za pomocą repozytoriów kodu GitHub/GitLab.
Terminy gwarantowane

Gdy na jakiś termin zgłosi się minimalna liczba osób, termin oznaczamy jako gwarantowany.

Jeśli jakiś termin oznaczony jest jako gwarantowany to oznacza to, że na 100% się odbędzie we wskazanym czasie i miejscu.

Nawet gdyby część takiej grupy zrezygnowała lub przeniosła się na inny termin, raz ustalony termin gwarantowany takim pozostaje. Ewentualne ryzyko ponosimy my jako organizator.

Przejdź do terminów tego szkolenia

Szkolenia online Szkolenia online odbywają się na żywo z udziałem trenera. Uczestniczy łączą się na szkolenie za pomocą platfomy ZOOM. Informacje o wymaganym niezbędnym oprogramowaniu oraz informacje organizacyjne uczestnicy otrzymują na 7 dni przed datą rozpoczęcia szkolenia.
Inne szkolenia tej kategorii Sprawdź pozostałe    szkolenia Język R!

Sprawdź, co mówią o nas ci, którzy nam zaufali

  • 4.9/5

    Analiza danych z wykorzystaniem R – kurs podstawowy

    06-12-2023 Szkolenie intensywne, ale wartościowe Agnieszka Lisowska-Kierepka, Uniwersytet Wrocławski
  • 4.85/5

    Analiza danych z wykorzystaniem R – kurs podstawowy

    10-04-2019 Bardzo ciekawe szkolenie. Dużo uporządkowanych informacji. Zdecydowanie polecam zarówno dla osób, które chcą uporządkować swoją wiedzę i uzupełnić braki oraz dla osób, które nie mają jeszcze żadnego doświadczenia w pracy z językiem R. Marzena Andrzejczak, Comarch SA
  • 4.94/5

    Analiza danych z wykorzystaniem R – kurs podstawowy

    10-04-2019 Dzięki za intensywne 3 dni z R :) Marcin Krzystanek, Wakacje.pl SA
  • 4.78/5

    Analiza danych z wykorzystaniem R – kurs podstawowy

    05-12-2018 Profesjonalna organizacja. Kamil Iwański, PKO Bank Polski SA

Masz jakieś pytania? Skontaktuj się z nami!

Odpowiadamy na telefony i maile w godzinach 9:00-17:00 od poniedziałku do piątku.

Telefon 22 299 53 69
Napisz do nas

Potrzebujesz więcej informacji?

Wiadomość wysłana

Przyjęliśmy Twoją wiadomość i skontaktujemy się z Tobą w tej sprawie

Klikając OK wrócisz do formularza

Nasza strona korzysta z plików cookie. Możesz zmienić zasady ich używania lub zablokować pliki cookie w ustawieniach przeglądarki. Więcej informacji można znaleźć w Polityce prywatności. Kontynuując korzystanie ze strony, wyrażasz zgodę na używanie plików cookie.