Analiza danych z wykorzystaniem R – kurs podstawowy
Najbliższe terminy tego szkolenia
Standardy JSystems
- Wszyscy nasi trenerzy muszą być praktykami i osiągać średnią z ankiet minimum 4.75 na 5. Nie ma wśród nas trenerów-teoretyków. Każdy trener JSystems ma bogate doświadczenie komercyjne w zakresie tematów z których prowadzi szkolenia.
- Wszystkie szkolenia mają format warszatowy. Każde zagadnienie teoretyczne jest poparte rzędem warsztatów w ściśle określonym formacie.
- Terminy gwarantowane na 100%. Jeśli jakiś termin jest oznaczony jako gwarantowany, oznacza to że odbędzie się nawet jeśli część grupy wycofa się z udziału. Ryzyko ponosimy my jako organizator.
- Do każdego szkolenia które wymaga jakiegokolwiek oprogramowania dostarczamy skonfigurowane, gotowe hosty w chmurze. Dzięki temu uczestnik nie musi nic instalować na swoim komputerze (i bić się z blokadami korporacyjnymi). Połączenie następuje przez zdalny pulpit lub SSH - w zależności od szkolenia.
Program szkolenia
- Wprowadzenie
- charakterystyka języka R
- object-oriented programming: obiekty i funkcje
- R a inne programy statystyczne i języki programowania
- Instalacja narzędzi R
- repozytorium CRAN
- instalacja R
- zapoznanie z konsolą
- instalacja RStudio
- praca w środowisku RStudio
- konfiguracja środowiska pracy
- porządkowanie skryptu: wcięcia, komentarze, spis treści
- korzystanie z wbudowanej pomocy:
- wywoływanie pomocy
- podgląd kodu funkcji
- dokumentacja pakietów
- książki o języku R
- Pakiety
- różnorodność i rola pakietów (packages)
- najpopularniejsze pakiety i ich możliwości
- instalacja i ładowanie pakietów
- wpływ zmian w kolejnych wersjach R na działanie programów
- Typy zmiennych i operacje na nich
- przypisywanie wartości zmiennym: notacja „strzałkowa” a znak równości
- zmienne liczbowe: podstawowe operatory i funkcje arytmetyczne
- operatory: +, -, *, /, %/%, %%, ^, **
- funkcje arytmetyczne: sum(), cumsum(), prod(), cumprod(), factorial(), sqrt()
- logarytmy: log(), log2(), log10(), exp()
- zaokrąglenia: round(), trunc(), ceiling()
- format wyświetlania liczb: funkcje format() i sprintf()
- ciągi tekstowe: podstawowe funkcje przetwarzania tekstu
- program „Hello World!”: funkcje print() i cat()
- konkatenacja: funkcje paste() i paste0()
- przekształcanie ciągów tekstowych: substr(), tolower(), toupper()
- wybrane funkcje pakietu stringr
- wartości logiczne
- stałe logiczne TRUE i FALSE
- operatory i wyrażenia logiczne
- zmienne w formacie Date
- zmiany formatu dat: funkcje as.Date() i format()
- konwersje między datą a timestampem: as.POSIXct()
- wybrane funkcje pakietu lubridate
- wektory typu factor
- ekstrakcja i edycja poziomów wartości i etykiet factorów
- ryzyko związane z korzystaniem z factorów
- konwersje między typami: as.character(), as.numeric(), as.logical(), as.Date(), as.factor()
- Wektory i operacje na nich
- wektorowa „filozofia” języka R
- tworzenie wektorów
- łączenie elementów w wektor: funkcja c()
- sekwencje: seq()
- replikacje: rep()
- generowanie wektorów liczb losowych
- permutacje i losowanie ze zbioru: sample()
- losowanie liczb wedle znanego rozkładu: runif(), rnorm()
- ziarno a reprodukowalność wyników: set.seed()
- praktyczne zastosowania generatora liczb pseudolosowych
- operacje na wektorach
- działania arytmetyczne na wektorach
- sortowanie: sort() i order()
- rekodowanie wartości: ifelse()
- operacje na zbiorach: union(), intersect(), setdiff(), setequal()
- odwoływanie się do elementów wektora
- odwołania po adresie
- filtrowanie elementów wektora za pomocą wyrażeń logicznych
- filtrowanie wektora za pomocą funkcji filter() z pakietu dplyr
- programowanie w potokach: operator %>% z pakietu magrittr
- wyszukiwanie elementów: funkcje is.element(), which(), which.max() i which.min()
- Wielowymiarowe obiekty: tablice, macierze, listy i ramki danych
- tworzenie obiektów wielowymiarowych:
- łączenie wektorów: cbind() i rbind()
- tablice: array, as.array()
- macierze: matrix, as.matrix()
- ramki danych: data.frame, as.data.frame()
- format danych macierzowych tibble
- selekcja przypadków i zmiennych
- po adresie
- po nazwach wierszy i kolumn
- za pomocą wyrażeń logicznych
- za pomocą funkcji select() i filter() z pakietu dplyr
- wyszukiwanie elementów macierzy spełniających dany warunek: which(arr.ind = TRUE)
- inne operacje na macierzach i ramkach danych
- transponowanie macierzy: t()
- sortowanie zbioru danych
- dodawanie nowych zmiennych, będących funkcją istniejących
- sumowanie i uśrednianie wierszy i kolumn: rowSums(), colSums(), rowMeans() i colMeans()
- tworzenie obiektów wielowymiarowych:
- Opis statystyczny jednej zmiennej
- opis rozkładu zmiennej: table(), prop.table()
- wizualizacja rozkładu: hist() i plot(density())
- parametry poziomu wartości: min(), max(), mean(), median() i quantiles()
- parametry rozproszenia: sd(), var() i IQR()
- wyłączanie braków danych: na.rm = TRUE
- definiowanie własnych funkcji statystycznych
- składnia funkcji
- zmienne lokalne i globalne
- argumenty wymagane i opcjonalne, deklarowanie domyślnych wartości
- uruchamianie funkcji z zewnętrznego pliku: source()
- wyliczenia parametrów wszystkich zmiennych ze zbioru danych, z użyciem funkcji summary() i lapply()
- rekodowanie zmiennych ciągłych na przedziały: funkcja cut()
- formatowanie tabel rozkładu: funkcja tabyl() z pakietu janitor
- formatowanie wykresów słupkowych: funkcja barplot() i jej argumenty graficzne
- automatyczny eksport wykresów do postaci plików graficznych i PDF
- Wczytywanie danych z zewnętrznych źródeł
- wczytywanie danych z plików tekstowych: read.table(), read.csv() i read.delim()
- import danych z zewnętrznych aplikacji, np. SPSS: pakiet foreign
- wczytywanie danych wprost ze źródła w internecie
- długi i szeroki format danych, sposoby zamiany jednego na drugi: spread() i gather() z pakietu tidyr
- Analiza współzależności między zmiennymi
- tabele kontyngencji
- generowanie i formatowanie tabel kontyngencji
- interpretacja zależności i sposób opisu wyników
- istotność zależności: test chi-kwadrat
- interpretacja współczynnika istotności statystycznej
- siła zależności: współczynnik V Cramera
- wizualizacja zależności: skumulowane wykresy słupkowe
- zależność zmiennej ciągłej od zmiennej kategorialnej
- porównania średnich w podgrupach: aggregate()
- statystyki w podgrupach z wykorzystaniem pakietu dplyr: group_by() %>% summarize()
- testy różnic między średnimi: test t dla prób niezależnych i jednoczynnikowa analiza wariancji
- interpretacja wyników testów
- wizualizacja różnic między średnimi: wykresy liniowe
- analiza korelacji
- wizualizacja zależności: wykresy rozrzutu
- siła zależności: korelacje proste, macierze korelacji
- wizualizacja korelacji: korelogramy
- modele liniowe
- regresja liniowa jednej zmiennej: lm()
- wizualizacja zależności: abline(lm())
- regresja liniowa wielu zmiennych
- interpretacja współczynników modelu
- formułowanie wniosków z analizy
- tabele kontyngencji
- Analiza danych – od wczytania danych do wizualizacji
Opis szkolenia
Szkolenie odbywa się na żywo z udziałem trenera. Nie jest to forma kursu video!-
Po ukończeniu tego szkolenia uczestnik będzie potrafił:
- Instalować R i RStudio, oraz sprawnie pozyskiwać i uruchamiać nowe pakiety
- Korzystać z funkcjonalności RStudio, wspomagających programowanie w języku R
- Korzystać z pomocy i dokumentacji wbudowanej w język R
- Konfigurować ścieżkę katalogu roboczego, uruchamiać zapisane w nim skrypty i eksportować do niego wyniki analiz
- Tworzyć zmienne różnych typów i przypisywać im wartości
- Posługiwać się szeroką paletą funkcji do przetwarzania zmiennych tekstowych, liczbowych, logicznych oraz dat
- Identyfikować typy zmiennych i dokonywać konwersji między nimi
- Posługiwać się generatorem liczb pseudolosowych
- Konstruować wektory, macierze i ramki danych, i na różne sposoby odwoływać się do ich zawartości
- Definiować własne funkcje statystyczne
- Wczytywać dane z zewnętrznych źródeł: pliki tekstowe, arkusze Excel, bazy SPSS, internet
- Zmieniać strukturę danych z formatu baz relacyjnych („długiego”) na format „szeroki” i na odwrót
- Filtrować i sortować dane, rekodować zmienne i wyliczać wartości nowych zmiennych na podstawie istniejących
- Przeprowadzać i interpretować wyniki analiz statystycznych:
- opis rozkładu zmiennej
- opis parametryczny zmiennej
- analiza tabel kontyngencji
- porównania średnich w podgrupach
- analiza korelacji
- regresja liniowa
- wykonywanie testów statystycznych: test chi-kwadrat, test t dla prób niezależnych, analiza wariancji
- wizualizacja zależności: histogramy, wykresy gęstości, wykresy słupkowe i liniowe, korelogramy
Warunki uczestnictwa
Szkolenie kierowane jest do osób, które chciałyby na co dzień posługiwać się językiem R jako narzędziem prowadzenia analiz w biznesie lub na polu naukowym. Kurs podstawowy przeznaczony jest dla osób bez, lub z niewielkim doświadczeniem w posługiwaniu się językiem R. Do kursu może przystąpić każdy, kto wykazuje się minimalną biegłością w posługiwaniu się liczbami. Wiedza statystyczna ani doświadczenie w programowaniu w innych językach nie są wymagane.
Gdy na jakiś termin zgłosi się minimalna liczba osób, termin oznaczamy jako gwarantowany.
Jeśli jakiś termin oznaczony jest jako gwarantowany to oznacza to, że na 100% się odbędzie we wskazanym czasie i miejscu.
Nawet gdyby część takiej grupy zrezygnowała lub przeniosła się na inny termin, raz ustalony termin gwarantowany takim pozostaje.
Ewentualne ryzyko ponosimy my jako organizator.
Przejdź do terminów tego szkolenia