Analiza danych z wykorzystaniem R - kurs średniozaawansowany

Czas trwania
3
dni
Najbliższe terminy tego szkolenia
Cena szkolenia
1800 PLN
(netto)
Skuteczność
Program szkolenia
- Wprowadzenie
- obecny i prognozowany kierunek rozwoju języka R
- object-oriented programming: obiekty i funkcje
- przypomnienie składni i podstawowych funkcji języka R
- przegląd zagadnień statystycznych i metod analitycznych omawianych podczas kursu
- źródła wiedzy i doskonalenia umiejętności: literatura, kursy, blogi
- Definiowanie własnych funkcji
- składnia funkcji
- zmienne lokalne i globalne
- argumenty wymagane i opcjonalne, deklarowanie domyślnych wartości
- tryby zwracania wartości: return i invisible
- obsługa błędów
- uruchamianie funkcji z zewnętrznego pliku: source()
- Operacje w pętlach
- pętle for
- pętle while
- pętle repeat
- funkcje z rodziny apply() i ich przewaga nad pętlami ww. typów
- Wczytywanie danych z zewnętrznych źródeł
- wczytywanie danych z plików tekstowych: read.table(), read.csv() i read.delim()
- wczytywanie bardzo ciężkich plików: pakiety readr i data.table
- import danych z zewnętrznych aplikacji, np. SPSS: pakiet foreign
- wczytywanie danych wprost ze źródła w internecie
- wczytywanie danych z API systemów informatycznych
- wczytywanie danych w formacie JSON i ich zamiana w format tabelaryczny
- Czyszczenie danych
- długi i szeroki format danych, sposoby zamiany jednego na drugi: spread() i gather() z pakietu tidyr
- sprawdzanie logicznej spójności danych
- rekodowanie zmiennych: ifelse() vs. car::recode()
- radzenie sobie z brakami danych: na.omit() i tidyr::replace_na()
- Analiza tabelaryczna
- opis parametryczny zmiennych
- tabela rozkładu zmiennej i wizualizacja rozkładu: histogramy, wykresy słupkowe, wykresy gęstości rozkładu
- tabele kontyngencji i ich formatowanie: janitor::tabyl()
- istotność zależności: test chi-kwadrat
- interpretacja współczynnika istotności statystycznej
- siła zależności: współczynnik V Cramera
- wizualizacja tabel kontyngencji
- skumulowane wykresy słupkowe
- mapy cieplne (heatmap)
- porównania wartości średnich w podgrupach
- możliwości funkcji aggregate()
- statystyki w podgrupach z wykorzystaniem pakietu dplyr: group_by() %>% summarize()
- testy różnic między średnimi
- test t jednej próby
- test t dla prób zależnych i niezależnych
- analiza wariancji (ANOVA)
- sprawdzanie czy spełnione są założenia modelu
- metody poprawy modelu
- wizualizacja różnic między średnimi
- wykresy pudełkowe
- wykresy liniowe
- Analiza korelacji
- idea korelacji jako miernika siły współzależności
- różnica między korelacją a wpływem / zależnością przyczynową
- badanie liniowości związku na wykresie rozrzutu
- nieliniowe przekształcanie zmiennych: rule of the bulge
- wyliczanie współczynników korelacji
- liniowe: r Pearsona
- rangowe: rho Spearmana, tau Kendalla
- dla zmiennych binarnych: Jaccard, Sørensen–Dice
- dla zmiennych nominalnych: V Cramera, uncertainty coefficient
- wizualizacja macierzy korelacji: korelogramy
- radzenie sobie z brakami danych: metoda wyłączania przypadków parami (pairwise)
- statystyczna istotność korelacji
- Modele regresyjne
- model regresji jako narzędzie opisu i przewidywania
- regresja liniowa: lm()
- wizualizacja regresji jednej zmiennej: abline(lm())
- interpretacja parametrów modelu
- szacowanie siły wpływu: indeks Pratta
- metody poprawy rozwiązania
- sprawdzanie czy spełnione są założenia analizy regresji
- testowanie normalności rozkładu
- minimalizacja wzajemnego skorelowania predyktorów
- ręczna i automatyczna selekcja predyktorów
- eliminacja przypadków odstających
- regresja wielomianowa
- dodawanie do modelu interakcji między zmiennymi
- Analiza czynnikowa i analiza głównych składowych (PCA)
- idea analizy czynnikowej
- FA a PCA: podobieństwa i różnice
- implementacja w R: funkcje princomp() i factanal()
- wizualizacja wyników
- dobór parametrów analizy
- liczba czynników
- selekcja zmiennych
- metoda rotacji
- interpretacja rozwiązania
- zastosowania analizy czynnikowej
- Analiza skupień
- zastosowania analizy skupień
- znaczenie biznesowe segmentacji rynku
- przygotowanie danych do analizy skupień
- konstrukcja wskaźników
- ortogonalizacja i standaryzacja zmiennych
- eliminacja przypadków odstających
- clustering hierarchiczny
- wybór metody aglomeracji i metryki
- podział zbioru na skupienia: hclust()
- clustering k-średnich
- wybór metody aglomeracji i metryki
- podział zbioru na skupienia: kmeans()
- selekcja rozwiązań
- interpretacja wyników analizy skupień
Opis szkolenia
Szkolenie odbywa się na żywo z udziałem trenera. Nie jest to forma kursu video!-
Po ukończeniu tego szkolenia uczestnik będzie potrafił:
- Samodzielnie pisać własne funkcje i uruchamiać je z kodu skryptu
- Wykonywać operacje w pętlach, optymalizować szybkość działania pętli
- Wczytywać dane z różnych źródeł: plików tekstowych, SPSS, ze stron WWW, API i baz JSON
- Przeprowadzać obróbkę danych, będącą wstępem do ich analizy: zmiana struktury danych, rekodowanie etc.
- Dokonywać opisu parametrów i rozkładów zmiennych oraz generować wizualizacje tych rozkładów
- Generować i formatować tabele kontyngencji, opisywać kształt, siłę i istotność współzależności, wizualizować wyniki
- Wyliczać wartości kluczowych parametrów zmiennych w podgrupach i wizualizować różnice między nimi
- Stosować trzy rodzaje testów t oraz analizę wariancji do testować istotności różnic między średnimi w podgrupach
- Diagnozować stopień spełnienia założeń teoretycznych modelu analizy regresji, i przywracać poprawność modelu
- Mierzyć siłę i istotność korelacji między zmiennymi ciągłymi
- Interpretować zawartość macierzy korelacji i wizualizować ją w postaci korelogramu
- Budować modele regresji wielu zmiennych oraz interpretować wyniki analizy regresji
- Diagnozować i usuwać przypadki pogwałcenia założeń teoretycznych modelu regresji
- Ortogonalizować zestawy zmiennych z wykorzystaniem analizy czynnikowej i analizy głównych składowych
- Wykonywać analizę skupień różnymi metodami (hierarchiczna, k-średnich)
- Znać zastosowania ww. analiz w kontekście badawczym i marketingowym
Warunki uczestnictwa
Szkolenie kierowane jest do osób zajmujących się analizą danych, które chciałyby z jednej strony podnieść swoje kompetencje w zakresie statystyki, z drugiej zaś: „przesiąść” się z przestarzałych aplikacji (Excel, SPSS, Statistica, SAS, Stata etc.) na wyspecjalizowany język R o imponujących możliwościach w zakresie analizy i wizualizacji danych. Kurs jest dostosowany do profilu osób działających zarówno w obszarze nauki, jak i biznesu, ze szczególnym ukierunkowaniem na analizę wyników z badań rynku i opinii. Kurs jest też dobrym wprowadzeniem do zagadnień klasycznej statystyki oraz analizy danych marketingowych dla osób, wykorzystujących do tej pory R do innych celów. Kurs przeznaczony jest dla osób z podstawową znajomością R – tak, aby tłumaczenie składni języka lub znaczenia podstawowych funkcji nie odrywało nas od nauki nowych zagadnień. W szczególności: doskonałym wstępem jest odbycie kursu „Analiza danych z wykorzystaniem R – kurs podstawowy”. Wiedza statystyczna ani doświadczenie w programowaniu w innych językach nie są wymagane.