Analiza danych z wykorzystaniem R - kurs średniozaawansowany

Najbliższe terminy tego szkolenia
Standardy JSystems
- Wszyscy nasi trenerzy muszą być praktykami i osiągać średnią z ankiet minimum 4.75 na 5. Nie ma wśród nas trenerów-teoretyków. Każdy trener JSystems ma bogate doświadczenie komercyjne w zakresie tematów z których prowadzi szkolenia.
- Wszystkie szkolenia mają format warszatowy. Każde zagadnienie teoretyczne jest poparte rzędem warsztatów w ściśle określonym formacie.
- Terminy gwarantowane na 100%. Jeśli jakiś termin jest oznaczony jako gwarantowany, oznacza to że odbędzie się nawet jeśli część grupy wycofa się z udziału. Ryzyko ponosimy my jako organizator.
- Do każdego szkolenia które wymaga jakiegokolwiek oprogramowania dostarczamy skonfigurowane, gotowe hosty w chmurze. Dzięki temu uczestnik nie musi nic instalować na swoim komputerze (i bić się z blokadami korporacyjnymi). Połączenie następuje przez zdalny pulpit lub SSH - w zależności od szkolenia.
Program szkolenia
- Wprowadzenie
- obecny i prognozowany kierunek rozwoju języka R
- object-oriented programming: obiekty i funkcje
- przypomnienie składni i podstawowych funkcji języka R
- przegląd zagadnień statystycznych i metod analitycznych omawianych podczas kursu
- źródła wiedzy i doskonalenia umiejętności: literatura, kursy, blogi
- Definiowanie własnych funkcji
- składnia funkcji
- zmienne lokalne i globalne
- argumenty wymagane i opcjonalne, deklarowanie domyślnych wartości
- tryby zwracania wartości: return i invisible
- obsługa błędów
- uruchamianie funkcji z zewnętrznego pliku: source()
- Operacje w pętlach
- pętle for
- pętle while
- pętle repeat
- funkcje z rodziny apply() i ich przewaga nad pętlami ww. typów
- Wczytywanie danych z zewnętrznych źródeł
- wczytywanie danych z plików tekstowych: read.table(), read.csv() i read.delim()
- wczytywanie bardzo ciężkich plików: pakiety readr i data.table
- import danych z zewnętrznych aplikacji, np. SPSS: pakiet foreign
- wczytywanie danych wprost ze źródła w internecie
- wczytywanie danych z API systemów informatycznych
- wczytywanie danych w formacie JSON i ich zamiana w format tabelaryczny
- Czyszczenie danych
- długi i szeroki format danych, sposoby zamiany jednego na drugi: spread() i gather() z pakietu tidyr
- sprawdzanie logicznej spójności danych
- rekodowanie zmiennych: ifelse() vs. car::recode()
- radzenie sobie z brakami danych: na.omit() i tidyr::replace_na()
- Analiza tabelaryczna
- opis parametryczny zmiennych
- tabela rozkładu zmiennej i wizualizacja rozkładu: histogramy, wykresy słupkowe, wykresy gęstości rozkładu
- tabele kontyngencji i ich formatowanie: janitor::tabyl()
- istotność zależności: test chi-kwadrat
- interpretacja współczynnika istotności statystycznej
- siła zależności: współczynnik V Cramera
- wizualizacja tabel kontyngencji
- skumulowane wykresy słupkowe
- mapy cieplne (heatmap)
- porównania wartości średnich w podgrupach
- możliwości funkcji aggregate()
- statystyki w podgrupach z wykorzystaniem pakietu dplyr: group_by() %>% summarize()
- testy różnic między średnimi
- test t jednej próby
- test t dla prób zależnych i niezależnych
- analiza wariancji (ANOVA)
- sprawdzanie czy spełnione są założenia modelu
- metody poprawy modelu
- wizualizacja różnic między średnimi
- wykresy pudełkowe
- wykresy liniowe
- Analiza korelacji
- idea korelacji jako miernika siły współzależności
- różnica między korelacją a wpływem / zależnością przyczynową
- badanie liniowości związku na wykresie rozrzutu
- nieliniowe przekształcanie zmiennych: rule of the bulge
- wyliczanie współczynników korelacji
- liniowe: r Pearsona
- rangowe: rho Spearmana, tau Kendalla
- dla zmiennych binarnych: Jaccard, Sørensen–Dice
- dla zmiennych nominalnych: V Cramera, uncertainty coefficient
- wizualizacja macierzy korelacji: korelogramy
- radzenie sobie z brakami danych: metoda wyłączania przypadków parami (pairwise)
- statystyczna istotność korelacji
- Modele regresyjne
- model regresji jako narzędzie opisu i przewidywania
- regresja liniowa: lm()
- wizualizacja regresji jednej zmiennej: abline(lm())
- interpretacja parametrów modelu
- szacowanie siły wpływu: indeks Pratta
- metody poprawy rozwiązania
- sprawdzanie czy spełnione są założenia analizy regresji
- testowanie normalności rozkładu
- minimalizacja wzajemnego skorelowania predyktorów
- ręczna i automatyczna selekcja predyktorów
- eliminacja przypadków odstających
- regresja wielomianowa
- dodawanie do modelu interakcji między zmiennymi
- Analiza czynnikowa i analiza głównych składowych (PCA)
- idea analizy czynnikowej
- FA a PCA: podobieństwa i różnice
- implementacja w R: funkcje princomp() i factanal()
- wizualizacja wyników
- dobór parametrów analizy
- liczba czynników
- selekcja zmiennych
- metoda rotacji
- interpretacja rozwiązania
- zastosowania analizy czynnikowej
- Analiza skupień
- zastosowania analizy skupień
- znaczenie biznesowe segmentacji rynku
- przygotowanie danych do analizy skupień
- konstrukcja wskaźników
- ortogonalizacja i standaryzacja zmiennych
- eliminacja przypadków odstających
- clustering hierarchiczny
- wybór metody aglomeracji i metryki
- podział zbioru na skupienia: hclust()
- clustering k-średnich
- wybór metody aglomeracji i metryki
- podział zbioru na skupienia: kmeans()
- selekcja rozwiązań
- interpretacja wyników analizy skupień
Opis szkolenia
Szkolenie odbywa się na żywo z udziałem trenera. Nie jest to forma kursu video!-
Po ukończeniu tego szkolenia uczestnik będzie potrafił:
- Samodzielnie pisać własne funkcje i uruchamiać je z kodu skryptu
- Wykonywać operacje w pętlach, optymalizować szybkość działania pętli
- Wczytywać dane z różnych źródeł: plików tekstowych, SPSS, ze stron WWW, API i baz JSON
- Przeprowadzać obróbkę danych, będącą wstępem do ich analizy: zmiana struktury danych, rekodowanie etc.
- Dokonywać opisu parametrów i rozkładów zmiennych oraz generować wizualizacje tych rozkładów
- Generować i formatować tabele kontyngencji, opisywać kształt, siłę i istotność współzależności, wizualizować wyniki
- Wyliczać wartości kluczowych parametrów zmiennych w podgrupach i wizualizować różnice między nimi
- Stosować trzy rodzaje testów t oraz analizę wariancji do testować istotności różnic między średnimi w podgrupach
- Diagnozować stopień spełnienia założeń teoretycznych modelu analizy regresji, i przywracać poprawność modelu
- Mierzyć siłę i istotność korelacji między zmiennymi ciągłymi
- Interpretować zawartość macierzy korelacji i wizualizować ją w postaci korelogramu
- Budować modele regresji wielu zmiennych oraz interpretować wyniki analizy regresji
- Diagnozować i usuwać przypadki pogwałcenia założeń teoretycznych modelu regresji
- Ortogonalizować zestawy zmiennych z wykorzystaniem analizy czynnikowej i analizy głównych składowych
- Wykonywać analizę skupień różnymi metodami (hierarchiczna, k-średnich)
- Znać zastosowania ww. analiz w kontekście badawczym i marketingowym
Warunki uczestnictwa
Szkolenie kierowane jest do osób zajmujących się analizą danych, które chciałyby z jednej strony podnieść swoje kompetencje w zakresie statystyki, z drugiej zaś: „przesiąść” się z przestarzałych aplikacji (Excel, SPSS, Statistica, SAS, Stata etc.) na wyspecjalizowany język R o imponujących możliwościach w zakresie analizy i wizualizacji danych. Kurs jest dostosowany do profilu osób działających zarówno w obszarze nauki, jak i biznesu, ze szczególnym ukierunkowaniem na analizę wyników z badań rynku i opinii. Kurs jest też dobrym wprowadzeniem do zagadnień klasycznej statystyki oraz analizy danych marketingowych dla osób, wykorzystujących do tej pory R do innych celów. Kurs przeznaczony jest dla osób z podstawową znajomością R – tak, aby tłumaczenie składni języka lub znaczenia podstawowych funkcji nie odrywało nas od nauki nowych zagadnień. W szczególności: doskonałym wstępem jest odbycie kursu „Analiza danych z wykorzystaniem R – kurs podstawowy”. Wiedza statystyczna ani doświadczenie w programowaniu w innych językach nie są wymagane.
Gdy na jakiś termin zgłosi się minimalna liczba osób, termin oznaczamy jako gwarantowany.
Jeśli jakiś termin oznaczony jest jako gwarantowany to oznacza to, że na 100% się odbędzie we wskazanym czasie i miejscu.
Nawet gdyby część takiej grupy zrezygnowała lub przeniosła się na inny termin, raz ustalony termin gwarantowany takim pozostaje.
Ewentualne ryzyko ponosimy my jako organizator.
Przejdź do terminów tego szkolenia
