Analiza danych z wykorzystaniem R - kurs średniozaawansowany

Opis szkolenia

    Po ukończeniu tego szkolenia uczestnik będzie potrafił:
    • Samodzielnie pisać własne funkcje i uruchamiać je z kodu skryptu
    • Wykonywać operacje w pętlach, optymalizować szybkość działania pętli
    • Wczytywać dane z różnych źródeł: plików tekstowych, SPSS, ze stron WWW, API i baz JSON
    • Przeprowadzać obróbkę danych, będącą wstępem do ich analizy: zmiana struktury danych, rekodowanie etc.
    • Dokonywać opisu parametrów i rozkładów zmiennych oraz generować wizualizacje tych rozkładów
    • Generować i formatować tabele kontyngencji, opisywać kształt, siłę i istotność współzależności, wizualizować wyniki
    • Wyliczać wartości kluczowych parametrów zmiennych w podgrupach i wizualizować różnice między nimi
    • Stosować trzy rodzaje testów t oraz analizę wariancji do testować istotności różnic między średnimi w podgrupach
    • Diagnozować stopień spełnienia założeń teoretycznych modelu analizy regresji, i przywracać poprawność modelu
    • Mierzyć siłę i istotność korelacji między zmiennymi ciągłymi
    • Interpretować zawartość macierzy korelacji i wizualizować ją w postaci korelogramu
    • Budować modele regresji wielu zmiennych oraz interpretować wyniki analizy regresji
    • Diagnozować i usuwać przypadki pogwałcenia założeń teoretycznych modelu regresji
    • Ortogonalizować zestawy zmiennych z wykorzystaniem analizy czynnikowej i analizy głównych składowych
    • Wykonywać analizę skupień różnymi metodami (hierarchiczna, k-średnich)
    • Znać zastosowania ww. analiz w kontekście badawczym i marketingowym

Warunki uczestnictwa

Szkolenie kierowane jest do osób zajmujących się analizą danych, które chciałyby z jednej strony podnieść swoje kompetencje w zakresie statystyki, z drugiej zaś: „przesiąść” się z przestarzałych aplikacji (Excel, SPSS, Statistica, SAS, Stata etc.) na wyspecjalizowany język R o imponujących możliwościach w zakresie analizy i wizualizacji danych. Kurs jest dostosowany do profilu osób działających zarówno w obszarze nauki, jak i biznesu, ze szczególnym ukierunkowaniem na analizę wyników z badań rynku i opinii. Kurs jest też dobrym wprowadzeniem do zagadnień klasycznej statystyki oraz analizy danych marketingowych dla osób, wykorzystujących do tej pory R do innych celów. Kurs przeznaczony jest dla osób z podstawową znajomością R – tak, aby tłumaczenie składni języka lub znaczenia podstawowych funkcji nie odrywało nas od nauki nowych zagadnień. W szczególności: doskonałym wstępem jest odbycie kursu „Analiza danych z wykorzystaniem R – kurs podstawowy”. Wiedza statystyczna ani doświadczenie w programowaniu w innych językach nie są wymagane.

Terminy gwarantowane

Jeśli jakiś termin oznaczony jest jako gwarantowany to oznacza to że na 100% się odbędzie we wskazanym czasie i miejscu.
Więcej

Szkolenia online i udział online

Szkolenia online odbywają się na żywo z udziałem trenera. Grupy są równie nieliczne jak przy tradycyjnych stacjonarnych szkoleniach w JSystems i liczą zwykle 7-9 osób. W każdym szkoleniu stacjonarnym możesz brać udział online.
Więcej

Inne szkolenia tej kategorii

W ramach kategorii Język R mamy jeszcze wiele szkoleń. Sprawdź jakie!

Vouchery

Istnieje możliwość wykupienia vouchera z roczną ważnością. Można zakupić przedpłaconą usługę szkoleniową w jednym okresie rozliczeniowym, a zrealizować w innym.

Więcej
Szkolenie stacjonarne 1500,00 PLN (netto)
Udział online 1200,00 PLN (netto)
Czas trwania 3 dni

Czy wiesz, że możemy takie szkolenie zorganizować specjalnie dla Twojej firmy?

Dowiedz się więcej

Czego się nauczysz?

  1. Wprowadzenie
    • obecny i prognozowany kierunek rozwoju języka R
    • object-oriented programming: obiekty i funkcje
    • przypomnienie składni i podstawowych funkcji języka R
    • przegląd zagadnień statystycznych i metod analitycznych omawianych podczas kursu
    • źródła wiedzy i doskonalenia umiejętności: literatura, kursy, blogi
  2. Definiowanie własnych funkcji
    • składnia funkcji
    • zmienne lokalne i globalne
    • argumenty wymagane i opcjonalne, deklarowanie domyślnych wartości
    • tryby zwracania wartości: return i invisible
    • obsługa błędów
    • uruchamianie funkcji z zewnętrznego pliku: source()
  3. Operacje w pętlach
    • pętle for
    • pętle while
    • pętle repeat
    • funkcje z rodziny apply() i ich przewaga nad pętlami ww. typów
  4. Wczytywanie danych z zewnętrznych źródeł
    • wczytywanie danych z plików tekstowych: read.table(), read.csv() i read.delim()
    • wczytywanie bardzo ciężkich plików: pakiety readr i data.table
    • import danych z zewnętrznych aplikacji, np. SPSS: pakiet foreign
    • wczytywanie danych wprost ze źródła w internecie
    • wczytywanie danych z API systemów informatycznych
    • wczytywanie danych w formacie JSON i ich zamiana w format tabelaryczny
  5. Czyszczenie danych
    • długi i szeroki format danych, sposoby zamiany jednego na drugi: spread() i gather() z pakietu tidyr
    • sprawdzanie logicznej spójności danych
    • rekodowanie zmiennych: ifelse() vs. car::recode()
    • radzenie sobie z brakami danych: na.omit() i tidyr::replace_na()
  6. Analiza tabelaryczna
    • opis parametryczny zmiennych
    • tabela rozkładu zmiennej i wizualizacja rozkładu: histogramy, wykresy słupkowe, wykresy gęstości rozkładu
    • tabele kontyngencji i ich formatowanie: janitor::tabyl()
    • istotność zależności: test chi-kwadrat
    • interpretacja współczynnika istotności statystycznej
    • siła zależności: współczynnik V Cramera
    • wizualizacja tabel kontyngencji
      • skumulowane wykresy słupkowe
      • mapy cieplne (heatmap)
    • porównania wartości średnich w podgrupach
      • możliwości funkcji aggregate()
      • statystyki w podgrupach z wykorzystaniem pakietu dplyr: group_by() %>% summarize()
    • testy różnic między średnimi
      • test t jednej próby
      • test t dla prób zależnych i niezależnych
      • analiza wariancji (ANOVA)
      • sprawdzanie czy spełnione są założenia modelu
      • metody poprawy modelu
    • wizualizacja różnic między średnimi
      • wykresy pudełkowe
      • wykresy liniowe
  7. Analiza korelacji
    • idea korelacji jako miernika siły współzależności
    • różnica między korelacją a wpływem / zależnością przyczynową
    • badanie liniowości związku na wykresie rozrzutu
    • nieliniowe przekształcanie zmiennych: rule of the bulge
    • wyliczanie współczynników korelacji
      • liniowe: r Pearsona
      • rangowe: rho Spearmana, tau Kendalla
      • dla zmiennych binarnych: Jaccard, Sørensen–Dice
      • dla zmiennych nominalnych: V Cramera, uncertainty coefficient
    • wizualizacja macierzy korelacji: korelogramy
    • radzenie sobie z brakami danych: metoda wyłączania przypadków parami (pairwise)
    • statystyczna istotność korelacji
  8. Modele regresyjne
    • model regresji jako narzędzie opisu i przewidywania
    • regresja liniowa: lm()
    • wizualizacja regresji jednej zmiennej: abline(lm())
    • interpretacja parametrów modelu
    • szacowanie siły wpływu: indeks Pratta
    • metody poprawy rozwiązania
      • sprawdzanie czy spełnione są założenia analizy regresji
      • testowanie normalności rozkładu
      • minimalizacja wzajemnego skorelowania predyktorów
      • ręczna i automatyczna selekcja predyktorów
      • eliminacja przypadków odstających
    • regresja wielomianowa
    • dodawanie do modelu interakcji między zmiennymi
  9. Analiza czynnikowa i analiza głównych składowych (PCA)
    • idea analizy czynnikowej
    • FA a PCA: podobieństwa i różnice
    • implementacja w R: funkcje princomp() i factanal()
    • wizualizacja wyników
    • dobór parametrów analizy
      • liczba czynników
      • selekcja zmiennych
      • metoda rotacji
    • interpretacja rozwiązania
    • zastosowania analizy czynnikowej
  10. Analiza skupień
    • zastosowania analizy skupień
    • znaczenie biznesowe segmentacji rynku
    • przygotowanie danych do analizy skupień
      • konstrukcja wskaźników
      • ortogonalizacja i standaryzacja zmiennych
      • eliminacja przypadków odstających
    • clustering hierarchiczny
      • wybór metody aglomeracji i metryki
      • podział zbioru na skupienia: hclust()
    • clustering k-średnich
      • wybór metody aglomeracji i metryki
      • podział zbioru na skupienia: kmeans()
    • selekcja rozwiązań
    • interpretacja wyników analizy skupień

Najbliższe terminy tego szkolenia

Co wyróżnia szkolenia Język R w JSystems?

Szkolenia na wysokim poziomie
Instruktorzy praktycy z wieloletnim doświadcze- niem
Znaczna część szkolenia to warsztaty
Komfortowe sale i przestrzeń wspólna
Małe grupy szkoleniowe
Gwarantowane terminy szkoleń
Dużo ćwiczeń
Przystępne ceny

Potrzebujesz więcej informacji?

Wiadomość wysłana

Przyjęliśmy Twoją wiadomość i skontaktujemy się z Tobą w tej sprawie

Klikając OK wrócisz do formularza

Nasza strona korzysta z plików cookie. Możesz zmienić zasady ich używania lub zablokować pliki cookie w ustawieniach przeglądarki. Więcej informacji można znaleźć w Polityce prywatności. Kontynuując korzystanie ze strony, wyrażasz zgodę na używanie plików cookie.