Stepik основы статистики

·

Next:: stepik Основы статистики - часть 2

Хороший курс для совсем основ по статистике. Чем-то напомнило книжку “Статистика и котики”. Только в данном случае был большой упор на группы, построение гипотез и правильную их проверку. Правда, тут речь везде о классической статистики, которая ещё не учитывает изменения из [[Book of why]].

Материалы

Введение

  • Генеральная совокупность - срез множества, на которой мы хотим обобщить результаты наших исследований. Так как совокупность может быть большая, то мы делаем выборку для создания модели.
  • Создание выборки
    • случайная выборка
    • стратификация
    • групировка / кластерная
  • Типы переменных
    • количественные - дискретные, непрерывные
    • качественные - меняем на цифры, но цифры не несут смысла
    • ранговая - что-то среднее, потому что дискретная, но доступно только операция сравнения
  • Мера среднего
    • Мода - самая часто встречаемое значение
    • Медиана - отсортировать, взять элемент по середине, в случае чётного среднее между +/-1
    • Средне арифметическое - sum/count
  • Мера изменчивости
    • размах - max-min
    • дисперсия - квадрат отклонений от среднего поделить на count
    • среднеквадратичное отклонение (σ) - квадратный корень из дисперсии (неотрицательное)
  • Box plot - график, который в виде ящика рисует всё от 1 до 3 квартеля, где посередине - медиана. А полоски рисуют в виде 1.5 распределений.
  • Нормальное распеределение
    • унимодальное-симметричное распределение
    • подчинается распределениею где 99.9% попадает в 3 сигмы, 95% в 2 сигмы, и 68% в 1 сигму
    • z-преобразование - или приведение среднего к нулю, а дисперсии к 1. Для этого из каждого значения вычитается среднее, и общая разность делится на дисперсию сигму.
  • Центральная предельная теорема - позволяет по репрезентативной выборке, найти отклонение от средней у генеральной совокупности.
  • Доверительные интервалы - это возможно по частном средную из репрезатативной выборки дать диапазон, где лежит среднее генеральной совокупности
  • p-value - это вероятность того, что если нулевая гипотеза верна, то в каком проценте случаев мы получили бы свои результаты.

Сравнение средних

  • Распределение Стьюдента - это коррекция выборочного среднего в рамках сравнения, когда у нас мало данных в выборке (<30).
  • Критерий t-Стьюдента - это проверка то, что наши средние выборочные достаточно равны друг другу, чтобы принять нулевую гипотезу о том, что они принадлежат одной генеральной совокупности.
  • QQ plot (квантиль квантиль) - это графическая проверка на нормальность данных. Точки должны быть расположены на прямой y = x.
  • Тест Shapiro-Wilk проверяет, что наша генеральная совокупность имеет нормальное распределение.
  • U критерий Whitney - аналог для ненормальной выборки с помощью перехода к ранговой шкале.
  • Однофакторный дисперсионный анализ - сравнение нескольких групп между собой
  • SSTotal - сумма квадратов разницы между общим средним
    • SSWithin - сумма квадратов разницы внутри своей группы и соответствующим средним
    • SSBetween - сумма квадратов разницы между средним группы и общим средним
  • Fishper критерий - (SSB / m - 1) / (SSW / N - m)
  • Поправка Бенферонни - для попарного сравнения средних между группами требуемое p-value делиться на количество попарных сравнений
  • Критерий Тьюки - менее консервативный критерий для множественного попарного анализа групп для выявления значимых различий
  • Многофакторный анализ - это метод для сравнения зависимой переменной от нескольких независимой переменной. Для его проведения необходима нормальное распределение зависимой переменной и гомогенность дисперсии между группами.

Корреляция и регрессия

  • ковариация - сумма произведений попарных отклонений от средних делённых на количество измерений
  • коэффициент корреляции - ковариация / произведение отклонений. Это делается, чтобы нормировать коэффициент в область -1 ; -1. Этот критерий можно применять только при монотонной и линейной выборке.
  • коэффициент детерминации - квадрат от корреляции.
  • метод наименьших квадратов - это формула для построения линии регрессии на основе отношения стандартных отклонений умноженных на коэффициент корреляции
  • Гомоскедастичность - одинаковая изменчивость зависимой переменной на всех уровнях независимой переменной (постоянная изменчивость остатков), одно из условий для применения линейной регрессии.
  • Регрессионная модель с множественными переменами показывает связь только при их независимости. Что довольно странно с учётом реального мира :(
  • В случае множественной регрессионной модели, коэффициент детерминации требует поправки. То есть он совпадает не с квадратом корреляции.
  • При проведение регрессионной модели с множественными переменами надо понимать, что дополнительные независимые переменные которые сильно коррелируют с другой независимой переменной могут ухудшить модель.
  • Помимо линейной регресионной модели, есть альтернативные исследования которые позволяют нам сгруппировать некоторым образом данные по кластерам для совместного их изучения.

Обратные ссылки