Stepik основы статистики
·
Next:: stepik Основы статистики - часть 2
Хороший курс для совсем основ по статистике. Чем-то напомнило книжку “Статистика и котики”. Только в данном случае был большой упор на группы, построение гипотез и правильную их проверку. Правда, тут речь везде о классической статистики, которая ещё не учитывает изменения из [[Book of why]].
Материалы
Введение
- Генеральная совокупность - срез множества, на которой мы хотим обобщить результаты наших исследований. Так как совокупность может быть большая, то мы делаем выборку для создания модели.
- Создание выборки
- случайная выборка
- стратификация
- групировка / кластерная
- Типы переменных
- количественные - дискретные, непрерывные
- качественные - меняем на цифры, но цифры не несут смысла
- ранговая - что-то среднее, потому что дискретная, но доступно только операция сравнения
- Мера среднего
- Мода - самая часто встречаемое значение
- Медиана - отсортировать, взять элемент по середине, в случае чётного среднее между +/-1
- Средне арифметическое - sum/count
- Мера изменчивости
- размах - max-min
- дисперсия - квадрат отклонений от среднего поделить на count
- среднеквадратичное отклонение (σ) - квадратный корень из дисперсии (неотрицательное)
- Box plot - график, который в виде ящика рисует всё от 1 до 3 квартеля, где посередине - медиана. А полоски рисуют в виде 1.5 распределений.
- Нормальное распеределение
- унимодальное-симметричное распределение
- подчинается распределениею где 99.9% попадает в 3 сигмы, 95% в 2 сигмы, и 68% в 1 сигму
- z-преобразование - или приведение среднего к нулю, а дисперсии к 1. Для этого из каждого значения вычитается среднее, и общая разность делится на
дисперсиюсигму.
- Центральная предельная теорема - позволяет по репрезентативной выборке, найти отклонение от средней у генеральной совокупности.
- Доверительные интервалы - это возможно по частном средную из репрезатативной выборки дать диапазон, где лежит среднее генеральной совокупности
- p-value - это вероятность того, что если нулевая гипотеза верна, то в каком проценте случаев мы получили бы свои результаты.
Сравнение средних
- Распределение Стьюдента - это коррекция выборочного среднего в рамках сравнения, когда у нас мало данных в выборке (<30).
- Критерий t-Стьюдента - это проверка то, что наши средние выборочные достаточно равны друг другу, чтобы принять нулевую гипотезу о том, что они принадлежат одной генеральной совокупности.
- QQ plot (квантиль квантиль) - это графическая проверка на нормальность данных. Точки должны быть расположены на прямой y = x.
- Тест Shapiro-Wilk проверяет, что наша генеральная совокупность имеет нормальное распределение.
- U критерий Whitney - аналог для ненормальной выборки с помощью перехода к ранговой шкале.
- Однофакторный дисперсионный анализ - сравнение нескольких групп между собой
- SSTotal - сумма квадратов разницы между общим средним
- SSWithin - сумма квадратов разницы внутри своей группы и соответствующим средним
- SSBetween - сумма квадратов разницы между средним группы и общим средним
- Fishper критерий - (SSB / m - 1) / (SSW / N - m)
- Поправка Бенферонни - для попарного сравнения средних между группами требуемое p-value делиться на количество попарных сравнений
- Критерий Тьюки - менее консервативный критерий для множественного попарного анализа групп для выявления значимых различий
- Многофакторный анализ - это метод для сравнения зависимой переменной от нескольких независимой переменной. Для его проведения необходима нормальное распределение зависимой переменной и гомогенность дисперсии между группами.
Корреляция и регрессия
- ковариация - сумма произведений попарных отклонений от средних делённых на количество измерений
- коэффициент корреляции - ковариация / произведение отклонений. Это делается, чтобы нормировать коэффициент в область -1 ; -1. Этот критерий можно применять только при монотонной и линейной выборке.
- коэффициент детерминации - квадрат от корреляции.
- метод наименьших квадратов - это формула для построения линии регрессии на основе отношения стандартных отклонений умноженных на коэффициент корреляции
- Гомоскедастичность - одинаковая изменчивость зависимой переменной на всех уровнях независимой переменной (постоянная изменчивость остатков), одно из условий для применения линейной регрессии.
- Регрессионная модель с множественными переменами показывает связь только при их независимости. Что довольно странно с учётом реального мира :(
- В случае множественной регрессионной модели, коэффициент детерминации требует поправки. То есть он совпадает не с квадратом корреляции.
- При проведение регрессионной модели с множественными переменами надо понимать, что дополнительные независимые переменные которые сильно коррелируют с другой независимой переменной могут ухудшить модель.
- Помимо линейной регресионной модели, есть альтернативные исследования которые позволяют нам сгруппировать некоторым образом данные по кластерам для совместного их изучения.
Обратные ссылки
Stepik основы статистики часть 2
Prev:: [[Openbox/courses/stepik Основы статистики|stepik Основы статистики]]