Ковариация
Содержание:
- Как оценивать ковариацию и корреляцию доходности?
- Ковариация
- Особенности использования функций КОВАР, КОВАРИАЦИЯ.В и КОВАРИАЦИЯ.Г в Excel
- Резюмируем
- Статистический анализ ковариации показателей в Excel
- Построение парной регрессионной модели
- 15.4 Корреляция
- Корреляционный анализ
- Коэффициент корреляции в Excel: что это, как рассчитать? Формула, пример, анализ данных онлайн
- Использование функций КОВАР, КОВАРИАЦИЯ.В и КОВАРИАЦИЯ.Г в Excel
- Вычисляем коэффициент ковариации.
- Как выполняется корреляция в Excel?
- Проверяем значимость коэффициента корреляции (проверяем гипотезу зависимости).
- отклонение
Как оценивать ковариацию и корреляцию доходности?
Часто мы делаем прогнозы на основе исторической ковариации или используем другие методы, основанные на исторических данных о доходности, такие как регрессионная модель рынка.
Мы также можем рассчитать ковариацию, используя функцию совместной вероятности случайных величин, если ее можно оценить.
Функция совместной вероятности (англ. ‘joint probability function’) двух случайных величин X и Y, обозначенная как P(X, Y), дает вероятность совместного появления значений X и Y. Например, P(3,2) — это вероятность того, что X равен 3 и Y равен 2.
Предположим, что функция совместной вероятности доходности акций BankCorp(RA) и доходностей акций NewBank(RB) имеет простую структуру, приведенную в Таблице 12.
RB = 20% |
RB = 16% |
RB = 10% |
|
---|---|---|---|
RA = 25% |
0.20 |
||
RA = 12% |
0.50 |
||
RA = 10% |
0.30 |
Ожидаемая доходность акций BankCorp составляет 0.20(25%) + 0.50(12%) + 0.30(10%) = 14%. Ожидаемая доходность акций NewBank составляет 0.20(20%) + 0.50(16%) + 0.30(10%) = 15%.
Функция совместной вероятности, приведенная выше, может отражать анализ, основанный на том, является ли состояние банковской отрасли хорошим, средним или плохим.
В таблице 13 представлен расчет ковариации.
Состояние банковской индустрии |
Отклоне- |
Отклоне- |
Произ- |
Вероят- |
Произ- |
---|---|---|---|---|---|
Хорошее |
25-14 |
20-15 |
55 |
0.20 |
11 |
Среднее |
12-14 |
16-15 |
-2 |
0.50 |
-1 |
Плохое |
10-14 |
10-15 |
20 |
0.30 |
6 |
Cov(RA,RB) = 16 |
Примечание. Ожидаемая доходность для BankCorp составляет 14%, а для NewBank — 15%.
Первый и второй столбцы чисел показывают, соответственно, отклонения доходности BankCorp и NewBank от их среднего или ожидаемого значения.
В следующем столбце показано произведение отклонений. Например, для хорошего состояния отрасли (25–14)(20–15) = 11(5) = 55.
Затем 55 умножается на 0.20 или взвешивается на вероятность того, что условия банковской отрасли являются хорошими: 55(0.20) = 11.
Расчеты для средних и плохих банковских условий выполняются по той же схеме. Суммируя эти взвешенные по вероятности произведения, получим, что \(\textrm{Cov}(R_A,R_B) = 16.
Формула для вычисления ковариации между случайными переменными \(R_A\) и \(R_B\) имеет вид:
\( \textrm{Cov}(R_A,R_B) = \sum_{i} \sum_{j} P(R_{A,j},R_{B,j})(R_{A,j} — ER_A)(R_{B,j} — ER_B) \)(формула 18)
Формула предписывает нам суммировать все возможные отклонения перекрестных произведений, взвешенных по соответствующей совместной вероятности.
В этом примере, как показано в Таблице 12, только три совместные вероятности отличны от нуля. Следовательно, при вычислении ковариации доходности в этом случае нам нужно учитывать только три перекрестных произведения:
\( \begin{aligned} \textrm{Cov}(R_A,R_B) &= P(25,20) \big \\ &+ P(12,16) \big \\ &+ P(10,10) \big \\ &= 0,20(11)(5) + 0,50(-2)(1) + 0,30(-4)(- 5) \\ &= 11 — 1 + 6 = 16 \end{aligned} \)
Одной из тем этого чтения была независимость событий. Две случайные переменные являются независимыми, когда каждая возможная пара событий (одно событие, соответствующее значению X, и другое событие, соответствующее значению Y) — являются независимыми событиями. Когда две случайные величины независимы, их функция совместной вероятности упрощается.
Ковариация
Особенности использования функций КОВАР, КОВАРИАЦИЯ.В и КОВАРИАЦИЯ.Г в Excel
Функция КОВАР имеет следующий синтаксис:
= КОВАР(массив1;массив2)
Функция КОВАРИАЦИЯ.В имеет следующую синтаксическую запись:
= КОВАРИАЦИЯ.В(массив1;массив2)
Синтаксис функции КОВАРИАЦИЯ.Г:
= КОВАРИАЦИЯ.Г(массив1;массив2)
Все рассматриваемые функции принимают на вход следующие аргументы:
- массив1 – обязательный аргумент, характеризующий первый массив или диапазон ячеек, содержащих данные числового типа, которые являются всей генеральной совокупностью данных (для функций КОВАРИАЦИЯ.Г и КОВАР) или выборкой (для функции КОВАРИАЦИЯ.В);
- массив2 – обязательный аргумент, характеризующий второй массив или диапазон ячеек с числовыми значениями (генеральная совокупность либо выборка, чем обусловлен выбор функции для расчета).
Примечания 1:
- Все рассматриваемые функции принимают в качестве аргументов массивы или ссылки на диапазоны ячеек, содержащие текстовые, логические, числовые и данные других типов.
- Число элементов в диапазонах или массивах, переданных в качестве аргументов массив1 и массив2 должны совпадать. В противном случае все рассматриваемые функции вернут код ошибки #Н/Д.
- При расчете не учитываются значения типа Текст, Имя, логические значения (ИСТИНА, ЛОЖЬ), ссылки на пустые ячейки. Однако ячейки, содержащие числовое значения 0 (нуль), будут учтены.
- Если рассматриваемые функции в качестве аргументов принимают:
- Диапазоны пустых ячеек, результатом их выполнения будет код ошибки #ЗНАЧ! (принимают по одной пустой ячейке в качестве каждого аргумента) или #ДЕЛ/0! (принимают по несколько пустых ячеек в качестве аргументов);
- Массивы, состоящие из одного элемента или по одной ячейке в качестве каждого аргумента, функции КОВАРИАЦИЯ.Г и КОВАР вернут числовое значение 0, а функция КОВАРИАЦИЯ.В – код ошибки #ДЕЛ/0!.
Примечания 2:
- Ковариация – величина, характеризующая линейную зависимость, установившуюся между двумя рядами случайных величин X и Y. Она соответствует математическому ожиданию произведения отклонений X и Y от их центров распределений. Коэффициент ковариации может быть выражен отрицательным, положительным числами и нулем, при этом:
- Если с ростом значений X более вероятные появления больших значений Y и наоборот, между двумя диапазонами существует прямая связь, о чем свидетельствует положительное значение коэффициента ковариации;
- Если с ростом X величина Y имеет тенденцию к снижению и наоборот, устанавливается обратная зависимость, выражаемая отрицательным значением коэффициента ковариации;
- Если между X и Y устанавливается слабая взаимосвязь (при изменениях X изменения Y являются непоследовательными, хаотичными), значение коэффициента ковариации стремится к нулю.
Примечания 3:
- Функция КОВАР являлась стандартной функцией для расчета ковариации в ранних версиях Excel (2007 и более старых) и оставлена для обеспечения совместимости. В последующих версиях Excel она может отсутствовать, поэтому рекомендуется использовать функции КОВАРИАЦИЯ.В и КОВАРИАЦИЯ.Г.
- Выборка – это подмножество величин одного множества, называемого генеральной совокупностью. Другими словами, выборкой считается результат ограниченного ряда наблюдений какого-либо одно или нескольких признаков. Например, при изучении банковской системы государства генеральной совокупностью являются все банковские организации страны, а выборкой – банки города Санкт-Петербург.
- В отличие от коэффициента корреляции, значение коэффициента ковариации не ограничено диапазоном чисел от -1 до 1.
- При определении коэффициента ковариации одних и тех же двух диапазонов чисел функции КОВАР и КОВАРИАЦИЯ.Г вернут одинаковый результат, отличающийся от числового значения, которое вернет функция КОВАРИАЦИЯ.В, поскольку они используют разные алгоритмы расчетов.
Резюмируем
Вот, что мы узнали про язык R:
- Что такое R?
- Как установить R?
- Где писать код на R?
- Что такое R-скрипт и R-пакет?
- Какие типы данных есть в R?
- Как декларировать переменные и их область действия в R?
- Как писать комментарии?
- Что такое векторы?
- Что такое матрица?
- Что собой представляют списки?
- Что такое датафреймы?
- Различные логические операции в R.
- Функции в R.
- Циклы в R.
- Считывание и запись внешних данных в R.
- Как производить статистические вычисления в R.
- Построение графиков и диаграмм в R.
- Объектно-ориентированное программирование в R.
- Как установить внешние библиотеки R.
- Знаменитые библиотеки R.
Я рассказал о языке программирования R, начиная с основ именно в таком формате, чтобы вам было проще его понять. И снова подчёркиваю, что ключ к продвижению в программировании — постоянная практика: чем больше, тем лучше.
Упорства и успехов!
- Анализ текста средствами языка программирования R
- Новое в Android 11
- Кто на свете всех сильнее - Java, Go и Rust в сравнении
Перевод статьи Farhad MalikR — Statistical Programming Language
Статистический анализ ковариации показателей в Excel
Пример 3. В таблице Excel введены данные о спросе на алкогольные напитки, индексе цен и уровне дохода населения государства. Проанализировать взаимосвязи между имеющимися данными.
Вид исходной таблицы данных:
Вначале рассчитаем ковариацию между спросом и индексом цен по формуле:
Полученный результат:
Для оценки степени взаимосвязи двух диапазонов данных удобнее использовать коэффициент корреляции, который можно рассчитать без использования функции КОРРЕЛ следующим способом:
=B12/КОРЕНЬ(ДИСП.Г(B3:B10)*ДИСП.Г(C3:C10))
Функция ДИСП.Г используется для расчета дисперсии генеральной совокупности. Приведенная выше формула наглядно демонстрирует взаимосвязь между коэффициентами ковариации и корреляции.
Полученный результат:
Как видно, между ценами и спросом существует довольно сильная обратная связь. Однако для определения степени влияния спроса определим коэффициент детерминации r2 по формуле:
=СТЕПЕНЬ(B13;2)
Полученное значение, выраженное в процентах:
То есть, примерно 59% вариации спроса за исследуемый период обусловлены изменчивостью цены. Остальные 41% — прочими факторами. А еще одним фактором в данном примере является уровень дохода. Рассчитаем коэффициент корреляции между спросом и доходами с помощью следующей функции:
=КОРРЕЛ(B3:B10;D3:D10)
Результат:
Положительное значение 0,741 соответствует о наличии довольно сильной зависимости между ростом уровня доходов и спросом. Чтобы определить общий коэффициент корреляции и сделать выводы, найдем коэффициент корреляции между индексом цен и уровнем доходов:
=КОРРЕЛ(C3:C10;D3:D10)
Результат:
Имеем не сильно выраженную обратную взаимосвязь. Теперь выполним расчет общего коэффициента корреляции по формуле:
=(B13-B15*B16)/КОРЕНЬ((1-СТЕПЕНЬ(B15;2))*(1-СТЕПЕНЬ(B16;2)))
Результат:
Расчеты показывают, что влияние роста цен на уровень спроса «сглаживается» благодаря росту уровня дохода населения. Корень квадратный из последнего значения, взятого по модулю, равен примерно 91%, показывая, насколько вариация цен определяла вариация спроса на алкогольные напитки, если не брать в учет параллельное изменение уровня дохода.
Построение парной регрессионной модели
Рекомендации к решению контрольной работы.
Статистические данные по экономике можно получить на странице Россия в цифрах.
После определения зависимой и объясняющих переменных можно воспользоваться сервисом Множественная регрессия. Регрессионную модель с 2-мя объясняющими переменными можно построить используя матричный метод нахождения параметров уравнения регрессии или метод Крамера для нахождения параметров уравнения регрессии.
Пример №3. Исследуется зависимость размера дивидендов y акций группы компаний от доходности акций x1, дохода компании x2 и объема инвестиций в расширение и модернизацию производства x3. Исходные данные представлены выборкой объема n=50.
Тема I. Парная линейная регрессия
Постройте парные линейные регрессии — зависимости признака y от факторов x1, x2, x3 взятых по отдельности. Для каждой объясняющей переменной:
- Постройте диаграмму рассеяния (поле корреляции). При построении выберите тип диаграммы «Точечная» (без отрезков, соединяющих точки).
- Вычислите коэффициенты уравнения выборочной парной линейной регрессии (для вычисления коэффициентов регрессии воспользуйтесь встроенной функцией ЛИНЕЙН (функция находится в категории «Статистические») или надстройкой Пакет Анализа), коэффициент детерминации, коэффициент корреляции (функция КОРЕЛЛ), среднюю ошибку аппроксимации .
- Запишите полученное уравнение выборочной регрессии. Дайте интерпретацию найденным в предыдущем пункте значениям.
- Постройте на поле корреляции прямую линию выборочной регрессии по точкам .
- Постройте диаграмму остатков.
- Проверьте статистическую значимость коэффициентов регрессии по критерию Стьюдента (табличное значение определите с помощью функции СТЬЮДРАСПОБР) и всего уравнения в целом по критерию Фишера (табличное значение Fтабл определите с помощью функции FРАСПОБР).
- Постройте доверительные интервалы для коэффициентов регрессии. Дайте им интерпретацию.
- Постройте прогноз для значения фактора, на 50% превышающего его среднее значение.
- Постройте доверительный интервал прогноза. Дайте ему экономическую интерпретацию.
- Оцените полученные результаты — сделайте выводы о качестве построенной модели, влиянии рассматриваемого фактора на показатель.
Тема II. Множественная линейная регрессия
1. Постройте выборочную множественную линейную регрессию показателя на все указанные факторы. Запишите полученное уравнение, дайте ему экономическую интерпретацию.
2. Определите коэффициент детерминации, дайте ему интерпретацию. Вычислите среднюю абсолютную ошибку аппроксимации и дайте ей интерпретацию.
3. Проверьте статистическую значимость каждого из коэффициентов и всего уравнения в целом.
4. Постройте диаграмму остатков.
5. Постройте доверительные интервалы коэффициентов. Для статистически значимых коэффициентов дайте интерпретации доверительных интервалов.
6. Постройте точечный прогноз значения показателя yпри значениях факторов, на 50% превышающих их средние значения.
7. Постройте доверительный интервал прогноза, дайте ему экономическую интерпретацию.
8. Постройте матрицу коэффициентов выборочной корреляции между показателем и факторами. Сделайте вывод о наличии проблемы мультиколлинеарности.
9. Оцените полученные результаты — сделайте выводы о качестве построенной модели, влиянии рассматриваемых факторов на показатель.
15.4 Корреляция
Корреляция — это мера ассоциации/связи двух числовых переменных. Помните, что бытовое применение этого термина к категориальным переменным (например, корреляция цвета глаз и успеваемость на занятиях по R) не имеет смысла с точки зрения статистики.
15.4.1 Корреляция Пирсона
Коэффициент корреляции Пирсона — базовый коэффициент ассоциации переменных, однако стоит помнить, что он дает неправильную оценку, если связь между переменными нелинейна.
\
где
- \((x_1, y_1), …, (x_n, y_n)\) — пары наблюдений;
- \(\bar{x}, \bar{y}\) — средние наблюдений;
- \(X, Y\) — векторы всех наблюдений;
- \(n\) — количество наблюдений.
Последнее уравнение показывает, что коэффициент корреляции Пирсона можно представить как среднее (с поправкой, поэтому \(n-1\), а не \(n\)) произведение \(z\)-нормализованных значений двух переменных.
Эта нормализация приводит к тому, что
- значения корреляции имеют те же свойства знака коэффициента что и ковариация:
- если коэффициент положительный (т. е. много красных прямоугольников) — связь между переменными положительная (чем больше \(x\), тем больше \(y\)),
- если коэффициент отрицательный (т. е. много синих прямоугольников) — связь между переменными отрицательная (чем больше \(x\), тем меньше \(y\));
- значение корреляции имееет независимое от типа данных интеретация:
- если модуль коэффициента близок к 1 или ему равен — связь между переменными сильная,
- если модуль коэффициента близок к 0 или ему равен — связь между переменными слабая.
Для того чтобы было понятнее, что такое корреляция, давайте рассмотрим несколько расспределений с разными значениями корреляции:
Как видно из этого графика, чем ближе модуль корреляции к 1, тем боллее компактно расположены точки друг к другу, чем ближе к 0, тем более рассеяны значения. Достаточно легко научиться приблизительно оценивать коэфициент корреляции на глаз, поиграв 2–5 минут в игру “Угадай корреляцию” здесь или здесь.
В R коэффициент корреляции Пирсона можно посчитать при помощи функции .
Проверим, что функция выдает то же, что мы записали в формуле.
Посчитайте на основе датасета с температурой корреляцию между разными измерениями в шкалах Фарингейта и Цельсия? Результаты округлите до трех знаков после запятой.
Корреляционный анализ
Корреляционный анализ — метод обработки статистических данных, с помощью которого измеряется теснота связи между двумя или более переменными. Корреляционный анализ тесно связан с регрессионным анализом (также часто встречается термин «корреляционно-регрессионный анализ», который является более общим статистическим понятием), с его помощью определяют необходимость включения тех или иных факторов в уравнение множественной регрессии, а также оценивают полученное уравнение регрессии на соответствие выявленным связям (используя коэффициент детерминации).
Ограничения корреляционного анализа
Множество корреляционных полей. Распределения значений (x,y){\displaystyle (x,y)} с соответствующими коэффициентами корреляций для каждого из них. Коэффициент корреляции отражает «зашумлённость» линейной зависимости (верхняя строка), но не описывает наклон линейной зависимости (средняя строка), и совсем не подходит для описания сложных, нелинейных зависимостей (нижняя строка). Для распределения, показанного в центре рисунка, коэффициент корреляции не определен, так как дисперсия y равна нулю.
- Применение возможно при наличии достаточного количества наблюдений для изучения. На практике считается, что число наблюдений должно не менее чем в 5-6 раз превышать число факторов (также встречается рекомендация использовать пропорцию, не менее чем в 10 раз превышающую количество факторов). В случае если число наблюдений превышает количество факторов в десятки раз, в действие вступает закон больших чисел, который обеспечивает взаимопогашение случайных колебаний.
- Необходимо, чтобы совокупность значений всех факторных и результативного признаков подчинялась многомерному нормальному распределению. В случае если объём совокупности недостаточен для проведения формального тестирования на нормальность распределения, то закон распределения определяется визуально на основе корреляционного поля. Если в расположении точек на этом поле наблюдается линейная тенденция, то можно предположить, что совокупность исходных данных подчиняется нормальному закону распределения.
- Исходная совокупность значений должна быть качественно однородной.
- Сам по себе факт корреляционной зависимости не даёт основания утверждать, что одна из переменных предшествует или является причиной изменений, или то, что переменные вообще причинно связаны между собой, а не наблюдается действие третьего фактора.
Область применения
Данный метод обработки статистических данных весьма популярен в экономике, астрофизике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение, агрохимия, гидробиология, биометрия и прочие. В различных прикладных отраслях приняты разные границы интервалов для оценки тесноты и значимости связи.
Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.
Коэффициент корреляции в Excel: что это, как рассчитать? Формула, пример, анализ данных онлайн
Использование функций КОВАР, КОВАРИАЦИЯ.В и КОВАРИАЦИЯ.Г в Excel
Пример 1. В таблице Excel содержится два диапазона данных, значения первого из которых характеризуют количество прочитанных книг за год каждым учеником, отобранным из нескольких классов школы, а второй – итоговую оценку по литературе по 10-бальной шкале. Определить коэффициент ковариации двух диапазонов данных.
Вид исходной таблицы:
Поскольку для анализа были отобраны по несколько учеников различных классов, оба диапазона можно считать выборками из генеральной совокупности, которой являются все ученики 9-го класса данной школы. Используем следующую функцию:
Описание аргументов:
- B3:B14 – диапазон ячеек, содержащих данные о количестве прочитанных книг;
- C3:C14 – диапазон ячеек с итоговыми оценками по предмету.
Полученный результат:
Полученное значение свидетельствует о наличии прямой связи между значениями из двух диапазонов. То есть, можно полагать, что ученик, прочитавший большее количество книг, получит более высокую оценку за предмет.
Вычисляем коэффициент ковариации.
cov(X,Y) | = |
|
|
(xk-Mx)(yk-My) ( 1.1 ), где: |
Mx | = |
|
|
xk , | My | = |
|
|
yk ( 1.2 ), — оценки математического ожидания случайных величин X и Y соответственно. |
1.1. Вычислим оценку математического ожидания случайной величины Х1.1.1.12111.1.2.Mx = 51.0000001.2. Аналогичным образом вычислим оценку математического ожидания случайной величины Y1.2.1.12111.2.2.My = 13.1818181.3.kxky1.4.kxkyТаблица 1
k | xk | yk | ( хk-Mx ) | ( yk-My ) | ( хk-Mx )•( yk-My ) |
1 | 2 | 3 | 4 | 5 | 6 |
1 | 51 | 13 | 0.00000 | -0.18182 | 0.00000 |
2 | 50 | 15 | -1.00000 | 1.81818 | -1.81818 |
3 | 48 | 13 | -3.00000 | -0.18182 | 0.54545 |
4 | 51 | 16 | 0.00000 | 2.81818 | 0.00000 |
5 | 46 | 12 | -5.00000 | -1.18182 | 5.90909 |
6 | 47 | 14 | -4.00000 | 0.81818 | -3.27273 |
7 | 49 | 12 | -2.00000 | -1.18182 | 2.36364 |
8 | 60 | 10 | 9.00000 | -3.18182 | -28.63636 |
9 | 51 | 18 | 0.00000 | 4.81818 | 0.00000 |
10 | 52 | 10 | 1.00000 | -3.18182 | -3.18182 |
11 | 56 | 12 | 5.00000 | -1.18182 | -5.90909 |
1.5.cov(X,Y)1.5.1.12111.5.2.ОТВЕТ: cov(X,Y) = -3.090909
Как выполняется корреляция в Excel?
«Корреляция» в переводе с латинского обозначает «соотношение», «взаимосвязь». Количественная характеристика взаимосвязи может быть получена при вычислении коэффициента корреляции.
Этот популярный в статистических анализах коэффициент показывает, связаны ли какие-либо параметры друг с другом (например, рост и вес; уровень интеллекта и успеваемость; количество травм и продолжительность работы).
Использование корреляции
Вычисление корреляции особенно широко используется в экономике, социологических исследованиях, медицине и биометрии — везде, где можно получить два массива данных, между которыми может обнаружиться связь.
Рассчитать корреляцию можно вручную, выполняя несложные арифметические действия. Однако процесс вычисления оказывается очень трудоемким, если набор данных велик. Особенность метода в том, что он требует сбора большого количества исходных данных, чтобы наиболее точно отобразить, есть ли связь между признаками.
Поэтому серьезное использование корреляционного анализа невозможно без применения вычислительной техники. Одной из наиболее популярных и доступных программ для решения этой задачи является Microsoft Office Excel.
Как выполнить корреляцию в Excel?
Самым трудоемким этапом определения корреляции является набор массива данных. Сравниваемые данные располагаются обычно в двух колонках или строчках. Таблицу следует делать без пропусков в ячейках. Современные версии Excel (с 2007 и младше) не требуют установок дополнительных настроек для статистических расчетов; необходимые манипуляции можно сделать в разделе формул:
- Выбрать пустую ячейку, в которую будет выведен результат расчетов.
- Нажать в главном меню Excel пункт «Формулы».
- Среди кнопок, сгруппированных в «Библиотеку функций», выбрать «Другие функции».
- В выпадающих списках выбрать функцию расчета корреляции (Статистические — КОРРЕЛ).
- В Excel откроется панель «Аргументы функции». «Массив 1» и «Массив 2» — это диапазоны сравниваемых данных. Для автоматического заполнения этих полей можно просто выделить нужные ячейки таблицы.
- Нажать «ОК», закрыв окно аргументов функции. В ячейке появится подсчитанный коэффициент корреляции.
Проверяем значимость коэффициента корреляции (проверяем гипотезу зависимости).
Поскольку оценка коэффициента корреляции вычислена на конечной выборке, и поэтому может отклоняться от своего генерального значения,
необходимо проверить значимость коэффициента корреляции. Проверка производится с помощью t-критерия:
t = |
|
( 3.1 ) |
Случайная величина t следует t-распределению Стьюдента
и по таблице t-распределения необходимо найти критическое значение критерия (tкр.α) при заданном уровне
значимости α. Если вычисленное по формуле ( 3.1 ) t по модулю окажется меньше
чем tкр.α, то зависимости между случайными величинами X и Y нет. В противном случае, экспериментальные
данные не противоречат гипотезе о зависимости случайных величин.
3.1.t
t = |
|
= -1.10601 |
3.2.ttкр.αtкр.αα9α0.05tкр.α2.262
Таблица 3 t-распределение
Число степеней свободы( n — 2 ) | α = 0.1 | α = 0.05 | α = 0.02 | α = 0.01 | α = 0.002 | α = 0.001 |
1 | 6.314 | 12.706 | 31.821 | 63.657 | 318.31 | 636.62 |
2 | 2.920 | 4.303 | 6.965 | 9.925 | 22.327 | 31.598 |
3 | 2.353 | 3.182 | 4.541 | 5.841 | 10.214 | 12.924 |
4 | 2.132 | 2.776 | 3.747 | 4.604 | 7.173 | 8.610 |
5 | 2.015 | 2.571 | 3.365 | 4.032 | 5.893 | 6.869 |
6 | 1.943 | 2.447 | 3.143 | 3.707 | 5.208 | 5.959 |
7 | 1.895 | 2.365 | 2.998 | 3.499 | 4.785 | 5.408 |
8 | 1.860 | 2.306 | 2.896 | 3.355 | 4.501 | 5.041 |
9 | 1.833 | 2.262 | 2.821 | 3.250 | 4.297 | 4.781 |
10 | 1.812 | 2.228 | 2.764 | 3.169 | 4.144 | 4.587 |
11 | 1.796 | 2.201 | 2.718 | 3.106 | 4.025 | 4.437 |
12 | 1.782 | 2.179 | 2.681 | 3.055 | 3.930 | 4.318 |
13 | 1.771 | 2.160 | 2.650 | 3.012 | 3.852 | 4.221 |
14 | 1.761 | 2.145 | 2.624 | 2.977 | 3.787 | 4.140 |
15 | 1.753 | 2.131 | 2.602 | 2.947 | 3.733 | 4.073 |
16 | 1.746 | 2.120 | 2.583 | 2.921 | 3.686 | 4.015 |
17 | 1.740 | 2.110 | 2.567 | 2.898 | 3.646 | 3.965 |
18 | 1.734 | 2.101 | 2.552 | 2.878 | 3.610 | 3.922 |
19 | 1.729 | 2.093 | 2.539 | 2.861 | 3.579 | 3.883 |
20 | 1.725 | 2.086 | 2.528 | 2.845 | 3.552 | 3.850 |
21 | 1.721 | 2.080 | 2.518 | 2.831 | 3.527 | 3.819 |
22 | 1.717 | 2.074 | 2.508 | 2.819 | 3.505 | 3.792 |
23 | 1.714 | 2.069 | 2.500 | 2.807 | 3.485 | 3.767 |
24 | 1.711 | 2.064 | 2.492 | 2.797 | 3.467 | 3.745 |
25 | 1.708 | 2.060 | 2.485 | 2.787 | 3.450 | 3.725 |
26 | 1.706 | 2.056 | 2.479 | 2.779 | 3.435 | 3.707 |
27 | 1.703 | 2.052 | 2.473 | 2.771 | 3.421 | 3.690 |
28 | 1.701 | 2.048 | 2.467 | 2.763 | 3.408 | 3.674 |
29 | 1.699 | 2.045 | 2.462 | 2.756 | 3.396 | 3.659 |
30 | 1.697 | 2.042 | 2.457 | 2.750 | 3.385 | 3.646 |
40 | 1.684 | 2.021 | 2.423 | 2.704 | 3.307 | 3.551 |
60 | 1.671 | 2.000 | 2.390 | 2.660 | 3.232 | 3.460 |
120 | 1.658 | 1.980 | 2.358 | 2.617 | 3.160 | 3.373 |
∞ | 1.645 | 1.960 | 2.326 | 2.576 | 3.090 | 3.291 |
3.2.ttкр.αt
отклонение
По вероятности, дисперсия некоторой случайной величины X является мерой того, насколько значения в распределении варьируются в среднем по отношению к среднему.
Дисперсия обозначается как функция Var () для переменной.
Дисперсия рассчитывается как среднеквадратическая разница каждого значения в распределении от ожидаемого значения. Или ожидаемое квадратичное отличие от ожидаемого значения.
Предполагая, что ожидаемое значение переменной было вычислено (E ), дисперсия случайной величины может быть рассчитана как сумма квадратов разности каждого примера от ожидаемого значения, умноженного на вероятность этого значения.
Если вероятность каждого примера в распределении равна, вычисление дисперсии может отбросить отдельные вероятности и умножить сумму квадратов разностей на обратную величину количества примеров в распределении.
В статистике дисперсию можно оценить из выборки примеров, взятых из домена.
В реферате выборочная дисперсия обозначается сигмой в нижнем регистре с 2 верхними индексами, указывающими, что единицы возведены в квадрат, а не то, что вы должны возвести в квадрат окончательное значение. Сумма квадратов разностей умножается на обратную величину количества примеров минус 1, чтобы скорректировать смещение.
В NumPy дисперсию можно рассчитать для вектора или матрицы с помощью функции var (). По умолчанию функция var () вычисляет дисперсию населения. Чтобы вычислить выборочную дисперсию, вы должны установить аргумент ddof в значение 1.
В приведенном ниже примере определяется 6-элементный вектор и вычисляется выборочная дисперсия.
При выполнении примера сначала печатается определенный вектор, а затем вычисленная выборочная дисперсия значений в векторе
Функция var может вычислить дисперсию строки или столбца матрицы, указав аргумент оси и значение 0 или 1 соответственно, то же самое, что и средняя функция выше.
В приведенном ниже примере определяется матрица 2 × 6 и рассчитывается выборочная дисперсия столбца и строки.
При выполнении примера сначала печатается определенная матрица, а затем значения дисперсии выборки столбца и строки.
Стандартное отклонение рассчитывается как квадратный корень из дисперсии и обозначается строчными буквами «s».
Чтобы придерживаться этого обозначения, иногда дисперсия обозначается как s ^ 2, где 2 — верхний индекс, снова показывая, что единицы возведены в квадрат.
NumPy также предоставляет функцию для вычисления стандартного отклонения напрямую через функцию std (). Как и в случае функции var (), аргумент ddof должен быть установлен в 1 для расчета стандартного отклонения несмещенной выборки, а стандартные отклонения столбца и строки можно рассчитать, установив аргумент оси в 0 и 1 соответственно.
В приведенном ниже примере показано, как рассчитать стандартное отклонение выборки для строк и столбцов матрицы.
При выполнении примера сначала печатается определенная матрица, а затем значения стандартного отклонения выборки столбца и строки.