Содержание
- 9.1.5. Стандартизованный регрессионный коэффициент. Значимость
- Построение парной регрессионной модели
- Коэффициент корреляции
- Чувствительность к распределению данных
- Условия использования метода
- Ближайшая действительная корреляционная матрица
- Анализ полученных результатов
- 9.1.3. Простая линейная регрессия
- Использование ПО при проведении корреляционного анализа
- Расчет доверительного интервала для коэффициента корреляции в Excel
- Вычисление коэффициента посредством мастера функций
- Выборочный коэффициент корреляции
- Ковариация
- Трехмерное представление диаграммы разброса (рассеивания)
- 3) уравнение линейной регрессии на
- Парная корреляция
9.1.5. Стандартизованный регрессионный коэффициент. Значимость
Если в задаче простой линейной регрессии стандартизовать зависимую и независимую переменные, т.е. преобразовать переменные так, чтобы их дисперсии стали равными единице, то регрессионный коэффициент a совпадет с коэффициентом корреляции, а свободный член будет равен нулю, что видно непосредственно из вышеприведенных формул. Статистическая оценка значимости не меняется при допустимом преобразовании шкал, описывающих переменные, поэтому мы будем вести речь о значимости для стандартизованных переменных, поскольку это наиболее удобно.
Во-первых, заметим, что оценка \( R^2 \) не меняется при стандартизации, как и при любом другом линейном преобразовании переменных, поскольку на одинаковые константы умножаются все суммы квадратов \( S_{total} \), \( S_{model} \) и \( S_{error} \). Для оценки значимости аналогично тому, как это делали в дисперсионном анализе, составляется F-отношение:
\[ F=\frac{S_{model}/df_{model}}{S_{error}/df_{error}} \]
Чем больше это отношение, тем больше у нас оснований склониться к тому, что наша модель надежна, и тем уже доверительный интервал вокруг полученного углового коэффициента . Для числителя число степеней свободы равно единице, а для знаменателя n — 2, где n объем выборки (подробнее о степенях свободы в следующем параграфе). Далее — знакомая уже процедура: по полученному значению F находится вес верхнего хвоста соответствующего распределения Фишера, который отсекается данным значением.
Разумеется, значимость регрессионного коэффициента в простой линейной регрессии совпадет со значимостью коэффициента корреляции.
Построение парной регрессионной модели
Рекомендации к решению контрольной работы.
Статистические данные по экономике можно получить на странице Россия в цифрах.
После определения зависимой и объясняющих переменных можно воспользоваться сервисом Множественная регрессия. Регрессионную модель с 2-мя объясняющими переменными можно построить используя матричный метод нахождения параметров уравнения регрессии или метод Крамера для нахождения параметров уравнения регрессии.
Пример №3. Исследуется зависимость размера дивидендов y акций группы компаний от доходности акций x1, дохода компании x2 и объема инвестиций в расширение и модернизацию производства x3. Исходные данные представлены выборкой объема n=50.
Тема I. Парная линейная регрессия
Постройте парные линейные регрессии — зависимости признака y от факторов x1, x2, x3 взятых по отдельности. Для каждой объясняющей переменной:
- Постройте диаграмму рассеяния (поле корреляции). При построении выберите тип диаграммы «Точечная» (без отрезков, соединяющих точки).
- Вычислите коэффициенты уравнения выборочной парной линейной регрессии (для вычисления коэффициентов регрессии воспользуйтесь встроенной функцией ЛИНЕЙН (функция находится в категории «Статистические») или надстройкой Пакет Анализа), коэффициент детерминации, коэффициент корреляции (функция КОРЕЛЛ), среднюю ошибку аппроксимации .
- Запишите полученное уравнение выборочной регрессии. Дайте интерпретацию найденным в предыдущем пункте значениям.
- Постройте на поле корреляции прямую линию выборочной регрессии по точкам .
- Постройте диаграмму остатков.
- Проверьте статистическую значимость коэффициентов регрессии по критерию Стьюдента (табличное значение определите с помощью функции СТЬЮДРАСПОБР) и всего уравнения в целом по критерию Фишера (табличное значение Fтабл определите с помощью функции FРАСПОБР).
- Постройте доверительные интервалы для коэффициентов регрессии. Дайте им интерпретацию.
- Постройте прогноз для значения фактора, на 50% превышающего его среднее значение.
- Постройте доверительный интервал прогноза. Дайте ему экономическую интерпретацию.
- Оцените полученные результаты — сделайте выводы о качестве построенной модели, влиянии рассматриваемого фактора на показатель.
Тема II. Множественная линейная регрессия
1. Постройте выборочную множественную линейную регрессию показателя на все указанные факторы. Запишите полученное уравнение, дайте ему экономическую интерпретацию.
2. Определите коэффициент детерминации, дайте ему интерпретацию. Вычислите среднюю абсолютную ошибку аппроксимации и дайте ей интерпретацию.
3. Проверьте статистическую значимость каждого из коэффициентов и всего уравнения в целом.
4. Постройте диаграмму остатков.
5. Постройте доверительные интервалы коэффициентов. Для статистически значимых коэффициентов дайте интерпретации доверительных интервалов.
6. Постройте точечный прогноз значения показателя yпри значениях факторов, на 50% превышающих их средние значения.
7. Постройте доверительный интервал прогноза, дайте ему экономическую интерпретацию.
8. Постройте матрицу коэффициентов выборочной корреляции между показателем и факторами. Сделайте вывод о наличии проблемы мультиколлинеарности.
9. Оцените полученные результаты — сделайте выводы о качестве построенной модели, влиянии рассматриваемых факторов на показатель.
Коэффициент корреляции
Рисунок 4. Сравнение автокорреляционной функции (АКФ) и кросскорреляционной функции (ВКФ) для трех разных отведений
Значение корреляционного анализа состоит в нахождении автокорреляционной функции, которая показывает преобладающие ритмы, или взаимно-корреляционной функции, отражающей связь фрагмента обрабатываемого сигнала и эталона сигнала без помех и шумов или же связь между двумя неочищенными сигналами. (рис. 4) Биомедицинские сигналы относятся к квазипериодическим сигналам. ЭЭГ-сигналы содержат эпохи, имеющие схожие друг с другом характеристики. Эпоха ЭЭГ-сигнала – это произвольно выделенный период времени в записи ЭЭГ (чаще всего составляет 10 с.) В качестве эталона какой-либо эпохи ЭЭГ-сигнала используется либо стандартный фрагмент данного сигнала, свободный от помех и шумов, либо искусственно созданная модель стандартного фрагмента ЭЭГ-сигнала, построенная на основе заранее известных данных о форме и амплитудно-временных характеристик “чистого” фрагмента. Сравнение автокорреляционной функции (АКФ) и кросскорреляционной функции (ВКФ) для трех разных отведений представлено на рис. 4. График под буквой г изображает автокорреляционную функцию фрагмента а. Подобная функция графика свидетельствует о том, что сходство двух эпох данного сигнала сходит на ноль относительно медленно. Следовательно, мы можем сделать вывод о периодичности процессов, протекающих в данном отведении, т.к. отдельные его фрагменты достаточно сильно схожи друг с другом. Аналогичные выводы можно сделать и о сигнале на графике б, опираясь на его функцию, обозначенную буквой д.
Рисунок 5. Применение корреляционного анализа к обработке ЭЭГ-сигнала
С другой стороны, график в, автокорреляционная функция которого изображена на рисунке е, изображает хаотический процесс, отдельные фрагменты которого не подобны друг другу. Об этом свидетельствует крайне быстрое затухание его автокорреляционной функции. Т.о. процессы, протекающие в данном отведении, непериодичны, т.к. отдельные фрагменты графика мало схожи друг с другом.
График ж изображает кросс-корреляционную функцию между сигналами а и б. Ее медленное затухание свидетельствует о наличии взаимовлияния фрагментов а и б. График з и график и отражают кросс-корреляционную функцию между сигналами б–в и а–в соответственно. Поскольку затухание графика происходит достаточно быстро, мы можем сделать вывод о том, что между данными отрезками ЭЭГ-сигнала отсутствует существенная взаимосвязь.
Рисунок 6. Результат сравнения графиков напряжения при использовании сухих и влажных электродов
Корреляционный анализ применительно к исправлению графика ЭЭГ можно изобразить так: в центре иллюстрации приведено два графика – график воздействия стимула сверху (синий цвет) и фрагмент ЭЭГ снизу (синий цвет). (рис. 5)
В правой части иллюстрации изображены графики скорости воздействия стимула (синий цвет) и средней формы волны (розовый цвет). Последний был получен путем суммации изначальных ЭЭГ-графиков. Их также подвергли кросскорелляционному анализу, результат которого приведен ниже (розовый цвет). Затем, используя полученные данные о корреляции, был построен исправленный график ЭЭГ-сигнала (розовый цвет).
В левой части изображены графики скорости воздействия стимула (синий цвет) и мощности ЭЭГ (зеленый цвет). Их подвергли кросскорелляционному анализу, результат которого приведен ниже (зеленый цвет). Затем, используя полученные данные о корреляции, был построен исправленный график ЭЭГ-сигнала (зеленый цвет).
В случае, изображенном на рис. 6, сравниваются графики напряжения при использовании сухих (красный) и влажных (синий) электродов. Степень корреляции результатов представлена в виде графика черного цвета в верхней части изображения.
Чувствительность к распределению данных
Степень зависимости между переменными и не зависит от масштаба, в котором переменные выражены. То есть, если мы анализируем взаимосвязь между и , на большинство показателей корреляции не влияет преобразование в a + bX и в c + dY , где a , b , c и d являются константами ( b и d положительны). Это верно как для некоторых корреляционных статистических данных, так и для их популяционных аналогов. Некоторые статистические данные корреляции, такие как коэффициент ранговой корреляции, также инвариантны к монотонным преобразованиям предельных распределений и / или .
Икс{\ displaystyle X}Y{\ displaystyle Y}Икс{\ displaystyle X}Y{\ displaystyle Y}Икс{\ displaystyle X}Y{\ displaystyle Y}Икс{\ displaystyle X}Y{\ displaystyle Y}
Коэффициенты корреляции Пирсона / Спирмена между и показаны, когда диапазоны двух переменных не ограничены, а диапазон ограничен интервалом (0,1).Икс{\ displaystyle X}Y{\ displaystyle Y}Икс{\ displaystyle X}
Большинство мер корреляций чувствительны к форме , в которой и дискретизированной. Зависимости становятся сильнее, если рассматривать их в более широком диапазоне значений. Таким образом, если мы рассмотрим коэффициент корреляции между ростом отцов и их сыновей по всем взрослым мужчинам и сравним его с таким же коэффициентом корреляции, вычисленным, когда отцы выбраны ростом от 165 до 170 см, корреляция будет слабее в последнем случае. Было разработано несколько методов, которые пытаются исправить ограничение диапазона одной или обеих переменных, и обычно используются в метаанализе; наиболее распространены уравнения Торндайка II и III.
Икс{\ displaystyle X}Y{\ displaystyle Y}
Различные меры корреляции в использовании , может быть определена для некоторых совместных распределений X и Y . Например, коэффициент корреляции Пирсона определяется в терминах моментов и, следовательно, будет неопределенным, если моменты не определены. Всегда определяются показатели зависимости на основе квантилей . Статистические данные на основе выборки, предназначенные для оценки показателей зависимости совокупности, могут иметь или не иметь желаемых статистических свойств, таких как несмещенность или асимптотическая согласованность , в зависимости от пространственной структуры совокупности, из которой были взяты данные.
Чувствительность к распределению данных может быть использована с пользой. Например, масштабированная корреляция предназначена для использования чувствительности к диапазону, чтобы выделить корреляции между быстрыми компонентами временных рядов. Контролируемое сокращение диапазона значений позволяет отфильтровывать корреляции в долгой шкале времени, и выявляются только корреляции в короткой шкале времени.
Условия использования метода
Результативные факторы зависят от одного до нескольких факторов. Метод корреляционного анализа может применяться в том случае, если имеется большое количество наблюдений о величине результативных и факторных показателей (факторов), при этом исследуемые факторы должны быть количественными и отражаться в конкретных источниках. Первое может определяться нормальным законом — в этом случае результатом корреляционного анализа выступают коэффициенты корреляции Пирсона, либо, в случае, если признаки не подчиняются этому закону, используется коэффициент ранговой корреляции Спирмена.
Ближайшая действительная корреляционная матрица
В некоторых приложениях (например, при построении моделей данных только на основе частично наблюдаемых данных) нужно найти «ближайшую» корреляционную матрицу к «приблизительной» корреляционной матрице (например, матрица, которая обычно не имеет полуопределенной положительности из-за того, как она имеет вычислено).
В 2002 году Хайэм формализовал понятие близости с помощью нормы Фробениуса и предоставил метод вычисления ближайшей корреляционной матрицы с использованием алгоритма проекции Дикстры , реализация которого доступна в виде онлайн-веб-API.
Это вызвало интерес к предмету с новыми теоретическими (например, вычисление ближайшей корреляционной матрицы с факторной структурой) и численными (например, использование метода Ньютона для вычисления ближайшей корреляционной матрицы) результатами, полученными в последующие годы.
Анализ полученных результатов
После корректного заполнения всех параметров и нажатия кнопки OK отобразятся результаты анализа (в зависимости от выбранного способа). В нашем случае – на отдельном листе.
Ключевым показателем здесь является R-квадрат (коэффициент детерминации), значение которого характеризует качество модели. Приемлемым считается значение не менее 0,5 (или 50%).
Также следует обратить внимание на ячейку, расположенную на пересечении строки “Y-пересечение” и столбца “Коэффициенты”. Здесь показывается, каким будет значение Y (количество осадков), если все остальные факторы будут равны нулю
Ячейка на пересечении строки “Переменная X 1” и столбца “Коэффициенты” содержит значение, характеризующее степень зависимости Y от X. Коэф. 0,89 в нашем случае говорит о достаточно сильной связи между переменными.
9.1.3. Простая линейная регрессия
Применение линейного регрессионного анализа имеет специфические черты по сравнению с другими методами обработки данных. Его непосредственное употребление ограничено, в основном, задачами о предсказании значений зависимой переменной по известным значениям аргумента (или аргументов), что в психологии задача не слишком востребованная. Однако, во-первых, линейная регрессия входит как часть во многие другие методы (например, анализ медиации и модерации, о которых речь пойдет в следующей главе), и, во-вторых, служит простым примером отыскания наилучших параметров для модели определенного типа, и психологу полезно понимать суть этого метода. Качество каждого набора параметров, а затем и модели в целом, оценивается процентом дисперсии, который остался вне предсказаний, сделанных моделью по данным значениям аргументов. Замечательным результатом для читателя будет здесь улавливание аналогий с двухфакторным дисперсионным анализом.
Использование ПО при проведении корреляционного анализа
Описываемый вид статистической обработки данных может осуществляться с помощью программного обеспечения, в частности, MS Excel. Корреляционный анализ в Excel предполагает вычисление следующих параметров с использованием функций:
1. Коэффициент корреляции определяется с помощью функции КОРРЕЛ (массив1; массив2). Массив1,2 — ячейка интервала значений результативных и факторных переменных.
Линейный коэффициент корреляции также называется коэффициентом корреляции Пирсона, в связи с чем, начиная с Excel 2007, можно использовать функцию ПИРСОН (PEARSON) с теми же массивами.
Графическое отображение корреляционного анализа в Excel производится с помощью панели «Диаграммы» с выбором «Точечная диаграмма».
После указания исходных данных получаем график.
2. Оценка значимости коэффициента парной корреляции с использованием t-критерия Стьюдента. Рассчитанное значение t-критерия сравнивается с табличной (критической) величиной данного показателя из соответствующей таблицы значений рассматриваемого параметра с учетом заданного уровня значимости и числа степеней свободы. Эта оценка осуществляется с использованием функции СТЬЮДРАСПОБР (вероятность; степени_свободы).
3. Матрица коэффициентов парной корреляции. Анализ осуществляется с помощью средства «Анализ данных», в котором выбирается «Корреляция». Статистическую оценку коэффициентов парной корреляции осуществляют при сравнении его абсолютной величины с табличным (критическим) значением. При превышении расчетного коэффициента парной корреляции над таковым критическим можно говорить, с учетом заданной степени вероятности, что нулевая гипотеза о значимости линейной связи не отвергается.
Расчет доверительного интервала для коэффициента корреляции в Excel
В Эксель нет готовых функций для расчета доверительного интервала коэффициента корреляции, как для средней арифметической. Поэтому план такой:
— Делаем преобразование Фишера для r. — На основе нормальной модели рассчитываем доверительный интервал для z.— Делаем обратное преобразование Фишера из z в r.
Удивительно, но для преобразования Фишера в Excel есть специальная функция ФИШЕР.
Стандартная ошибка z легко подсчитывается с помощью формулы.
Используя функцию НОРМ.СТ.ОБР, определим квантиль нормального распределения. Доверительную вероятность возьмем 95%.
Значение 1,96 хорошо известно любому опытному аналитику. В пределах ±1,96σ от средней находится 95% нормально распределенных величин.
Используя z, стандартную ошибку и квантиль, легко определим доверительные границы z.
Последний шаг – обратное преобразование Фишера из z назад в r с помощью функции Excel ФИШЕРОБР. Получим доверительный интервал коэффициента корреляции.
Нижняя граница 95%-го доверительного интервала коэффициента корреляции – 0,724, верхняя граница – 0,953.
Надо пояснить, что значит значимая корреляция. Коэффициент корреляции статистически значим, если его доверительный интервал не включает 0, то есть истинное значение по генеральной совокупности наверняка имеет тот же знак, что и выборочная оценка.
Вычисление коэффициента посредством мастера функций
Предположим, что требуется установить связь между затратами на рекламу и объемом продаж какой-либо продукции. Для этого будем использовать коэффициент корреляции в Excel.
Порядок действий:
- Кликнуть по ячейке, в которой должен появиться результат.
- Нажать кнопку «Вставить формулу».
- В появившемся окне выбрать категорию «Полный алфавитный перечень».
- Найти и активировать функцию «КОРРЕЛ».
- Кликнуть «ОК».
- В открывшемся окне аргументов поставить курсор в поле «Массив 1», выделить первый столбец с данными.
- Поставить курсор в поле «Массив 2», выделить второй столбец из таблицы.
- Кликнуть «ОК».
В выделенной ячейке появляется результат вычислений корреляции в Excel.
Расчёт с помощью пакета анализа
Прежде чем воспользоваться инструментом корреляционного анализа, его нужно активировать. Для этого необходимо выполнить следующие действия:
- Выполнить действия «Файл» — «Сведения» — «Параметры».
- В появившемся окне перейти в раздел «Надстройки». В нижней части окна в выпадающем списке выбрать «Надстройки Excel». Нажать кнопку «Перейти».
- В открывшемся окне «Надстройки» следует о и нажать «ОК»
Чтобы воспользоваться пакетом, следует:
- На панели задач активировать вкладку «Данные».
- Нажать кнопку «Анализ данных».
- В новом окне выделить строку «Корреляция» и нажать «ОК». Появится окно с параметрами.
- Для выбора входного интервала необходимо установить курсор в соответствующее поле и выделить сразу оба столбца.
- Параметр группировки следует о. Вывод результатов возможен в указанное место, на новый лист или в новую книгу.
- Следует отметить соответствующее поле.
Работа со сводными таблицами в MS Excel
После указание всех параметров следует нажать «ОК».
Значение получилось тем же, что и в первом случае.
Поле корреляции (диаграмма рассеяния)
Корреляционное поле — это графическое отображение исходных данных. По расположению точек можно определить наличие зависимости и ее характер.
В редакторе Excel построение выполняется с помощью инструмента «Диаграмма»:
- Выделить столбцы с данными.
- Кликнуть «Вставка» — «Точечная» — «Точечная с маркерами».
- Результат построения корреляционной матрицы.
- По расположению точек на диаграмме можно сделать вывод о том, что прослеживается сильная положительная корреляционная зависимость между величиной затрат на маркетинг и объемом продаж.
- Для того, чтобы использовать диаграмму в практических целях, можно добавить линию тренда и уравнение. Для этого нужно выполнить следующие действия:
- Кликнуть правой кнопкой мыши на любой точке диаграммы.
- В контекстном меню выбрать «добавить линию тренда».
- Настроить параметры линии тренда (можно оставить по умолчанию).
- Нажать кнопку «закрыть».
Примеры использование корреляционного анализа
Как уже отмечалось выше, вычислить соотношение можно между любыми числовыми величинами. Обнаруженная высокая корреляция позволяет прогнозировать протекание каких-либо процессов в научных исследованиях, бизнесе, общественной жизни.
В рассмотренном выше примере была установлена высокая положительная корреляция между затратами на рекламу и объемом продаж определенного вида продукции. Кроме того, была определена формула, связывающая эти два показателя. Это исследование позволяет руководителю предприятия грамотно спланировать затраты на рекламу, с учетом необходимого размера продаж.
Другие примеры использования коэффициента корреляции:
Что делать, если лист или книга в Excel защищены паролем – как снять защиту
Редактор электронных таблиц Microsoft Excel является удобным инструментом для вычисления и наглядного представления результатов вычисления коэффициента корреляции.
Выборочный коэффициент корреляции
Коэффициент корреляции обычно рассчитывают по выборке. Значит, у аналитика в распоряжении не истинное значение, а оценка, которая всегда ошибочна. Если выборка была репрезентативной, то истинное значение коэффициента корреляции находится где-то относительно недалеко от оценки. Насколько далеко, можно определить через доверительные интервалы.
Согласно Центральное Предельной Теореме распределение оценки любого показателя стремится к нормальному с ростом выборки. Но есть проблемка. Распределение коэффициента корреляции вблизи придельных значений не является симметричным. Ниже пример распределения при истинном коэффициенте корреляции ρ = 0,86.
Предельное значение не дает выйти за 1 и, как бы «поджимает» распределение справа. Симметричная ситуация наблюдается, если коэффициент корреляции близок к -1.
В общем рассчитывать на свойства нормального распределения нельзя. Поэтому Фишер предложил провести преобразование выборочного коэффициента корреляции по формуле:
Распределение z для тех же r имеет следующий вид.
Намного ближе к нормальному. Стандартная ошибка z равна:
Далее исходя из свойств нормального распределения несложно найти верхнюю и нижнюю границы доверительного интервала для z. Определим квантиль стандартного нормального распределения для заданной доверительной вероятности, т.е. количество стандартных отклонений от центра распределения.
cγ – квантиль стандартного нормального распределения;N-1 – функция обратного стандартного распределения;γ – доверительная вероятность (часто 95%).Затем рассчитаем границы доверительного интервала.
Нижняя граница z:
Верхняя граница z:
Теперь обратным преобразованием Фишера из z вернемся к r.Нижняя граница r:
Верхняя граница r:
Это была теоретическая часть. Переходим к практике расчетов.
Ковариация
Одним из способов количественного определения силы связи между двумя переменными является их ковариация. Она измеряет тенденцию двух переменных изменяться вместе.
Если у нас имеется два ряда чисел, X и Y, то их отклонения от среднего значения составляют:
Здесь xi — это значение X с индексом i, yi — значение Y с индексом i, x̅ — среднее значение X, и y̅ — среднее значение Y. Если X и Y проявляют тенденцию изменяться вместе, то их отклонения от среднего будет иметь одинаковый знак: отрицательный, если они — меньше среднего, положительный, если они больше среднего. Если мы их перемножим, то произведение будет положительным, когда у них одинаковый знак, и отрицательным, когда у них разные знаки. Сложение произведений дает меру тенденции этих двух переменных отклоняться от среднего значения в одинаковом направлении для каждой заданной выборки.
Ковариация определяется как среднее этих произведений:
На чистом Python ковариация вычисляется следующим образом:
В качестве альтернативы, мы можем воспользоваться функцией pandas :
Ковариация роста и логарифма веса для наших олимпийских пловцов равна 1.356, однако это число сложно интерпретировать. Единицы измерения здесь представлены произведением единиц на входе.
По этой причине о ковариации редко сообщают как об отдельной сводной статистике. Сделать число более понятным можно, разделив отклонения на произведение стандартных отклонений. Это позволяет трансформировать единицы измерения в стандартные оценки и ограничить выход числом в диапазоне между -1 и +1. Этот результат называется корреляцией Пирсона.
Стандартная оценка, англ. standard score, также z-оценка — это относительное число стандартных отклонений, на которые значение переменной отстоит от среднего значения. Положительная оценка показывает, что переменная находится выше среднего, отрицательная — ниже среднего. Это безразмерная величина, получаемая при вычитании популяционного среднего из индивидуальных значений и деления разности на популяционное стандартное отклонение.
Трехмерное представление диаграммы разброса (рассеивания)
Помимо традиционного 2D-представления диаграммы разброса в настоящее время используется 3D-отображение графического представления корреляционного анализа.
Также используется матрица диаграммы рассеивания, которая отображает все парные графики на одном рисунке в матричном формате. Для n переменных матрица содержит n строк и n столбцов. Диаграмма, расположенная на пересечении i-ой строки и j-ого столбца, представляет собой график переменных Xi по сравнению с Xj. Таким образом, каждая строка и столбец являются одним измерением, отдельная ячейка отображает диаграмму рассеивания двух измерений.
3) уравнение линейной регрессии на
Это и есть та самая оптимальная прямая , которая проходит максимально близко ко всем точкам. Обычно её находят методом наименьших квадратов, и мы пойдём знакомым путём
Заполним расчётную таблицу:
Обратите внимание, что в отличие от задач урока МНК у нас появился дополнительный столбец , он потребуется в дальнейшем, для расчёта коэффициента корреляции
Сократим оба уравнения на 2, всё попроще будет:
Систему решим по формулам Крамера:, значит, система имеет единственное решение.
Таким образом, искомое уравнение регрессии:
Данное уравнение показывает, что с увеличением количества прогулов («икс») на 1 единицу суммарная успеваемость падает в среднем на 6,0485 – примерно на 6 баллов. Об этом нам рассказал коэффициент «а»
И обратите особое внимание, что эта функция возвращает нам средние (среднеожидаемые) значения «игрек» для различных значений «икс»
Почему это регрессия именно « на » и о происхождении самого термина «регрессия» я рассказал чуть ранее, в параграфе . Если кратко, то полученные с помощью уравнения средние значения успеваемости («игреки») регрессивно возвращают нас к первопричине – количеству прогулов. Вообще, регрессия – не слишком позитивное слово, но какое уж есть.
Найдём пару удобных точек для построения прямой:
отметим их на чертеже (малиновый цвет) и проведём линию регрессии:
Говорят, что уравнение регрессии аппроксимирует (приближает) эмпирические данные (точки), и с помощью него можно интерполировать (восстановить) неизвестные промежуточные значения, так при количестве прогулов среднеожидаемая успеваемость составит балла.
И, конечно, осуществимо прогнозирование, так при среднеожидаемая успеваемость составит баллов. Единственное, нежелательно брать «иксы», которые расположены слишком далеко от эмпирических точек, поскольку прогноз, скорее всего, не будет соответствовать действительности. Например, при значение может вообще оказаться невозможным, ибо у успеваемости есть свой фиксированный «потолок». И, разумеется, «икс» или «игрек» в нашей задаче не могут быть отрицательными.
Второй вопрос касается тесноты зависимости. Очевидно, что чем ближе эмпирические точки к прямой, тем теснее линейная корреляционная зависимость – тем уравнение регрессии достовернее отражает ситуацию, и тем качественнее полученная модель. И наоборот, если многие точки разбросаны вдали от прямой, то признак зависит от вовсе не линейно (если вообще зависит) и линейная функция плохо отражает реальную картину.
Прояснить данный вопрос нам поможет:
Парная корреляция
Этот термин употребляется для обозначения взаимоотношений между двумя определенными величинами. Известно, что расходы на рекламу в США в значительной мере влияют на объем ВВП этой страны. Коэффициент корреляции между данными величинами по итогам наблюдений, продолжавшихся в течение 20 лет, составляет 0,9699.
Более «приземленный» пример – связь между посещаемостью страницы онлайн-магазина и объемом его продаж.
И уж, конечно, вряд ли кто-нибудь станет отрицать наличие зависимости, существующей между температурой воздуха и продажами пива или мороженого.
Корреляция – это взаимозависимость двух величин; коэффициент корреляции – это объективный показатель, определяющий степень этой взаимозависимости. Коэффициент корреляции может быть и положительным, и отрицательным. Что касается ценных бумаг, то они крайне редко бывают абсолютно коррелированными.
Наши группы:

Эта тема закрыта для публикации ответов.