Элементы регрессионного анализа
Рассмотрим математический аппарат регрессионного анализа – метод наименьших квадратов (систему нормальных уравнений).
Рассмотрим однофакторную линейную модель регрессии. Пусть дано n – объектов, которые характеризуются двумя величинами, одну из которых мы будем интерпретировать как результирующий показатель Пусть мы ищем приближающий полином первой степени: Для этого найдем частные производные по параметрам и приравняем их к нулю:
где
Таким образом, имеем два уравнения и два неизвестных, и неизвестные входят в уравнения линейно. То есть, имеем СЛАУ (систему линейных алгебраических уравнений) 2-го порядка. Запишем в матричном виде:
Домножая слева левую и правую части на
Уравнение однофакторной линейной регрессии можно записать и через статистические характеристики рассматриваемых случайных величин:
где Как правило, в статистике рассматривают линейные, относительно входящих в уравнение параметров, регрессии, которые относятся к линейному регрессионному анализу. В частности к таким уравнениям относятся и уравнения вида:
Величину Линейный регрессионный анализ – линейный по параметрам (коэффициентам).
Стандартные модели линейного регрессионного анализа:
Рассмотрим модель однофакторной полиномиальной регрессии. Пусть дано
Рассмотрим функционал вида:
Тогда:
Возьмем частные производные, приравняем к нулю и приведем к виду:
Решая эту систему линейных алгебраических уравнений, получим вектор
Множественная линейная регрессия Берем
Зависимость между результирующим показателем
Известно, что регрессия проходит через точку
СЛАУ запишем в виде:
Замечание: Коэффициент корреляции – нормированный, смешанный момент второго порядка, является мерой линейной зависимости.
Из независимости следует некоррелированность, обратное, в общем случае, неверно (верно, если две случайные величины распределены по нормальному закону распределения).
Пример: Из некоррелированности не следует независимость. Рассмотрим случайную величину
Задачи, связанные с моделями регрессий (для примера – линейная однофакторная регрессия) 1. Найти коэффициенты регрессии. 2. Определить, значимы ли эти коэффициенты. 3. Нахождение вида оптимальной модели. 4. Адекватность модели.
Первый пункт решают с использования МНК. Для решения задачи о значимости коэффициента используют элементы дисперсионного анализа.
Утверждение: Для метода наименьших квадратов справедливо разложение:
где первая сумма в правой части – сумма квадратов, обусловленная регрессией, вторая сумма – остаточная сумма квадратов. Доказательство: Рассмотрим в качестве иллюстрации подхода случай однофакторной полиномиальной регрессии.
Рассмотрим удвоенное произведение:
Если остаточная сумма квадратов равна 0, то это означает, что регрессия проходит через выборочные точки. То есть, чем меньше остаточная сумма квадратов, а соответственно сумма квадратов регрессии, обусловленная регрессией, тем лучше.
Пусть у нас есть функция регрессии
Для решения такой задачи используют таблицу дисперсионного анализа:
В качестве критерия рассмотрим критерий Фишера:
Для нулевой гипотезы Если значение
Пример:
Решение:
Вычисления в MATLAB:
clc x=[1 3 4 5]; y=[10 20 18 20]; xc=mean(x); yc=mean(y); xyc=mean(x.*y); xc2=mean(x.*x); A=[1 xc; xc xc2] b=[yc;xyc] a=inv(A)*b y1=a(1,1)+a(2,1)*x %Суммаквадратоввариации SS=sum((y-yc).^2) SSO=sum((y-y1).^2) SSR=SS-SSO SSRK=SSR SSOK=SSO/2 F=SSRK/SSOK
Регрессия = 50.4; Остаток = 17.6; Общая вариация = 68.
Средние квадраты: регрессии – 50.4; остатка – 8.8; общей вар. – 22. (6)
Если для каждого Если аппроксимация плохая, то значение будет велико.
Можно ввести меру неадекватности: Тогда справедливо утверждение, что сумма квадратов остатка делится на 2 части:
1. неадекватность; 2. чистая ошибка, которая равна разности суммы квадратов остатка и неадекватности.
В качестве проверки неадекватности применяют критерий:
Если Средний квадрат неадекватности:
Пример: Неадекватность (прямая линия)
Дисперсионный анализ неадекватности: Вычисления в MATLAB:
x=[ 10 10 10 10 10 20 20 20 20 35 35 35 35 35 40 40 40 40 40 60 60 60 60 60] y1=[5 6 5 6 7] y2=[12 13 14 13] y3=[17 19 16 15 15] y4=[18 20 21 18 20] y5=[17 19 16 14 16] xx=[10 20 35 40 60] xc=mean(x) y=[y1 y2 y3 y4 y5] y1c=mean(y1) y2c=mean(y2) y3c=mean(y3) y4c=mean(y4) y5c=mean(y5) n1=length(y) yc=mean(y) ssy=sum((y-yc).^2) n=[length(y1) length(y2) length(y3) length(y4) length(y5)] yy=[y1c y2c y3c y4c y5c] x2c=mean(x.^2) xyc=mean(x.*y) A=[1 xc; xc x2c] b=[yc; xyc] a=inv(A)*b y1=a(1,1)+a(2,1)*x SSO=sum((y-y1).^2) SSR=sum((y1-yc).^2) yr=a(1,1)+a(2,1)*xx SSRN=sum(n.*(yr-yy).^2) SSHO=SSO-SSRN SSOK=SSO/22 SSRNK=SSRN/3 SSHOK=SSHO/19 F=SSRNK/SSHOK fprintf('F-критерий критич. %7.4f\n',F)
Для проверки на неадекватность вычислим:
Результат высокозначим. Таким образом, делаем вывод, что найденная прямая плохо аппроксимирует данные.
Популярное: Организация как механизм и форма жизни коллектива: Организация не сможет достичь поставленных целей без соответствующей внутренней... Почему стероиды повышают давление?: Основных причин три... Как выбрать специалиста по управлению гостиницей: Понятно, что управление гостиницей невозможно без специальных знаний. Соответственно, важна квалификация... ![]() ©2015-2024 megaobuchalka.com Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (481)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |