2 мин.

Препарация статистики Ковальчука. Часть 2

Модель: Логичным продолжением предыдущей части является демонстрация и объяснение выбранной модели. Благодаря данным полученным ранее, круг сузился до полинома второй степени, вернее до предположения об адекватности упомянутой модели. 

 

R - Model

Оценка результатов: Слишком маленькая выборка, так же сама структура формирования хоккейных показателей вносят свои негативные коррективы относительно методов статистики. Невероятное кол-во внешних факторов попросту "связывают руки", к тому же полное отсутствие "места для манёвра" лишает возможности в виде подгонки моделей. Невозможно исключать негативно влияющие результаты, а так же с большой допусками применять методы тестирования и проверок. Проще говоря нельзя сказать -  Илья, мне не нравится твоя статистика за прошлый сезон, величина слишком большая, поэтому я её исключаю из анализа. Но если бы структура формирования значений была иной, а счёт сезонов, например шёл на сотни, тогда такой подход имел бы смысл.  Возможно, в будущем, методы будут специализированы под хоккейную статистику, но на текущий момент это лишь мечты, поэтому приходится работать  с тем, что имеем. Об этих и многих других проблемах необходимо помнить при оценке результатов и "диагностике моделей", относительно хоккейной статистки, но углубляться не буду,  слишком обширная тема.

R-squared - R-квадрат, он же коэффициент детерминации. Величина указывает  насколько тесной является связь между факторами регрессии и зависимой переменной. Идеально около единицы. 

Adjusted R-squared - Скорректированный R-квадрат. В данном случае для коррекции R-квадрат при увеличении кол-ва факторов. Добавляет своего рода "штрафы" за дополнительно включённые факторы.

Полученные значения не идеальны. Значения не являются отрицательными, поэтому говорят о том, что удалось избежать крайней неадекватности модели. Так же, даже высокие значения рассматриваются вкупе с другими результатами, к ним и перейдём.

t value  и Pr(>|t|). Значения t-статистики - и критерий для него. Автоматический расчёт достаточно малого p-значения в виде "звёздочек". t value и "p", для него достаточно значимы.

F-statistic и p-value для него. Опять же не идеально, для p-value  очень малые значения подтверждают истинность нулевой гипотезы. Полученное значение меньше 0,05, что является приемлемым результатом

По результатам можно говорить о неидеальной, но более-менее адекватной модели, оценка адекватности которой на совести исследователя. Не мне судить если у меня совесть, во всяком случае возьму на себя смелость использовать полученные коэффициенты для вычисления недостающего  значения заброшенных шайб. Вся необходимая информация для оценки полученных результатов присутствует в прошлой части.

Публиковать продолжение о периоде выступления Ильи Ковальчука в КХЛ точно не буду. Предоставленная информация вполне достаточна для расширения кругозора и получения представлений о способах применения стат.анализа.