Многомерный статистический анализ
Пока всё на паузе, в том числе мой любимый футбол, а ещё и почти так же любимая учеба, решил совместить эти увлечения.
Не так давно на факультете прикладной математики Кубанского государственного университета (КубГУ) изучали курс «Многомерного статистического анализа», вот и пришла мысль использовать полученные академические знания на примере футбола.
Так как я, конечно, начинающий аналитик-любитель, то для анализа беру пока самые общие и простые данные — РПЛ сезона 2018-2019. Взял я их с Understat и NB-bet.
Для начала хочу продемонстрировать возможности Кластерного Анализа.
Кластерный анализ – это метод классификационного анализа; его основное назначение – разбиение множества исследуемых объектов и признаков на однородные группы (или кластеры). Попытаюсь оценить степень сходства (различия) команд друг с другом по совокупности тех качественных факторов,которые должны влиять на набранные очки и, соответственно, занятое место. Для построения рейтинга эффективности команд создадим команду «УЛ» (Условный Лидер), которая аккумулирует наилучшие ключевые показатели всех команд по итогам чемпионата.
Используем следующие показатели: Голы, xG, xPTS, DC, Индив.Тотал, xG90, Удары, Удары в створ, Владение мячом.
По логике эти параметры объективно должны влиять на итоговые данные, отраженные в турнирной таблице – набранные очки и занятые места – подтверждением чего служат сильные корреляционные связи.
Перед тем как выполнить анализ, хочу немного объяснить о методе иерархической классификации. Наши команды представлены как точки в пространстве рассматриваемых показателей. Чем ближе команды к друг другу в пространстве, тем больше сходства между их результатами. Вдоль оси OX обозначены расстояния последовательного объединения их в кластеры.
Использовав такой метод, получил интересный результат.
Первый кластер – по наиболее близкому расположению к Условному Лидеру – Краснодар, ЦСКА, Зенит и Локомотив. Именно они наиболее близки к лучшим значениям рассчитываемых факторов.
Наибольшее сходство в этом кластере у Краснодара и Условного Лидера – они объединяются при расстоянии менее 1,5 . Далее при расстоянии чуть более 1,5 примыкает ЦСКА и только затем Зенит.
Второй кластер можно назвать кластером команд-середняков. Ведь это все те команды, которые сражались за середину таблицы. Анализируя данный кластер, невозможно не отметить Спартак, который явно выделяется среди всех команд данного кластера. Именно он находится ближе всех к кластеру команд лидеров.
Третий кластер образует футбольный клуб Анжи.
Таблица рейтингов.
Обратимся к таблице расстояний команд до Условного Лидера. Очевидно, что чем меньше расстояние между командой и Условным Лидером, тем более высокого места она заслуживает.
В столбце "Рейтинг команд" приведены места команд, которые они заняли по расстоянию до Условного Лидера.
Красным выделены те команды, которые по совокупности рассматриваемых факторов должны были занять более высокие места в таблице; зелёным, если более низкие, и жёлтым – места совпадают.
В целом, рейтинг команд и фактически занятые в турнире места непротиворечивы. Обоснованием такого утверждения является коэффициент корреляции Спирмена, который позволяет определить в какой степени распределение мест команд по рассматриваемым показателям соответствует распределению по итогам чемпионата.
Коэффициент корреляции Спирмена равен 0,89. Это означает, что взаимосвязь между нашим составленным "рейтингом" команд и распределением мест в итоговой турнирной таблице сильная.
Также эту величину можно интерпретировать следующим образом – примерно 89% итогов чемпионата определялось теми показателями, которые предоставляет нам Understat и NB-bet.
В качестве вывода хочу сказать, что кластерный анализ тоже имеет право на жизнь, и не только модные и современные показатели можно учитывать при оценке, но и академические инструменты многомерного статистического анализа.
Многомерный статистический анализ включает в себя очень много методов анализа, которые можно и нужно применять в спорте. Попробую и другими методами посчитать. Футбол и учеба будут, чувствую, еще не скоро.