Рейтинг верховых единоборств топ-6 и РПЛ
В статье мы построим модель, основанную на методе, предложенным Гарри Гелайдом в статье A New Metric for Evaluating 1v1 Ability. На статью наткнулся в Блокноте.
Автор использует модель Брэдли-Терри, при помощи которой считает рейтинги игроков в контексте единоборств. Чем рейтинг игрока выше, тем выше вероятность выиграть единоборство.
Чем рейтинги лучше процента выигранных единоборств?
Такой подход лучше классического тем, что учитывает силу соперника. Это важно, потому что игрок мог "насобирать" хороший процент против не самых сильных оппонентов. Такие ситуации не редки, так как тренеры стараются, например, на стандартах сопоставить похожих игроков. Наш сильный дуэлянт (не знаю, как по-другому назвать участника единоборства) против сильного дуэлянта соперника. В итоге процент выигранных единоборств "стягивается" к 50, так как сильные борются с сильными, а слабые со слабыми.
Более того, подход Гелайда позволяет моделировать будущие ситуации. Например, оценить вероятность выиграть единоборство Александром Соболевым у Вирджила Ван Дейка.
Также стоит заметить, что реализация метода не требует больших усилий. Нам не нужен трекинг, нам даже большая часть event-данных не нужна: достаточно вытащить пару дуэлянтов и победителя. Почти не нужно делать предобработку данных. Не задача, а радость дата сайентиста.
Но больше всего меня поразили даже не вышеописанные преимущества, а то, о чем автор не упомянул. Гарри Гелайд придумал переносимую из лиги в лигу метрику!
Проблема переноса статистики
Лирическое отступление. Хороший нападающий должен уметь открываться за спину, толкаться в чужой штрафной, создавать себе момент при помощи дриблинга. Как это посчитать? Например, можно взять средний xG, который создает игрок. Но, допустим, футболист сейчас играет в слабой команде, а его хочет подписать клуб посильнее. Возможно, средний xG подрастет, партнеры же получше будут. А может, игрок был единственным в команде, кто по мячу мог нормально пнуть, в итоге все пасовали на него, тренер разрешал бить издали и тд. Одним словом, ничего не ясно.
В случае верховых единоборств у нас "изолированная" ситуация, так как большинство из них случаются после длинных забросов. Пока мяч в воздухе, можно успеть занять позицию, поставить корпус. Исход борьбы на втором этаже почти не зависит от партнеров по команде.
Исход зависит от самих дуэлянтов, рейтинги которых мы и считаем. Если разбавить данные матчами еврокубков и сборных, то рейтинги начнут перетекать из лиги в лигу. Трансферы игроков также помогают в переносе рейтингов из лиги в лигу.
Данные
Обучать модель будем на матчах чемпионатов Топ-6 и РПЛ, на матчах ЛЧ и ЛЕ с участием команд из этих лиг за последние два сезона (включая текущий), а также финальной стадии чемпионата Европы. Всего примерно 150 000 единоборств, в которых поучаствовали 4200 игроков.
Реализация модели
Будем использовать модель Glicko-2 (модели Брэдли-Терри, Elo, TrueSkill примерно из этой оперы).
Сначала выкинем вратарей из данных. Лень с ними возиться: они не так часто участвуют в единоборствах, плюс надо отличать ситуации внутри штрафной и вне ее. Да и сам их рейтинг надо бы по-особенному инициализировать.
Метод Гелайда не идеален по следующей причине. Автор предполагает, что единоборство - симметричная ситуация. Будто бы соперники находятся в равных условиях. Это не совсем так. Игроку в фазе защиты проще. С одной стороны, стоишь лицом к чужим воротам. С другой, во многих ситуациях даже не нужно касаться мяча, достаточно помешать это сделать нападающему и мяч улетит в аут, либо партнерам.
Это вроде бы подтверждает статистика: 62.4% верховых единоборств выигрывали игроки, находящиеся в фазе защиты. Логично, да?
Конечно, нет! Возможно, такой перекос в сторону обороняющихся связан, например, с тем, что центральные защитники чаще попадаются именно в фазе защиты, а не атаки. А поскольку центральные защитники на втором этаже играют лучше остальных, то становится понятно почему статистика отдалилась от 50%.
Поступим следующим образом. Разделим игроков на 5 групп: центральные защитники, крайние защитники, центральные и опорные полузащитники, атакующие полузащитники и вингеры, центральные нападающие.
Для подсчета статистики оставим только единоборства, в которых участвовали игроки из одной группы. Центральные защитники против центральных защитников, крайние защитники против крайних защитников и тд. На оставшихся данных получилась следующая статистика: 57.9% верховых единоборств выигрывали игроки, находящиеся в фазе защиты. Теперь вроде бы логично.
Однако давайте на этом не останавливаться. Будем дальше дробить данные. Никита Васюхин посоветовал посмотреть, как меняется ситуация при стандартах, кроссах, в штрафной и вне ее.
Было построено дерево решений:
Читать картинку нужно так: идем по дереву сверху вниз, если условие выполняется, то спускаемся в правую ветку, если нет - в левую. Например, игрок в фазе защиты выигрывает в среднем 54.6% единоборств после кросса в игровой ситуации, а в фазе атаки - 45.4%. (Samples показывает, какой процент данных у нас остался после разбиения.)
На основе полученных значений подберем значения признаков, которые при подсчете рейтингов помогут нам учесть то, что не все единоборства одинаковые. Похожие манипуляции мы делали в статье про рейтинг лиг.
Результаты
В рейтинге представлены игроки, у которых есть хотя бы 50 единоборств.
#duels - количество верховых единоборств;
duels% - процент выигранных единоборств;
#def_duels - количество верховых единоборств в фазе защиты;
def_duels% - процент выигранных единоборств в фазе защиты;
#off_duels - количество верховых единоборств в фазе атаки;
off_duels% - процент выигранных единоборств в фазе атаки.
Весь рейтинг можно посмотреть здесь.
Моделирование будущих единоборств
Рейтинги позволяют оценивать вероятность победы в единоборстве игроков, которые даже никогда не встречались на поле. Подсчитанные признаки позволяют вносить контекст, может, не самый детальный, но все-таки.
Например, вероятность того, что Игорь Дивеев выиграет единоборство у Златана Ибрагимовича после подачи углового Миланом равна 56.2%.
Если добавить xP и xG, то можно моделировать и более интересные вещи. Например, сравнивать подачи на ближнюю и дальнюю штангу. Оценивать вероятности, что такие передачи вообще пройдут, что единоборство будет выиграно, а удар после выигранной борьбы станет голом.
Понятно, что на бумаге звучит просто. Проблема xG-подобных моделей - в них не так просто вносить контекст и тяжело интерпретировать.
Проблемы
На мой взгляд, сама модель получилась весьма неплохой. Данных достаточно, метод не сложный. По сути все упирается в качество разметки. У всех свое видение, что такое единоборство, и кто из него выходит победителем. Поэтому пока не рассматривались единоборства "на земле". Если с верховыми все более-менее понятно, то с обычными все гораздо сложнее: игрок мог просто пробегать мимо соперника с мячом, а это размечается как единоборство.