6 мин.

Строим модель ожидаемых пасов. Используем трекинг-данные по РПЛ

В статье мы построим модель expected passes (xP) и на ее основе создадим пару метрик, по которым отранжируем игроков РПЛ. Затем немного порассуждаем, что получилось.

Идея

Модель ожидаемых пасов не оригинальна. Но я решил изобрести свой велосипед.

Давайте построим модель, которая будет считать вероятность того, что передача будет успешной. Так мы получим некоторое число от 0 до 1, которое фактически означает сложность паса. Ну или «легкость» паса, так как чем выше xP, тем пас легче.

Данные

Используем данные за прошлый и текущий сезоны РПЛ. Данные представляют из себя координаты мяча и всех игроков. Также есть разметка событий в матче: игра головой, единоборства, дриблинг и т.д. Всего было охвачено 315 матчей.

Выкидываем из данных первые передачи после стандартов, вбросы аутов, а также вводы мяча вратарей. Осталось примерно 200 000 передач, из которых 82.1% оказались точными.

Реализация модели

На основе данных посчитаем следующие признаки.

  • Пас был сделан ногой, головой или другой частью тела.

  • Координаты паса и его адресата.

  • Предыдущее действие игрока. Пас был сделан после ведения или приема мяча и т.д.

  • Был ли пас сделан после подбора.

  • Был ли пас сделан во время единоборства вверху.

  • Расстояние между мячом и адресатом передачи.

  • Играет ли команда в большинстве/меньшинстве.

  • Расстояние от мяча/адресата до ближайшего партнера/соперника.

  • Расстояние от мяча/адресата до аута.

  • Количество партнеров/соперников в радиусе 3, 5, 7... метров от мяча/адресата.

  • Количество соперников в секторе между мячом и адресатом. Рисуется сектор с центром в мяче и радиусом равным расстоянию, чуть большему, чем между мячом и адресатом передачи. Считаем число соперников, попавших в сектор. Рассматриваем разный угол сектора: 10, 20, 30, 40, 50. Таким образом получим пять признаков.

  • Направление передачи.

  • Была ли передача сделана в одно касание.

  • Длина предыдущей передачи.

  • Производные признаки от вышеперечисленных.

Будем использовать модель LightGBM, которая неплохо справляется с подобными задачами.

Анализ передач

В модели xP мы никак не использовали названия команд и фамилии футболистов в качестве признаков, поэтому мы можем объективно оценить умение игрока пасовать. Сделать это просто. Для игрока считаем процент точных передач, из этого числа вычитаем средний xP этих передач. Получили метрику, назовем ее P-xP. Положительный знак этой метрики означает, что игрок отдавал более точные передачи, чем это сделал бы «средний» игрок лиги в тех же условиях.

На основе P-xP построим рейтинг игроков РПЛ. Оставим игроков, которые имеют хотя бы 100 передач. Получили следующие результаты.

Так, здесь что-то не то. Ни в коем случае не хочу принижать игру ногами Кержакова, Гильерме и Джанаева, но как-то уж слишком высоко расположились эти вратари. Давайте посмотрим, на кого чаще всего они пасовали.

Как видим, основной вклад в высокий P-xP Михаила Кержакова внес Артем Дзюба. Для Гильерме таким игроком выступил Эдер с 15-ю передачами с P-xP равным 0.358. Сослану Джанаеву помог Антон Заболотный: 32 передачи с 0.279 P-xP. Все три игрока хорошо играют на втором этаже, что повышает вероятность, что длинная передача окажется успешной.

Здесь возникает вопрос. Кто вносит больший вклад в успешность передачи: пасующий или тот, на кого эта передача направлена? Полагаю, многое зависит от длины паса. Если передача короткая, то пасующему нужно сделать все максимально точно: рассчитать силу и траекторию паса, оценить движение партнеров и соперников, положение корпуса адресата передачи и т.д. Если длинная, то здесь уже успех зависит от принимающего: пока летит мяч, нужно верно занять позицию, побороться с соперником, вовремя прыгнуть/развернуть корпус. Поэтому нужно анализировать длинные и короткие передачи отдельно.

Составим рейтинг P-xP на основе коротких передач, длиной меньше 30 метров. Можно задать и другую длину, это не сложно.

Однако и здесь есть проблема. P-xP как бы стимулирует игроков делать сложные передачи. Но что если игроку из-за стиля игры команды или позиции, например, центральному защитнику, приходится часто делать простые передачи? Такому игроку будет сложно набрать высокий P-xP. Давайте отфильтруем передачи по их сложности. Оставим только те пасы, вероятность успеха которых меньше 90%. К тому же было бы интересно посмотреть, как футболисты отдают передачи под давлением. Оставим игроков, которые имеют хотя бы 50 таких передач.

Ожидаемо, что в топ-40 стало больше центральных защитников.

Теперь составим рейтинг на основе длинных передач (> 30м), также отсеем передачи назад и поперек поля. Только будем ранжировать не пасующих игроков, а принимающих. Получим нечто вроде рейтинга столбов РПЛ. Оставим игроков, которые были адресатом хотя бы в 100 передачах.

Дзюба с разницей в +22.8% относительно лиги... это нечто.

Как видим, осталось не так много футболистов. У большинства игроков положительный средний P-xP. Это логично, если футболист плохо борется наверху или забегает за спину, то зачем на него постоянно делать длинные передачи? Еще одно более простое объяснение: такие нападающие нечасто выходят на поле, поэтому не успевают насобирать большое количество передач.

Профиль передач

На основе xP и других метрик можно составить профиль передач игрока. В качестве объекта исследования я решил выбрать Гжегожа Крыховяка. Давайте сравним Гжегожа с ним самим, но при разных тренерах. На мой взгляд, Крыховяк при Семине был одним из лучших в РПЛ, а при Николиче сам на себя не похож. Давайте посмотрим, как поменялись его передачи после смены тренера.

Пасы при Николиче стали чуть длинее, немного ближе к своим воротам. Стало меньше передач вперед, больше поперек поля. Слегка просела точность передач, при том, что их сложность стала ниже. При Юрии Палыче поляк имел 16% очень простых передач (xP > 0.99), при Марко Николиче доля таких передач возросла до 24%. При предыдущем тренере игрок демонстрировал нелохой P-xP, в том числе под давлением (две правые колонки). Сейчас его показатели на уровне среднего игрока РПЛ.

Эти цифры мало что говорят об эффективности. Вполне возможно, что менее рискованные передачи Гжегожа приносят больше пользы Локомотиву. Но семинский Крыховяк выглядит как-то повеселее.

Про эффективность

Вышеописанные метрики неплохо оценивают навыки пасовать, пасовать под давлением, принимать длинные передачи, но они мало информативны с точки зрения эффективности. Все-таки суть футбола забить побольше голов и пропустить поменьше, а не делать сложные передачи.

Игрок сделал трудный пас, но было ли это решение лучшим? Возможно, стоило отдать мяч другому игроку или вообще не пасовать, а ударить, например.

Другая проблема заключается в том, что при помощи P-xP мы не можем оценить вклад игрока в развитие атаки или в снятие напряжения со своих ворот, если мы говорим о выносах. Если переводить на язык математики получится что-то вроде «игрок каждым своим действием должен увеличивать вероятность своей команды забить и уменьшать вероятность забить сопернику». Такие метрики уже есть. Можно почитать, например, здесь.

Другое дело, что подобные метрики часто построены на чересчур «усредненных» моделях. Игрок передвинул мяч из квадратика A в квадратик B, получил за это награду в виде NSxG, но это число никак не зависит от сложности передачи. Открытый пас награждается так же, как пас выполненный под давлением. Однако xP может помочь решить эту проблему.